Size: a a a

Natural Language Processing

2019 November 12

I🍵

Iván 🍵 in Natural Language Processing
А уже готовых иерархических классификаторов нет в либах?
Или реализованных иерархических стат. подходов?
Интересная задачка
источник

B

Brenoritvrezorkre in Natural Language Processing
Structured prediction допускает иерархии
источник

YB

Yuri Baburov in Natural Language Processing
Pavel Lebedev
Привет! Дано: большое количество предобработанных текстов в таком виде: 1) «мотивы» (атомарные составляющие текстов) 2) «традиции» (условно, язык, страна, или место, где записывались мотивы; каждая традиция состоит из множества мотивов; имеет также географические координаты) 3) разреженная матрица традиции/мотивы: какие мотивы в каких традициях встречаются. 4) отдельные мотивы малозначимы и могут являться шумами, но статистически значимые совпадения многих мотивов в разных традициях могут показывать их, в некотором смысле, «родство». Известно, что разные традиции имеют разную степень «родства» и включают разные «комбинации» других традиций, плюс какое-то количество своих уникальных мотивов. В разных крупномасштабных регионах преобладают разные группы мотивов. Требуется: Что бы такого наглядного из этой матрицы можно было бы кластеризовать/классифицировать/регрессировать/еще как-то выделить? Как можно попытаться выделить крупномасштабные структуры? Что можно было бы попробовать отобразить на карте? Какими алгоритмами?
может, так?
переименовать первое в "фичи", второе в "ключевые слова", а может, "темы" и "ключевые слова" (а может, наоборот), а потом действовать по аналогии с любыми другими штуками, которые с таким работают...
источник

МЛ

Мария Левченко in Natural Language Processing
Pavel Lebedev
Привет! Дано: большое количество предобработанных текстов в таком виде: 1) «мотивы» (атомарные составляющие текстов) 2) «традиции» (условно, язык, страна, или место, где записывались мотивы; каждая традиция состоит из множества мотивов; имеет также географические координаты) 3) разреженная матрица традиции/мотивы: какие мотивы в каких традициях встречаются. 4) отдельные мотивы малозначимы и могут являться шумами, но статистически значимые совпадения многих мотивов в разных традициях могут показывать их, в некотором смысле, «родство». Известно, что разные традиции имеют разную степень «родства» и включают разные «комбинации» других традиций, плюс какое-то количество своих уникальных мотивов. В разных крупномасштабных регионах преобладают разные группы мотивов. Требуется: Что бы такого наглядного из этой матрицы можно было бы кластеризовать/классифицировать/регрессировать/еще как-то выделить? Как можно попытаться выделить крупномасштабные структуры? Что можно было бы попробовать отобразить на карте? Какими алгоритмами?
Это база данных Березкина?
источник

PL

Pavel Lebedev in Natural Language Processing
Yuri Baburov
может, так?
переименовать первое в "фичи", второе в "ключевые слова", а может, "темы" и "ключевые слова" (а может, наоборот), а потом действовать по аналогии с любыми другими штуками, которые с таким работают...
Это что-то вроде topic modeling? Или какие штуки с подобным работают?
источник

PL

Pavel Lebedev in Natural Language Processing
Мария Левченко
Это база данных Березкина?
Она, родимая.
источник

МЛ

Мария Левченко in Natural Language Processing
Pavel Lebedev
Она, родимая.
"Сетевой" анализ на ней же делали? Граф по географическим точкам, где ребрами будет совпадение мотивов?
источник

AB

Arcady Balandin in Natural Language Processing
Какой есть словарь (любого языка: русский , английский, японский и пр.) где каждому слову давалось бы облако тегов, характеризующее его. Гиперонимы там, атрибуты.
Типа
Собака: друг, верный, животное...
источник

ДТ

Дмитрий Тырин in Natural Language Processing
Arcady Balandin
Какой есть словарь (любого языка: русский , английский, японский и пр.) где каждому слову давалось бы облако тегов, характеризующее его. Гиперонимы там, атрибуты.
Типа
Собака: друг, верный, животное...
Есть предобученные эмбединги слов (например word2vec). Где словам соответствуют вектора. И вектора тем ближе, чем слова по смыслу. + имеет смысл арифметические операции с векторами.
Думаю стоит в эту область посмотреть
источник

AB

Arcady Balandin in Natural Language Processing
Дмитрий Тырин
Есть предобученные эмбединги слов (например word2vec). Где словам соответствуют вектора. И вектора тем ближе, чем слова по смыслу. + имеет смысл арифметические операции с векторами.
Думаю стоит в эту область посмотреть
Мне по сути нужен semantic lexicon. Типа wordnet но где классы слов максимально широкие. Типа "цвет", животное, хороший,плохой. Что то вроде sentiment analysis но для слов и по десяткам шкал вместо одной
источник

AB

Arcady Balandin in Natural Language Processing
Но векторное пространство тоже мысль.
источник
2019 November 13

YB

Yuri Baburov in Natural Language Processing
Arcady Balandin
Какой есть словарь (любого языка: русский , английский, японский и пр.) где каждому слову давалось бы облако тегов, характеризующее его. Гиперонимы там, атрибуты.
Типа
Собака: друг, верный, животное...
бабельнет? (и conceptnet тоже, но та меньше)
источник

YB

Yuri Baburov in Natural Language Processing
Yuri Baburov
бабельнет? (и conceptnet тоже, но та меньше)
источник

I

Ilya in Natural Language Processing
Привет!
Подскажите, плз, где можно найти дамп статей с хабра? Либо другого ресурса, такого, что бы можно было быть уверенным, что текст статей написан одним автором, а не коллективом, как на Вики.

На хабре есть статья
https://habr.com/ru/post/321206/
В которой дана ссылка на дамп. Но дамп сделан в формате .mx

.MX - это wolfram mathematica. Чтобы прочитать данные поставил триал 12 версии. Сначала казалось, что этот вольфрам создали риптилойды, но сомнения рассеялись, когда стало понятно, что 12 версия не открывает файл из статьи: методы чтения файла (из упоротой документации) возвращают null.
источник

IK

Irina Krotova in Natural Language Processing
Ilya
Привет!
Подскажите, плз, где можно найти дамп статей с хабра? Либо другого ресурса, такого, что бы можно было быть уверенным, что текст статей написан одним автором, а не коллективом, как на Вики.

На хабре есть статья
https://habr.com/ru/post/321206/
В которой дана ссылка на дамп. Но дамп сделан в формате .mx

.MX - это wolfram mathematica. Чтобы прочитать данные поставил триал 12 версии. Сначала казалось, что этот вольфрам создали риптилойды, но сомнения рассеялись, когда стало понятно, что 12 версия не открывает файл из статьи: методы чтения файла (из упоротой документации) возвращают null.
У меня где-то был выкачанный архив (не полностью), могу скинуть на почту в течение пары часов.
источник

AB

Arcady Balandin in Natural Language Processing
Ну тут я гиперонимы не вижу что то
источник

YB

Yuri Baburov in Natural Language Processing
Arcady Balandin
Ну тут я гиперонимы не вижу что то
ты оба тезауруса посмотрел? у них общие id кстати вроде бы были
источник

AB

Arcady Balandin in Natural Language Processing
Yuri Baburov
ты оба тезауруса посмотрел? у них общие id кстати вроде бы были
Я просто открыл обе веб страницы твоих ссылок.
источник

YB

Yuri Baburov in Natural Language Processing
Arcady Balandin
Я просто открыл обе веб страницы твоих ссылок.
я одну ссылку дал неправильную кстати, а ты поленился кликнуть на ссылку на странице.
https://babelnet.org/synset?word=bn:00015267n&details=1&lang=RU&orig=%D1%81%D0%BE%D0%B1%D0%B0%D0%BA%D0%B0
здесь есть иерархия
источник

YB

Yuri Baburov in Natural Language Processing
Yuri Baburov
ты оба тезауруса посмотрел? у них общие id кстати вроде бы были
как минимум, их id можно объединить по общей ссылке на википедию.
источник