Size: a a a

Natural Language Processing

2020 July 21

I

I Апрельский... in Natural Language Processing
@mtikhomi спасибо за подробные пояснения!
источник

MT

Mikhail Tikhomirov in Natural Language Processing
Обращайтесь, отвечу в меру своих знаний. Я заинтересован в том, чтобы люди участвовали в данном соревновании, ибо данная предметная область представляет мои научные интересы :)
источник

I

I Апрельский... in Natural Language Processing
а что это за интересы? :) в смысле, наверняка же, речь не просто про гиперонимы.
источник

MT

Mikhail Tikhomirov in Natural Language Processing
Про общую задачу в целом. Есть тезаурус, допустим некий "общий". Есть новый датасет, например про медицину или что-либо еще. То есть гигабайты текстовых данных.
Соответственно нужно:
1) Найти новые концепты, выраженные в словоформах (как однословные, так и многословные)
2) Достроить тезаурус, используя эти концепты. И очевидно, что не все надо сразу куда то "прикреплять", ибо часть концептов будут гипонимами новых концептов, делать это наверное надо как то итерационно
3) Посмотреть какие старые концепты не актуальны, удалить их или пересчитать связи

В идеале это все делать автоматически, но для начала хотя бы автоматизированно.
источник

MT

Mikhail Tikhomirov in Natural Language Processing
Основные отношения тезауруса таки гиперонимия и гипонимия, но также есть синонимия, выраженная в том, что в одном концепте разные словоформы
источник

MT

Mikhail Tikhomirov in Natural Language Processing
антонимы, еще что-то
источник

MT

Mikhail Tikhomirov in Natural Language Processing
Пока сделано мало, планирую продвинуться в этом году :)
источник

I

I Апрельский... in Natural Language Processing
а в терминах синсетов формализуется или что-то "доморощенное"?
источник

FF

Futorio Franklin in Natural Language Processing
Mikhail Tikhomirov
Про общую задачу в целом. Есть тезаурус, допустим некий "общий". Есть новый датасет, например про медицину или что-либо еще. То есть гигабайты текстовых данных.
Соответственно нужно:
1) Найти новые концепты, выраженные в словоформах (как однословные, так и многословные)
2) Достроить тезаурус, используя эти концепты. И очевидно, что не все надо сразу куда то "прикреплять", ибо часть концептов будут гипонимами новых концептов, делать это наверное надо как то итерационно
3) Посмотреть какие старые концепты не актуальны, удалить их или пересчитать связи

В идеале это все делать автоматически, но для начала хотя бы автоматизированно.
А нет работы в области knowledge graph на эту тему?
источник

MT

Mikhail Tikhomirov in Natural Language Processing
Думаю есть, но применительно к отношениям гиперонимии и гипонимии не так много всего (вроде бы), хотя можно наверняка позаимствовать идеи какие-нибудь
источник

MT

Mikhail Tikhomirov in Natural Language Processing
I Апрельский
а в терминах синсетов формализуется или что-то "доморощенное"?
ну концепт = синсет по факту
источник

I

I Апрельский... in Natural Language Processing
Mikhail Tikhomirov
ну концепт = синсет по факту
видимо, мне любопытно как технически моделируются отношения. какой-то свой подход (например, на базе XML) или переиспользован что-то чужое популярное (например, из семантиквеба)?
источник

MT

Mikhail Tikhomirov in Natural Language Processing
I Апрельский
видимо, мне любопытно как технически моделируются отношения. какой-то свой подход (например, на базе XML) или переиспользован что-то чужое популярное (например, из семантиквеба)?
Технически тезаурус представляется xml файлами просто.  Как его использовать дальше - дело вкуса.
Опубликованная версия доступна на странице соревнования (надо в него вступить, чтобы получить доступ) там можно все конкретно посмотреть.
источник

YB

Yuri Baburov in Natural Language Processing
$○|
Чем тогда закончилось эта инициатива с переводом диалогов?
да не добили. 95% переводов есть (а остальные гугл не хочет переводить по непонятной причине, вероятно одиночные переводы в тех батчах глючат), исходные файлы есть. надо теперь сделанные переводы обратно вмёрджить в исходные файлы, оформить репозиторий, написать минимальную документацию, лицензию, и выложить.
источник

YB

Yuri Baburov in Natural Language Processing
Yuri Baburov
да не добили. 95% переводов есть (а остальные гугл не хочет переводить по непонятной причине, вероятно одиночные переводы в тех батчах глючат), исходные файлы есть. надо теперь сделанные переводы обратно вмёрджить в исходные файлы, оформить репозиторий, написать минимальную документацию, лицензию, и выложить.
как обычно, желающие доделать приветствуются.
источник

$

$○| in Natural Language Processing
Yuri Baburov
как обычно, желающие доделать приветствуются.
а можно пример диалогов оттуда
источник

$

$○| in Natural Language Processing
небольшой
источник

YB

Yuri Baburov in Natural Language Processing
$○|
а можно пример диалогов оттуда
поищи сам плз
источник

$

$○| in Natural Language Processing
Yuri Baburov
поищи сам плз
окей
источник

$

$○| in Natural Language Processing
я имел ввиду на русском
источник