Телеграмм чат группы natural_language_processing страница 750

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Natural Language Processing

1772 membersпожаловаться на группу

2020 July 21

I

I Апрельский... in Natural Language Processing

@mtikhomi спасибо за подробные пояснения!

источник

13:27пожаловаться #1

MT

Mikhail Tikhomirov in Natural Language Processing

Обращайтесь, отвечу в меру своих знаний. Я заинтересован в том, чтобы люди участвовали в данном соревновании, ибо данная предметная область представляет мои научные интересы :)

источник

13:28пожаловаться #2

I

I Апрельский... in Natural Language Processing

а что это за интересы? :) в смысле, наверняка же, речь не просто про гиперонимы.

источник

13:35пожаловаться #3

MT

Mikhail Tikhomirov in Natural Language Processing

Про общую задачу в целом. Есть тезаурус, допустим некий "общий". Есть новый датасет, например про медицину или что-либо еще. То есть гигабайты текстовых данных.
Соответственно нужно:
1) Найти новые концепты, выраженные в словоформах (как однословные, так и многословные)
2) Достроить тезаурус, используя эти концепты. И очевидно, что не все надо сразу куда то "прикреплять", ибо часть концептов будут гипонимами новых концептов, делать это наверное надо как то итерационно
3) Посмотреть какие старые концепты не актуальны, удалить их или пересчитать связи

В идеале это все делать автоматически, но для начала хотя бы автоматизированно.

источник

13:39пожаловаться #4

MT

Mikhail Tikhomirov in Natural Language Processing

Основные отношения тезауруса таки гиперонимия и гипонимия, но также есть синонимия, выраженная в том, что в одном концепте разные словоформы

источник

13:40пожаловаться #5

MT

Mikhail Tikhomirov in Natural Language Processing

антонимы, еще что-то

источник

13:40пожаловаться #6

MT

Mikhail Tikhomirov in Natural Language Processing

Пока сделано мало, планирую продвинуться в этом году :)

источник

13:41пожаловаться #7

I

I Апрельский... in Natural Language Processing

а в терминах синсетов формализуется или что-то "доморощенное"?

источник

13:41пожаловаться #8

FF

Futorio Franklin in Natural Language Processing

Mikhail Tikhomirov

Про общую задачу в целом. Есть тезаурус, допустим некий "общий". Есть новый датасет, например про медицину или что-либо еще. То есть гигабайты текстовых данных.
Соответственно нужно:
1) Найти новые концепты, выраженные в словоформах (как однословные, так и многословные)
2) Достроить тезаурус, используя эти концепты. И очевидно, что не все надо сразу куда то "прикреплять", ибо часть концептов будут гипонимами новых концептов, делать это наверное надо как то итерационно
3) Посмотреть какие старые концепты не актуальны, удалить их или пересчитать связи

В идеале это все делать автоматически, но для начала хотя бы автоматизированно.

А нет работы в области knowledge graph на эту тему?

источник

13:41пожаловаться #9

MT

Mikhail Tikhomirov in Natural Language Processing

Думаю есть, но применительно к отношениям гиперонимии и гипонимии не так много всего (вроде бы), хотя можно наверняка позаимствовать идеи какие-нибудь

источник

13:42пожаловаться #10

MT

Mikhail Tikhomirov in Natural Language Processing

I Апрельский

а в терминах синсетов формализуется или что-то "доморощенное"?

ну концепт = синсет по факту

источник

13:43пожаловаться #11

I

I Апрельский... in Natural Language Processing

Mikhail Tikhomirov

ну концепт = синсет по факту

видимо, мне любопытно как технически моделируются отношения. какой-то свой подход (например, на базе XML) или переиспользован что-то чужое популярное (например, из семантиквеба)?

источник

13:47пожаловаться #12

MT

Mikhail Tikhomirov in Natural Language Processing

I Апрельский

видимо, мне любопытно как технически моделируются отношения. какой-то свой подход (например, на базе XML) или переиспользован что-то чужое популярное (например, из семантиквеба)?

Технически тезаурус представляется xml файлами просто. Как его использовать дальше - дело вкуса.
Опубликованная версия доступна на странице соревнования (надо в него вступить, чтобы получить доступ) там можно все конкретно посмотреть.

источник

13:49пожаловаться #13

YB

Yuri Baburov in Natural Language Processing

Чем тогда закончилось эта инициатива с переводом диалогов?

да не добили. 95% переводов есть (а остальные гугл не хочет переводить по непонятной причине, вероятно одиночные переводы в тех батчах глючат), исходные файлы есть. надо теперь сделанные переводы обратно вмёрджить в исходные файлы, оформить репозиторий, написать минимальную документацию, лицензию, и выложить.

источник

18:37пожаловаться #14

YB

Yuri Baburov in Natural Language Processing

да не добили. 95% переводов есть (а остальные гугл не хочет переводить по непонятной причине, вероятно одиночные переводы в тех батчах глючат), исходные файлы есть. надо теперь сделанные переводы обратно вмёрджить в исходные файлы, оформить репозиторий, написать минимальную документацию, лицензию, и выложить.

как обычно, желающие доделать приветствуются.

источник

18:38пожаловаться #15

$

$○| in Natural Language Processing

как обычно, желающие доделать приветствуются.

а можно пример диалогов оттуда

источник

18:45пожаловаться #16

$

$○| in Natural Language Processing

небольшой

источник

18:45пожаловаться #17

YB

Yuri Baburov in Natural Language Processing

а можно пример диалогов оттуда

поищи сам плз

источник

18:46пожаловаться #18

$

$○| in Natural Language Processing

поищи сам плз

окей

источник

18:46пожаловаться #19

$

$○| in Natural Language Processing

я имел ввиду на русском

источник

18:46пожаловаться #20