Size: a a a

Natural Language Processing

2020 January 01

D

Den in Natural Language Processing
👀
источник

V

Vlad in Natural Language Processing
year++ :)
источник
2020 January 02

D(

David (ddale) Dale in Natural Language Processing
Всем привет и с Новым годом!
Друзья, какие вы знаете более-менее публичные лидерборды по русскоязычному NLP?
Мечтаю об аналоге GLUE. Понимаю, что такого нет, но надеюсь, что по кусочкам можно собрать.
Так что если вы знаете для разных русских NLP-задач датасеты+разбивки трейн/тест+метрики - поделитесь, пожалуйста.
источник

D(

David (ddale) Dale in Natural Language Processing
Для затравки: открыты ли данные, на которых DeepPavlov свои русские модельки замеряет?
источник

YB

Yuri Baburov in Natural Language Processing
David (ddale) Dale
Всем привет и с Новым годом!
Друзья, какие вы знаете более-менее публичные лидерборды по русскоязычному NLP?
Мечтаю об аналоге GLUE. Понимаю, что такого нет, но надеюсь, что по кусочкам можно собрать.
Так что если вы знаете для разных русских NLP-задач датасеты+разбивки трейн/тест+метрики - поделитесь, пожалуйста.
Надо брать ежегодные конкурсы Диалога (morphoeval, factrueval , ...) а также semeval от НГУ.
источник

YB

Yuri Baburov in Natural Language Processing
David (ddale) Dale
Для затравки: открыты ли данные, на которых DeepPavlov свои русские модельки замеряет?
Процентов на 90. Есть исключения, но обычно открыты
источник

D(

David (ddale) Dale in Natural Language Processing
Yuri Baburov
Надо брать ежегодные конкурсы Диалога (morphoeval, factrueval , ...) а также semeval от НГУ.
Да, Диалог первым приходи в голову)
Semeval погляжу, спасибо!
источник

YB

Yuri Baburov in Natural Language Processing
David (ddale) Dale
Всем привет и с Новым годом!
Друзья, какие вы знаете более-менее публичные лидерборды по русскоязычному NLP?
Мечтаю об аналоге GLUE. Понимаю, что такого нет, но надеюсь, что по кусочкам можно собрать.
Так что если вы знаете для разных русских NLP-задач датасеты+разбивки трейн/тест+метрики - поделитесь, пожалуйста.
И, кстати, у glue есть большой недостаток. У нескольких заданий статистика (т.е. не обобщение, а скорее, в варианте "всегда говори да, наберёшь 70%") позволяет DL алгоритму показывать 80%-90%. А если декоррелировать -- то 60% (и это в бинарном тесте).
Поэтому появился SuperGlue
источник

D(

David (ddale) Dale in Natural Language Processing
Yuri Baburov
И, кстати, у glue есть большой недостаток. У нескольких заданий статистика (т.е. не обобщение, а скорее, в варианте "всегда говори да, наберёшь 70%") позволяет DL алгоритму показывать 80%-90%. А если декоррелировать -- то 60% (и это в бинарном тесте).
Поэтому появился SuperGlue
Ага, читал про это
источник
2020 January 08

ЮИ

Юрий Игнатьев in Natural Language Processing
Добрый день.
При использовании Yargy-парсера столкнулся с задачей распознавания дат. Помимо обрабатываемых готовым правилом форматов дат присутствуют следующие:
1) 1970-01-01T00:00:00;
2) 19700101;

Первый формат имеет типичное решение, но вот со вторым возникли трудности, поскольку вся дата в таком формате представляет собой один цельный токен и интерпретировать его на общую модель "типовым решением по примеру" не выходит.

Необходимо каким--то образом разбить токен при обработке на 3 составные части.

Дайте, пожалуйста, совет - что с этим можно сделать, или если кто сталкивался - пример решения такого типа задачи.
источник

SS

Sergey Shulga in Natural Language Processing
Юрий Игнатьев
Добрый день.
При использовании Yargy-парсера столкнулся с задачей распознавания дат. Помимо обрабатываемых готовым правилом форматов дат присутствуют следующие:
1) 1970-01-01T00:00:00;
2) 19700101;

Первый формат имеет типичное решение, но вот со вторым возникли трудности, поскольку вся дата в таком формате представляет собой один цельный токен и интерпретировать его на общую модель "типовым решением по примеру" не выходит.

Необходимо каким--то образом разбить токен при обработке на 3 составные части.

Дайте, пожалуйста, совет - что с этим можно сделать, или если кто сталкивался - пример решения такого типа задачи.
Так то простая регулярка поможет, но если в тексте есть числа в 8 знаков, то у тебя проблемы.
источник

SS

Sergey Shulga in Natural Language Processing
Посмотри на либу dateparser, там можно покрутить нужный формат
источник

SS

Sergey Shulga in Natural Language Processing
По крайней мере я заставил ее работать в очень широком диапазоне
источник

ЮИ

Юрий Игнатьев in Natural Language Processing
Sergey Shulga
Так то простая регулярка поможет, но если в тексте есть числа в 8 знаков, то у тебя проблемы.
В тексте не исключено появление таких чисел.

Также в тексте будет производиться поиск ФИО и Адресов, поэтому хотелось бы использовать один инструмент (Yargy).

Пока, помимо выделения попадающих в диапазон (хотя бы годов) значений дальше не продвинулся:

DATE_IN_SINGLE_INT = and_(
   type('INT'),
   gte(19000000),
   lte(21000000)
)

Поскольку разбить на данном этапе токен на меньшие не выйдет (с Yargy познакомился недавно, поэтому могу ошибаться), то ищу другие способы решения вопроса.
источник

D

Dmitry in Natural Language Processing
Интересный вопрос
источник

D

Dmitry in Natural Language Processing
А решение есть?
источник

ЮИ

Юрий Игнатьев in Natural Language Processing
Dmitry
А решение есть?
За помощью в решении в этот чат и обратился.

Вопрос по сути сводится к следующему - можно ли один токен распределить на несколько атрибутов модели (день, месяц, год)?
источник

D

Dmitry in Natural Language Processing
Юрий Игнатьев
За помощью в решении в этот чат и обратился.

Вопрос по сути сводится к следующему - можно ли один токен распределить на несколько атрибутов модели (день, месяц, год)?
Я сам ищу ответ)
источник

V

Vikas in Natural Language Processing
How to approach this problem where multiple file contains similar data I want to train model
источник

VI

Vitaly Ivanin in Natural Language Processing
Vikas
How to approach this problem where multiple file contains similar data I want to train model
источник