Телеграмм чат группы natural_language

2020 January 01

D

Den in Natural Language Processing

👀

источник

03:15пожаловаться #1

V

Vlad in Natural Language Processing

year++ :)

источник

03:34пожаловаться #2

2020 January 02

D(

David (ddale) Dale in Natural Language Processing

Всем привет и с Новым годом!
Друзья, какие вы знаете более-менее публичные лидерборды по русскоязычному NLP?
Мечтаю об аналоге GLUE. Понимаю, что такого нет, но надеюсь, что по кусочкам можно собрать.
Так что если вы знаете для разных русских NLP-задач датасеты+разбивки трейн/тест+метрики - поделитесь, пожалуйста.

источник

11:47пожаловаться #3

D(

David (ddale) Dale in Natural Language Processing

Для затравки: открыты ли данные, на которых DeepPavlov свои русские модельки замеряет?

источник

11:48пожаловаться #4

YB

Yuri Baburov in Natural Language Processing

David (ddale) Dale

Всем привет и с Новым годом!
Друзья, какие вы знаете более-менее публичные лидерборды по русскоязычному NLP?
Мечтаю об аналоге GLUE. Понимаю, что такого нет, но надеюсь, что по кусочкам можно собрать.
Так что если вы знаете для разных русских NLP-задач датасеты+разбивки трейн/тест+метрики - поделитесь, пожалуйста.

Надо брать ежегодные конкурсы Диалога (morphoeval, factrueval , ...) а также semeval от НГУ.

источник

11:49пожаловаться #5

YB

Yuri Baburov in Natural Language Processing

David (ddale) Dale

Для затравки: открыты ли данные, на которых DeepPavlov свои русские модельки замеряет?

Процентов на 90. Есть исключения, но обычно открыты

источник

11:50пожаловаться #6

D(

David (ddale) Dale in Natural Language Processing

Yuri Baburov

Надо брать ежегодные конкурсы Диалога (morphoeval, factrueval , ...) а также semeval от НГУ.

Да, Диалог первым приходи в голову)
Semeval погляжу, спасибо!

источник

11:50пожаловаться #7

YB

Yuri Baburov in Natural Language Processing

David (ddale) Dale

Всем привет и с Новым годом!
Друзья, какие вы знаете более-менее публичные лидерборды по русскоязычному NLP?
Мечтаю об аналоге GLUE. Понимаю, что такого нет, но надеюсь, что по кусочкам можно собрать.
Так что если вы знаете для разных русских NLP-задач датасеты+разбивки трейн/тест+метрики - поделитесь, пожалуйста.

И, кстати, у glue есть большой недостаток. У нескольких заданий статистика (т.е. не обобщение, а скорее, в варианте "всегда говори да, наберёшь 70%") позволяет DL алгоритму показывать 80%-90%. А если декоррелировать -- то 60% (и это в бинарном тесте).
Поэтому появился SuperGlue

источник

12:16пожаловаться #8

D(

David (ddale) Dale in Natural Language Processing

Yuri Baburov

И, кстати, у glue есть большой недостаток. У нескольких заданий статистика (т.е. не обобщение, а скорее, в варианте "всегда говори да, наберёшь 70%") позволяет DL алгоритму показывать 80%-90%. А если декоррелировать -- то 60% (и это в бинарном тесте).
Поэтому появился SuperGlue

Ага, читал про это

источник

13:00пожаловаться #9

2020 January 08

ЮИ

Юрий Игнатьев in Natural Language Processing

Добрый день.
При использовании Yargy-парсера столкнулся с задачей распознавания дат. Помимо обрабатываемых готовым правилом форматов дат присутствуют следующие:
1) 1970-01-01T00:00:00;
2) 19700101;

Первый формат имеет типичное решение, но вот со вторым возникли трудности, поскольку вся дата в таком формате представляет собой один цельный токен и интерпретировать его на общую модель "типовым решением по примеру" не выходит.

Необходимо каким--то образом разбить токен при обработке на 3 составные части.

Дайте, пожалуйста, совет - что с этим можно сделать, или если кто сталкивался - пример решения такого типа задачи.

источник

17:10пожаловаться #10

SS

Sergey Shulga in Natural Language Processing

Юрий Игнатьев

Добрый день.
При использовании Yargy-парсера столкнулся с задачей распознавания дат. Помимо обрабатываемых готовым правилом форматов дат присутствуют следующие:
1) 1970-01-01T00:00:00;
2) 19700101;

Первый формат имеет типичное решение, но вот со вторым возникли трудности, поскольку вся дата в таком формате представляет собой один цельный токен и интерпретировать его на общую модель "типовым решением по примеру" не выходит.

Необходимо каким--то образом разбить токен при обработке на 3 составные части.

Дайте, пожалуйста, совет - что с этим можно сделать, или если кто сталкивался - пример решения такого типа задачи.

Так то простая регулярка поможет, но если в тексте есть числа в 8 знаков, то у тебя проблемы.

источник

17:14пожаловаться #11

SS

Sergey Shulga in Natural Language Processing

Посмотри на либу dateparser, там можно покрутить нужный формат

источник

17:16пожаловаться #12

SS

Sergey Shulga in Natural Language Processing

По крайней мере я заставил ее работать в очень широком диапазоне

источник

17:16пожаловаться #13

ЮИ

Юрий Игнатьев in Natural Language Processing

Sergey Shulga

Так то простая регулярка поможет, но если в тексте есть числа в 8 знаков, то у тебя проблемы.

В тексте не исключено появление таких чисел.

Также в тексте будет производиться поиск ФИО и Адресов, поэтому хотелось бы использовать один инструмент (Yargy).

Пока, помимо выделения попадающих в диапазон (хотя бы годов) значений дальше не продвинулся:

DATE_IN_SINGLE_INT = and_(
type('INT'),
gte(19000000),
lte(21000000)
)

Поскольку разбить на данном этапе токен на меньшие не выйдет (с Yargy познакомился недавно, поэтому могу ошибаться), то ищу другие способы решения вопроса.

источник

17:22пожаловаться #14

D

Dmitry in Natural Language Processing

Интересный вопрос

источник

18:11пожаловаться #15

D

Dmitry in Natural Language Processing

А решение есть?

источник

18:11пожаловаться #16

ЮИ

Юрий Игнатьев in Natural Language Processing

Dmitry

А решение есть?

За помощью в решении в этот чат и обратился.

Вопрос по сути сводится к следующему - можно ли один токен распределить на несколько атрибутов модели (день, месяц, год)?

источник

18:31пожаловаться #17

D

Dmitry in Natural Language Processing

Юрий Игнатьев

За помощью в решении в этот чат и обратился.

Вопрос по сути сводится к следующему - можно ли один токен распределить на несколько атрибутов модели (день, месяц, год)?

Я сам ищу ответ)

источник

18:37пожаловаться #18

V

Vikas in Natural Language Processing

How to approach this problem where multiple file contains similar data I want to train model

источник

18:51пожаловаться #19

VI

Vitaly Ivanin in Natural Language Processing

Vikas

How to approach this problem where multiple file contains similar data I want to train model

@nlp_eng

источник

18:53пожаловаться #20