Телеграмм чат группы natural_language

оч круто, наверное, но если что — яндексовские данные (миллион которые) очень грязненькие (мы на них немного перевод гоняли, я на данные смотрела, много вопросов к ним). в идеале б мб даже более каноничные датасеты WMT и около получше подошли для тренировки, наверное (но это я так, рассуждаю)

пинг @cointegrated

источник

15:06пожаловаться #12

Ilya Gusev in Natural Language Processing

это лучше Давиду и написать (хотя он скорее всего и здесь прочитает)

источник

15:07пожаловаться #13

Natalia in Natural Language Processing

да, щас поправлю

источник

15:07пожаловаться #14

David Dale in Natural Language Processing

Слушай, если ты накидаешь сюда список параллельных англо-русских корпусов, которые считаешь качественными, думаю, не один я буду благодарен)

источник

15:41пожаловаться #15

SМ

SancheZz Мов in Natural Language Processing

Ага ага

источник

16:32пожаловаться #16

Sergey Sikorskiy in Natural Language Processing

Спасибо! Именно то, что было нужно.
У меня на текущий момент очень простая задача - собрать словообразование из разных источников и как-то его нормализовать, привести к общей базе. Ну и еще надо сделать анализ того, что еще не проанализировано. Хотелось сделать это как-то осознанно. Как минимум, стало понятно откуда взялись "формообразующие суффиксы" ….

источник

18:14пожаловаться #17

Sergey Sikorskiy in Natural Language Processing

@banofbot

источник

21:47пожаловаться #18

Banof in Natural Language Processing

🔫 Paul кикнут — вернуть этого пользователя можно только разбаном в настройках чата.

Проголосовавшие за кик:
@LoneGeek, @olegdurandin, @Nikitini, @cointegrated, @stepvasya
При поддержке Золота Бородача

источник

21:47пожаловаться #19

2021 June 11

Sebastian Pereira in Natural Language Processing

Коллеги, а кто может посоветовать какой датасет для SQuAD для русского языка?

источник

08:48пожаловаться #20