Телеграмм чат группы natural_language

Продолжение серии постов про проект Natasha. Что за проект? Почему в этот чат? См. https://t.me/natural_language_processing/16962

1. http://natasha.github.io/ner Natasha — качественное компактное решение для извлечения именованных сущностей из новостных статей на русском языке

источник

10:14пожаловаться #8

Alexander Kukushkin in Natural Language Processing

Почему Natasha не использует Transformers. BERT в 100 строк.
По мотивам треда с @mtikhomi https://t.me/natural_language_processing/17253

Сейчас, для обучения моделей с BERT-like архитектурой, принято использовать Transformers от Hugging Face. Transformers — это 100 000 строк кода на Python. Желаю удачи, разобраться, что пошло не так, когда взорвётся loss или на инференсе будет мусор. Ладно, там много кода дублируется. Пускай мы тренируем RoBERTa, довольно быстро локализуем проблему до ~3000 строк кода, но это тоже немало. С современным PyTorch, мне кажется, библиотека Transformers не так актуальна. С torch.nn.TransformerEncoderLayer код RoBERTa-like модели занимает 100 строк:

источник

10:15пожаловаться #9

Alexander Kukushkin in Natural Language Processing

источник

10:15пожаловаться #10

Alexander Kukushkin in Natural Language Processing

Это не прототип, код скопирован из Slovnet https://github.com/natasha/slovnet/blob/master/slovnet/model/bert.py. Slovnet BERT инциализируется весами из DeepPavlov RuBERT, Slovnet BERT NER, BERT Morph, BERT Sytnax дают SOTA или near-SOTA результаты для русского языка https://github.com/natasha/slovnet#evaluation.

Transformers полезно читать, они делают большую работу, набивают код для статей с Arxiv. Например, только благодаря их коду я разобрался как именно в ALBERT дублируются веса. #natasha

источник

10:15пожаловаться #11

Alexander Kukushkin in Natural Language Processing

Напишите в личку @alexkuk кому интересно почитать статьи для natasha.github.io до публикации. Следующая будет про компактные эмбединги для русского. С меня ссылочка за неделю до публикации, с вам ревью что непонятно.

источник

10:23пожаловаться #12

Alex Konst in Natural Language Processing

Приветы. Подскажите, какой тулзой для русских предложений можно найти подлежащее и сказуемое?

источник

13:52пожаловаться #13

Futorio Franklin in Natural Language Processing

Alex Konst

Приветы. Подскажите, какой тулзой для русских предложений можно найти подлежащее и сказуемое?

Syntax parsing для русского языка должен помочь

источник

13:55пожаловаться #14

Yuri Baburov in Natural Language Processing

Alex Konst

Приветы. Подскажите, какой тулзой для русских предложений можно найти подлежащее и сказуемое?

https://github.com/natasha/naeval#syntax-parser ( точность и скорость популярных парсеров — в таблице)

GitHub

natasha/naeval

Comparing quality and performance of NLP systems for Russian language - natasha/naeval

источник

13:59пожаловаться #15

Alex Konst in Natural Language Processing

Спасибо за ответы. Я уже тыкаю slovnet и мне не оч ясно, как явно выделить связи, например, "я - проводил" и "я - поехал"

источник

14:05пожаловаться #16

Aleksey Kulnevich in Natural Language Processing

Как сохранять и загружать hArtm правильно?

источник

14:08пожаловаться #17

Alexander Kukushkin in Natural Language Processing

Alex Konst

нужно ещё сделать морфологический разбор, найти подлежащее и сказуемое, в slovnet тоже есть https://github.com/natasha/slovnet#morphology

GitHub

natasha/slovnet

Deep Learning based NLP modeling for Russian language - natasha/slovnet

источник

14:09пожаловаться #18

Denis Kirjanov in Natural Language Processing

Alex Konst

так conj c root -- это второе сказуемое и есть, надо ехать на эвристиках поверх типов связей

источник

14:10пожаловаться #19

Alex Konst in Natural Language Processing

Denis Kirjanov

так conj c root -- это второе сказуемое и есть, надо ехать на эвристиках поверх типов связей

А где найти доку по обозначениям типов связей?

источник

14:16пожаловаться #20