Телеграмм чат группы natural_language

Друзья, всем привет! 👋

Как вы, знаете, я люблю разрабатывать пайплайны для автоматизации решения ML задач 🛠

Наконец-то у меня дошли руки до еще одной задачи, с которой мне периодически приходится сталкиваться, а именно тематическим моделированием в лице Latent Semantic Analysis 🔥

В связи с этим я рад представить пайплайн, решающий эту задачу! 🥳🎉🍾

Пайплайн доступен на PyPI:
pip install latent-semantic-analysis

Ссылка не репозиторий: https://github.com/dayyass/latent-semantic-analysis

GitHub

GitHub - dayyass/latent-semantic-analysis: Pipeline for training LSA models using Scikit-Learn.

Pipeline for training LSA models using Scikit-Learn. - GitHub - dayyass/latent-semantic-analysis: Pipeline for training LSA models using Scikit-Learn.

источник

18:54пожаловаться #4

Yuri Baburov in Natural Language Processing

Может бывает "Ща" итп? Где биграммы-то в словаре из 30к символов?

источник

19:29пожаловаться #5

dePuff in Natural Language Processing

Я вытащил все элементы из словаря, побил их на отдельные символы, отсортировал уникальные символы и вывел.

Щ. Ё, Q, Y, Z там нет ни на одной позиции в элементах словаря

источник

19:30пожаловаться #6

Ivan Dolgov in Natural Language Processing

тогда бы Щавель бился бы на токен Ща + токены вель, а бьется на unkи 🙂

источник

19:34пожаловаться #7

Yuri Baburov in Natural Language Processing

Хм, ну, Щавеля и Авеля сможет отличить по unk, но не сможет Ща от Ёа и Ъа :) так что в целом должно всё равно хорошо работать.

источник

19:35пожаловаться #8

dePuff in Natural Language Processing

Да, тупой поспроцессинг. Благо, слов не много

источник

19:35пожаловаться #9

dePuff in Natural Language Processing

Но теперь можно детектить продукты сделанные на основе этой нейросети )

источник

19:37пожаловаться #10

Prohor Gladkikh in Natural Language Processing

Всем привет!
Не подскажите, есть ли веса моделей, зафайнтьюненых на SberSQUAD для трансформеров?

источник

20:46пожаловаться #11

David Dale in Natural Language Processing

rut5-base-multitask училась среди прочих на этом датасете (задачи comprehend и ask), но чтобы хорошее качество получить, надо на какую-то одну задачу доучивать.

источник

20:48пожаловаться #12

Banof in Natural Language Processing

🔫 @Bewtg кикнут — вернуть этого пользователя можно только разбаном в настройках чата.

Проголосовавшие за кик:
@wadimiusz, @cointegrated, n i, @ajtkulov, @mashorlovskaya, @mshnya
При поддержке Золота Бородача

источник

20:53пожаловаться #13

Mishanya in Natural Language Processing

Плюсую. Sergei , а вы модели, код трены, вот эту вот всю воспроизводимость, по результатам из поста ruT5, ruRoBERTa, ruBERT не выкладывали?
[пост https://habr.com/ru/company/sberbank/blog/567776/]

источник

21:09пожаловаться #14

Prohor Gladkikh in Natural Language Processing

Спасибо!
Да, хочется модельку только для экстрактивного QA

источник

21:26пожаловаться #15

David Dale in Natural Language Processing

У deeppavlov точно был BERT под это, поищи тут http://docs.deeppavlov.ai/en/master/features/models/squad.html

источник

21:27пожаловаться #16

Prohor Gladkikh in Natural Language Processing

Да, у них есть, спасибо

источник

21:28пожаловаться #17

🐙

🐙 in Natural Language Processing

Коллеги, тут часто обсуждают jamspell как средство коррекции опечаток. Хочу спросить: кто-нибудь пробовал его тренировать на своём корпусе? Получился заметный прирост в качестве?

источник

22:11пожаловаться #18

Vadim Gudkov in Natural Language Processing

Пробовали дообучать jamspell pro на медицинском домене, получилось в разы лучше. Вот только модель сильно "раздувается" в размере и становится медленнее инференс

источник

22:58пожаловаться #19

🐙

🐙 in Natural Language Processing

Большое спасибо за отзыв 🙌

источник

23:01пожаловаться #20