Size: a a a

Natural Language Processing

2021 October 11

d

dePuff in Natural Language Processing
Добро пожаловать в клуб
источник

ID

Ivan Dolgov in Natural Language Processing
но спасибо огромное, что заметил и написал.
источник

d

dePuff in Natural Language Processing
Вроде не слишком много вариантов, что в постпроцессинге написать для фикса
источник

DE

Dani El-Ayyass in Natural Language Processing
Друзья, всем привет! 👋

Как вы, знаете, я люблю разрабатывать пайплайны для автоматизации решения ML задач 🛠

Наконец-то у меня дошли руки до еще одной задачи, с которой мне периодически приходится сталкиваться, а именно тематическим моделированием в лице Latent Semantic Analysis 🔥

В связи с этим я рад представить пайплайн, решающий эту задачу! 🥳🎉🍾

Пайплайн доступен на PyPI:
pip install latent-semantic-analysis

Ссылка не репозиторий: https://github.com/dayyass/latent-semantic-analysis
источник

YB

Yuri Baburov in Natural Language Processing
Может бывает "Ща" итп? Где биграммы-то в словаре из 30к символов?
источник

d

dePuff in Natural Language Processing
Я вытащил все элементы из словаря, побил их на отдельные символы, отсортировал уникальные символы и вывел.

Щ. Ё, Q, Y, Z там нет ни на одной позиции в элементах словаря
источник

ID

Ivan Dolgov in Natural Language Processing
тогда бы Щавель бился бы на токен Ща + токены вель, а бьется на unkи 🙂
источник

YB

Yuri Baburov in Natural Language Processing
Хм, ну, Щавеля и Авеля сможет отличить по unk, но не сможет Ща от Ёа и Ъа :) так что в целом должно всё равно хорошо работать.
источник

d

dePuff in Natural Language Processing
Да, тупой поспроцессинг. Благо, слов не много
источник

d

dePuff in Natural Language Processing
Но теперь можно детектить продукты сделанные на основе этой нейросети )
источник

PG

Prohor Gladkikh in Natural Language Processing
Всем привет!
Не подскажите, есть ли веса моделей, зафайнтьюненых на SberSQUAD для трансформеров?
источник

DD

David Dale in Natural Language Processing
rut5-base-multitask училась среди прочих на этом датасете (задачи comprehend и ask), но чтобы хорошее качество получить, надо на какую-то одну задачу доучивать.
источник

B

Banof in Natural Language Processing
🔫 @Bewtg кикнут — вернуть этого пользователя можно только разбаном в настройках чата.

Проголосовавшие за кик:
@wadimiusz, @cointegrated, n i, @ajtkulov, @mashorlovskaya, @mshnya
При поддержке Золота Бородача
источник

M

Mishanya in Natural Language Processing
Плюсую. Sergei , а вы модели, код трены, вот эту вот всю воспроизводимость, по результатам из поста ruT5, ruRoBERTa, ruBERT не выкладывали?
[пост https://habr.com/ru/company/sberbank/blog/567776/]
источник

PG

Prohor Gladkikh in Natural Language Processing
Спасибо!
Да, хочется модельку только для экстрактивного QA
источник

DD

David Dale in Natural Language Processing
У deeppavlov точно был BERT под это, поищи тут http://docs.deeppavlov.ai/en/master/features/models/squad.html
источник

PG

Prohor Gladkikh in Natural Language Processing
Да, у них есть, спасибо
источник

🐙

🐙 in Natural Language Processing
Коллеги, тут часто обсуждают jamspell как средство коррекции опечаток. Хочу спросить: кто-нибудь пробовал его тренировать на своём корпусе? Получился заметный прирост в качестве?
источник

VG

Vadim Gudkov in Natural Language Processing
Пробовали дообучать jamspell pro на медицинском домене, получилось в разы лучше. Вот только модель сильно "раздувается" в размере и становится медленнее инференс
источник

🐙

🐙 in Natural Language Processing
Большое спасибо за отзыв 🙌
источник