Телеграмм чат группы natural_language

🔫 Tanzi кикнут — вернуть этого пользователя можно только разбаном в настройках чата.

Проголосовавшие за кик:
@wadimiusz, @Nisus, @Pushkinue, @oldysty, @dzhkn42
При поддержке Золота Бородача

источник

21:44пожаловаться #4

Yehor Smoliakov in Natural Language Processing

🇺🇦 С разрешения @alexkuk хочу пригласить NLP-специалистов, которые работают с украинским языком в https://t.me/nlp_uk

Ближайшая задача у нас - добавить поддержку украинского языка в spaCy, поэтому если у кого-нибудь был опыт работы с этим инструментом в связке с украинским языком, то будем рады услышать его!

NLP української мови

Група для людей, які працюють з NLP та українською мовою.

Розпізнавання мови — https://t.me/speech_recognition_uk

источник

22:49пожаловаться #5

Sebastian Pereira in Natural Language Processing

Друзья, а что у нас сейчас SOTA по контролируемой/целевой генерации текста? Интересует такой пример: есть начало текста (абзац) и конец текста (абзац), надо создать связывающую их с учётом контекста середину. Сейчас я очень глупо это делаю, беру три предложения, и обучаю с учётом скрытого второго, получается, предсказуемо, из рук вон плохо. Может есть какие-то неизвестные мне готовые решения или статьи?

источник

23:05пожаловаться #6

2021 April 22

Dmitry in Natural Language Processing

Для русского можно сказать что нет. А так есть neuralcoref работающий со Spacy (увы второй версии). И ещё несколько для английского

источник

02:51пожаловаться #7

Kir L in Natural Language Processing

Друзья, а бывает что-то готовое, что из русских числительных делает числа? Наверняка сто раз уже было, извините(

источник

06:47пожаловаться #8

Konstantin Smith in Natural Language Processing

Pullenti делает это автоматом

источник

08:34пожаловаться #9

Dilyara Timerkaeva in Natural Language Processing

Мне понравилось вот это решение

https://github.com/SergeyShk/Word-to-Number-Russian

GitHub

SergeyShk/Word-to-Number-Russian

Проект для перевода чисел, записанных в текстовом виде на русском языке. - SergeyShk/Word-to-Number-Russian

источник

12:53пожаловаться #10

Kir L in Natural Language Processing

Спасибо!

источник

13:04пожаловаться #11

Toemik Mnemonic in Natural Language Processing

Привет всем. Есть где то набор русского мата и всяких фамильярностей? для формирования объекта стоп слов

источник

13:20пожаловаться #12

Futorio Franklin in Natural Language Processing

https://github.com/odaykhovskaya/obscene_words_ru можно этот попробовать

GitHub

odaykhovskaya/obscene_words_ru

Корпус ненормативной лексики русского языка для нужд NLP. Любые исправления и дополнения приветствуются - odaykhovskaya/obscene_words_ru

источник

13:24пожаловаться #13

Toemik Mnemonic in Natural Language Processing

Спасибо!

источник

13:32пожаловаться #14

2021 April 23

ЛВ

Леха Великолепный... in Natural Language Processing

Всем привет, решаю задачу по классификации деструктивного контента есть у кого на примете датасет с текстами, содержащими экстремистскую информацию, антиправительственные призывы?

источник

13:00пожаловаться #15

Mikhail Mashkovich in Natural Language Processing

у роскомнадзора целый список есть

источник

13:02пожаловаться #16

Anton Eryomin in Natural Language Processing

можно скачать все твиты ФБК 🙂

источник

13:02пожаловаться #17

Blen obema in Natural Language Processing

Здравствуйте, товарищи. Нужна помощь.

Задача: выделение английских слов из домена сайта.
Пример:

analyze_domain("commonwealthmagazine.org") -> ["common", "wealth", "magazine")

Возможно существуют какие-то библиотеки для этого?

Моя первоначальная мысль такова: разбить строку на токены длины 1+ ("co", "om", "mm"..., "com", "omm", ... "comm", "ommo",...), взять какой-то словарь английских слов (хз где и какого объёма пока) и проводить поиск токенов внутри этого словаря.
Буду благодарен за любые идеи!

источник

13:06пожаловаться #18

Mikhail Mashkovich in Natural Language Processing

да просто словарные слова искать в этой общей строке, начиная с самых длинных, очевидно

источник

13:08пожаловаться #19

Blen obema in Natural Language Processing

хм,
допустим словарь английских слов будет на 10 000 слов.
Тогда для одного домена (максимально) может проводится 10 000 операций по поиску вхождения?

А если разбить на токены, которых будет в зависимости от длины домена (например 200 штук), потом провести операцию пересечения множеств, если и англ словарь и токены будут представлены типом set? Такая операция будет быстрее выполняться?

источник

13:29пожаловаться #20