Size: a a a

Natural Language Processing

2021 April 21

VV

VVS VVS in Natural Language Processing
а потом на базе этого все другие прецеденты пересмотрели
источник

MK

Max Kuznetsov in Natural Language Processing
источник

VF

Vadim Fomin in Natural Language Processing
источник

B

Banof in Natural Language Processing
🔫 Tanzi кикнут — вернуть этого пользователя можно только разбаном в настройках чата.

Проголосовавшие за кик:
@wadimiusz, @Nisus, @Pushkinue, @oldysty, @dzhkn42
При поддержке Золота Бородача
источник

YS

Yehor Smoliakov in Natural Language Processing
🇺🇦 С разрешения @alexkuk хочу пригласить NLP-специалистов, которые работают с украинским языком в https://t.me/nlp_uk

Ближайшая задача у нас - добавить поддержку украинского языка в spaCy, поэтому  если у кого-нибудь был опыт работы с этим инструментом в связке с украинским языком, то будем рады услышать его!
источник

SP

Sebastian Pereira in Natural Language Processing
Друзья, а что у нас сейчас SOTA по контролируемой/целевой генерации текста? Интересует такой пример: есть начало текста (абзац) и конец текста (абзац), надо создать связывающую их с учётом контекста середину. Сейчас я очень глупо это делаю, беру три предложения, и обучаю с учётом скрытого второго, получается, предсказуемо, из рук вон плохо. Может есть какие-то неизвестные мне готовые решения или статьи?
источник
2021 April 22

D

Dmitry in Natural Language Processing
Для русского можно сказать что нет. А так есть neuralcoref работающий со Spacy (увы второй версии). И ещё несколько для английского
источник

KL

Kir L in Natural Language Processing
Друзья, а бывает что-то готовое, что из русских числительных делает числа? Наверняка сто раз уже было, извините(
источник

KS

Konstantin Smith in Natural Language Processing
Pullenti делает это автоматом
источник

DT

Dilyara Timerkaeva in Natural Language Processing
Мне понравилось вот это решение

https://github.com/SergeyShk/Word-to-Number-Russian
источник

KL

Kir L in Natural Language Processing
Спасибо!
источник

TM

Toemik Mnemonic in Natural Language Processing
Привет всем. Есть где то набор русского мата и всяких фамильярностей? для формирования объекта  стоп слов
источник

FF

Futorio Franklin in Natural Language Processing
https://github.com/odaykhovskaya/obscene_words_ru можно этот попробовать
источник

TM

Toemik Mnemonic in Natural Language Processing
Спасибо!
источник
2021 April 23

ЛВ

Леха Великолепный... in Natural Language Processing
Всем привет, решаю задачу по классификации деструктивного контента есть у кого на примете датасет с текстами, содержащими экстремистскую информацию, антиправительственные призывы?
источник

MM

Mikhail Mashkovich in Natural Language Processing
у роскомнадзора целый список есть
источник

AE

Anton Eryomin in Natural Language Processing
можно скачать все твиты ФБК 🙂
источник

Bo

Blen obema in Natural Language Processing
Здравствуйте, товарищи. Нужна помощь.

Задача: выделение английских слов из домена сайта.
Пример: analyze_domain("commonwealthmagazine.org") -> ["common", "wealth", "magazine")
Возможно существуют какие-то библиотеки для этого?

Моя первоначальная мысль такова: разбить строку на токены длины 1+ ("co", "om", "mm"..., "com", "omm", ... "comm", "ommo",...), взять какой-то словарь английских слов (хз где и какого объёма пока) и проводить поиск токенов внутри этого словаря.
Буду благодарен за любые идеи!
источник

MM

Mikhail Mashkovich in Natural Language Processing
да просто словарные слова искать в этой общей строке, начиная с самых длинных, очевидно
источник

Bo

Blen obema in Natural Language Processing
хм,
допустим словарь английских слов будет на 10 000 слов.
Тогда для одного домена (максимально) может проводится 10 000 операций по поиску вхождения?

А если разбить на токены, которых будет в зависимости от длины домена (например 200 штук), потом провести операцию пересечения множеств, если и англ словарь и токены будут представлены типом set? Такая операция будет быстрее выполняться?
источник