Size: a a a

Natural Language Processing

2021 April 23

IK

Irina Krotova in Natural Language Processing
https://github.com/dtuggener/CharSplit — вот есть скрипт, который по н-грамам разбивает немецкие композиты на две части, можно под свои задачи переписать и обучить на какой-нибудь английской Википедии, так там принцип примерно тот же. У меня достаточно быстро обучалось и потом отрабатывало на тестовом датасете.
источник

IK

Irina Krotova in Natural Language Processing
Это если нужен какой-нибудь готовый код, чтобы быстро проверить
источник

DD

David Dale in Natural Language Processing
Есть алгоритм ахо-корасика (в питоне пакет pyahocorasik кажется), он позволяет эффективно проверять вхождения большого количества слов в строке. Я проверял на миллионе слов, работает едва ли не единицы миллисекунд.
источник

Bo

Blen obema in Natural Language Processing
Всем спасибо за ответ!
источник

SK

Sergey Kamenshchikov in Natural Language Processing
Добрый день. Подскажите пожалуйста, каким оптимальным способом разбить текст без пунктуации на предложения? Пробуем Spacy (на базе синтаксического парсера), но не до конца понимаю, как он работает. Возможно кто-то сталкивался с такой задачей. Спасибо.
источник

NS

Nikolay V. Shmyrev in Natural Language Processing
источник

AM

Alina Mogilevets in Natural Language Processing
#вакансия
Всем привет✋
Нашла в переписке, что иногда можно публиковать вакансии здесь и решила рискнуть😉

Я рекрутер в компании Social Discovery Ventures.
Сейчас ищу NLP/ML разработчика с опытом работы с чат-ботами на проект Виртуальный друг.

Буду рада пообщаться в ЛС с теми, кто вдруг сейчас в поисках или готов к чему-то новому и захватывающему)

Наша ваканси: https://rabota.by/vacancy/42351678

Спасибо за внимание и ярких выходных всем!
источник

MK

Max Kuznetsov in Natural Language Processing
"Виртуальный друг с опытом работы с чат-ботами" - ваш вирутальный друг за вас общается с чатботами и зовёт вас, когда в чате появится живой оператор, пригодный для прохождения теста Тьюринга
источник

SK

Sergey Kamenshchikov in Natural Language Processing
🙏🙏 Спасибо!
источник

IK

Irina Krotova in Natural Language Processing
https://norvig.com/ngrams/ — что-то весь день вспоминала, где видела уже готовую статистическую н-грамную модель именно для такой задачи. Вот тут у Peter Norvig выложен готовый учебный код и простой разбор того, как работает, в пдфке раздел Word Segmentation.
источник

Bo

Blen obema in Natural Language Processing
спасибо!
источник

WB

Wincent Balin in Natural Language Processing
источник

A

Anthony in Natural Language Processing
Переслано от Wincent Balin
источник
2021 April 24

В

Валера in Natural Language Processing
Прикольно. Спасибо, пригодится для фильтрации контента)
источник

SancheZz Мов in Natural Language Processing
Еще советую посмотреть токсик соревнование 2020 г, там есть и ру домен.
источник

SancheZz Мов in Natural Language Processing
источник

SancheZz Мов in Natural Language Processing
Там можно найти классы токсик которые поделены на подтипы в тч оскарбления по рассовому и тп признаку
источник

Е

Егорка in Natural Language Processing
Добрый день. Не мог бы кто-нибудь подсказать, какую модель использует spacy для задачи NER ?
источник

YB

Yuri Baburov in Natural Language Processing
Свою, на основе CNN.
источник

AK

Alexander Kukushkin in Natural Language Processing
Вообще там достаточно необычная модель. Доклад про то что было в версии 2 https://www.youtube.com/watch?v=sqDHBH9IjRU, возможно в версии 3 то же самое. На сколько понял, автор собаку съел на синтаксических парсерах, поэтому в Spacy NER сводится к парсингу, подход описан в https://arxiv.org/pdf/1603.01360.pdf "Transition-Based Chunking Model". Ещё там свой фреймвок для deep learning и трюк с хешированием эмбеддингов
источник