Size: a a a

Natural Language Processing

2020 May 16

D(

David (ddale) Dale in Natural Language Processing
Denis Kirjanov
В 2) можно предварительно потюнить модель чем-то вроде кантерфиттинга или других видов фитинга
Тогда антонимы отъедут и должно быть плюс-минус ок
А можно ссылочку на пример, или ключевые слова для гугления? Это для меня новое понятие 🤷‍♂️
источник

DK

Denis Kirjanov in Natural Language Processing
Counter-fitting word vectors и retro-fitting word vectors
И как подвид одного из них — attract-repel

Идея простая — заводим списки синонимов-антонимов (например, взятые из тезаурусов) и меняем разными методами либо вектора отдельных слов, либо целые пространства. То есть это в каком-то смысле синкретизм методов 1) и 2) из списка выше.

Но должен честно предупредить, что я копал эту историю пару лет назад — возможно, появились более эффективные методы

У меня тогда получалось, что counter fitting очень сильно менял исходное пространство (что, возможно, для задачи создания модели только для поиска синонимии и некритично и даже наоборот хорошо — если уже есть на входе тезаурус с синонимами, то хорошо бы поменять вектора кому-то ещё, иначе все останется как было), а retro-fitting работал недурно, но его scope наоборот был слишком локальный — вектора слов, кроме тех, что были в исходных списках синонимов-антонимов практически никак не менялись. Что, см. выше, для нашей задачи будто бы плохо на первый взгляд
источник

YB

Yuri Baburov in Natural Language Processing
Да, триплет лосс на таргет задачу на нейросети поверх эмбеддингов улучшает качество. Можно на тезаурусе тренировать. Кроме тезауруса можно ещё sentiment analysis взять, sentiment analysis "можно" от "нельзя" отличит, но слова "длинный" от "короткий" не отличит.
источник
2020 May 18

SP

Sebastian Pereira in Natural Language Processing
Написал первую часть обзора open source NER  библиотек. Вторая часть будет про закрытые решения, платные API и т.д. Третью планирую про решения позволяющие свой собственный NER обучить для конкретных задач и языков, не представленных в текущих решениях. https://habr.com/ru/post/502366/
источник

AK

Alexander Kukushkin in Natural Language Processing
C Output для Natasha что-то не так
источник

SP

Sebastian Pereira in Natural Language Processing
Поехала верстка в статье, вы правы, надо поправить.
источник

AK

Alexander Kukushkin in Natural Language Processing
Есть ещё https://github.com/natasha/naeval#ner . У вас качественное сравнение, в Naeval количественное
источник

YB

Yuri Baburov in Natural Language Processing
Да, на 10 словах нормальное сравнение не сделать... Не надо так. В целом статья конечно интересная, про часть инструментов я не знал.
источник

SP

Sebastian Pereira in Natural Language Processing
Yuri Baburov
Да, на 10 словах нормальное сравнение не сделать... Не надо так. В целом статья конечно интересная, про часть инструментов я не знал.
Все так, цель была показать инструменты. Для нормального исследования стоило бы еще разные версии сравнивать, так как даже в процессе сбора информации результат был разным.
источник

SP

Sebastian Pereira in Natural Language Processing
Тот же HanLP гораздо более перспективная система чем кажется, если немного разобраться.
источник

SP

Sebastian Pereira in Natural Language Processing
Но, для того и колаб в приложении - можно вставить любые тексты, любой величины.
источник

YB

Yuri Baburov in Natural Language Processing
Sebastian Pereira
Но, для того и колаб в приложении - можно вставить любые тексты, любой величины.
Есть датасеты для сравнения, зачем вставлять что-то ещё...
источник

YB

Yuri Baburov in Natural Language Processing
Sebastian Pereira
Тот же HanLP гораздо более перспективная система чем кажется, если немного разобраться.
А что в hannlp особенного?
источник

SP

Sebastian Pereira in Natural Language Processing
Yuri Baburov
А что в hannlp особенного?
транскрипция в пиньинь, например)
источник
2020 May 19

M

Mikhail in Natural Language Processing
Всем привет. кто то natasha(ей) парсил письменные суммы типа( пятнадцать тысяч сто пятьдесят рублей 50 копеек) я что то не нашел готового решения нужно свое правило писать со словарем ?
источник

M

Mikhail in Natural Language Processing
остальные суммы MoneyExtractor от natasha вполне хорошо достает
источник

KS

Konstantin Smith in Natural Language Processing
Mikhail
Всем привет. кто то natasha(ей) парсил письменные суммы типа( пятнадцать тысяч сто пятьдесят рублей 50 копеек) я что то не нашел готового решения нужно свое правило писать со словарем ?
Pullenti хорошо такие вещи парсит.
источник

DR

Dinesh Raturi in Natural Language Processing
источник
2020 May 20

ПЧ

Первый Человек... in Natural Language Processing
источник

DP

Definitely Not Peter... in Natural Language Processing
Есть ли у python готовые библиотеки, для обработки естественного языка?
Интересует следующий кейс:
На вход подаётся строка "в пятницу, в 18:45", а на выход - дата ( 22.05.2020 18:45). Или
"В следующую пятницу в 17:56" - 29.05.2020 17:56
Проблема в том, что пользователь может по-разному формулировать дату и время (как напрямую задать дату, вроде "22 мая, в 17:56", так и назвать день недели. Есть ли готовые решения, которые это обрабатывают?
источник