Size: a a a

Natural Language Processing

2019 October 21

NS

Nikolay Shmyrev in Natural Language Processing
Тогда полную парадигму скачать по ссылке выше, там все ударения есть
источник
2019 October 22

АЗ

Андрей Заспа in Natural Language Processing
Скажите в чем основное различие word2vec и fasttext моделей, кроме того, что fasttext может незнакомым словам вектор присваивать?
источник

K

Kir in Natural Language Processing
Андрей Заспа
Скажите в чем основное различие word2vec и fasttext моделей, кроме того, что fasttext может незнакомым словам вектор присваивать?
Различие в том, что у ФТ слово это набор н-грамм, так вектор и строится, а у в2в атом - это слово, а не н-грамма
источник

АЗ

Андрей Заспа in Natural Language Processing
для русского языка это хуже в плане определения сематики слова, потому что есть приставки суффиксы окончания, которые смысл не меняют?
источник

АЗ

Андрей Заспа in Natural Language Processing
просто стоит задача определения вида деятельности клиента на основе комментариев к платежным документам, я использовал word2vec с NLPub, кластеризовал на 800 кластеров, и получал веса слов в тематиках кластеров, после этого пытался считать сходство между описанием деятельности и текстом платежек с помощью word2vec с tf-idf. Выходит не очень, т.е. хорошие не зашумленные тексты определяет нормально, а когда есть какой-то разброс по словам, например закупки свойственные всем компаниям, оплаты за аренду, направление деятельности начинает определяться плохо. Обучить не на чем, потому что не знаешь какие клиенты работают по заявленной деятельности, пробовал определять характерные слова для этой деятельности на основе истории, считая, что большинство не врет, но тогда в описания попадают характерные для всех слова, выкидывать которые тоже нельзя, так как есть компании, которые специализируются только на перевозках, а есть те, которые просто доставляют товары, tf-ifd частично решает проблему, но не всегда
источник

D(

David (ddale) Dale in Natural Language Processing
Андрей Заспа
просто стоит задача определения вида деятельности клиента на основе комментариев к платежным документам, я использовал word2vec с NLPub, кластеризовал на 800 кластеров, и получал веса слов в тематиках кластеров, после этого пытался считать сходство между описанием деятельности и текстом платежек с помощью word2vec с tf-idf. Выходит не очень, т.е. хорошие не зашумленные тексты определяет нормально, а когда есть какой-то разброс по словам, например закупки свойственные всем компаниям, оплаты за аренду, направление деятельности начинает определяться плохо. Обучить не на чем, потому что не знаешь какие клиенты работают по заявленной деятельности, пробовал определять характерные слова для этой деятельности на основе истории, считая, что большинство не врет, но тогда в описания попадают характерные для всех слова, выкидывать которые тоже нельзя, так как есть компании, которые специализируются только на перевозках, а есть те, которые просто доставляют товары, tf-ifd частично решает проблему, но не всегда
кажется, задачка вполне для тематического моделирования
источник

АЗ

Андрей Заспа in Natural Language Processing
еще проблема что много сокращений, опечаток, например мед услуги, которые на основе моей модели относятся к производству мёда
источник

АЗ

Андрей Заспа in Natural Language Processing
еще сложность, что самих видов деятельности ОКВЭД около 1000, есть очень схожие
источник

dl

dzmitry lahoda in Natural Language Processing
Андрей Заспа
еще сложность, что самих видов деятельности ОКВЭД около 1000, есть очень схожие
обсудили с заказчиком рэнжи по степень автоматизации vs стоимость vs качество?
источник

АЗ

Андрей Заспа in Natural Language Processing
Ну здесь все-таки изначально выбираешь не из 1000 категорий, а из тех которые пользователь сам заявил, давая максимальный вес его основному ОКВЭД (виду деятельности), если ничего по схожести не проходит порог, тогда уже начинаешь все 1000 категорий перебирать, и тут уже качество падает сильно
источник
2019 October 23

OS

Oleg Serikov in Natural Language Processing
а мб тут кто-то знает
источник

OS

Oleg Serikov in Natural Language Processing
как выбирают presenting author? я могу отметить всех, это не принципиально?
источник

NS

Nikolay Shmyrev in Natural Language Processing
Presenting это тот, кто доклад делает. Все же на сцену не полезут.
источник

OS

Oleg Serikov in Natural Language Processing
Nikolay Shmyrev
Presenting это тот, кто доклад делает. Все же на сцену не полезут.
а если конфа далеко и непонятно, кому визу дадут и кому денег?
источник

NS

Nikolay Shmyrev in Natural Language Processing
Ну поменять потом можно в крайнем случае
источник

OS

Oleg Serikov in Natural Language Processing
Nikolay Shmyrev
Ну поменять потом можно в крайнем случае
А, топ!
источник

OS

Oleg Serikov in Natural Language Processing
Спасибо!
источник
2019 October 24

AZ

Andrey Zakharov in Natural Language Processing
всем привет , кто может подсказать подходы или если есть  (вообще идеально) примеры с кодом для генерации парафраз?
источник

DK

Denis Kirjanov in Natural Language Processing
chatette
источник

AZ

Andrey Zakharov in Natural Language Processing
забыл про  него, спасибо
источник