Телеграмм чат группы natural_language_processing страница 663

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Natural Language Processing

1565 membersпожаловаться на группу

2020 May 13

AK

Alexander Kukushkin in Natural Language Processing

Здравствуйте, проблема с NamesExtractor(). Версия natasha 1.1.0

В версии 1.0.0 у библиотеки поменялся интерфейс, либо нужно установить версию до 1 (install natasha<1 yargy<0.13), либо посмотреть пример использования актуальной версии https://github.com/natasha/natasha#usage

natasha/natasha

Solves basic Russian NLP tasks, API for lower level Natasha projects - natasha/natasha

источник

19:33пожаловаться #1

AK

Alexander Kukushkin in Natural Language Processing

Всем привет. Что я не так делаю - сравнил производительность yargy и tomita на Linux, Python3, задача получение физлица и организации(в наташе из коробки, в томите самописные правила), список из 1500 текстов. По данным измерений - в среднем tomita парсит за 0.27 сек, в то время, как наташа - за 0.07 сек. Yargy+Natasha в 3+ раза быстрее, чем Tomita,

с чем это может быть связано, с необходимостью постоянно дергать бинарь томиты или криворукими правилами для томиты, и как тогда другие люди меряют, все те, кто утверждает, что tomita быстрее, чем yargy? Тут кто нибудь сравнивал производительность двух этих инструментов? Подскажите, пзл, кто имел боевой опыт, в какую сторону копать

Да, конечно, нужно запускать Томиту в пакетном режиме. Если сравнивать с Наташей версии <1.0 Томита должна быть в ~6 раз быстрее. Это если Наташа запущена под PyPy. Если под обычным Python разница ещё больше. Пример как запускать Томиту в поточном режиме в виде веб-сервиса https://github.com/natasha/naeval/blob/master/docker/tomita-algfio/app.py

natasha/naeval

Comparing quality and performance of NLP systems for Russian language - natasha/naeval

источник

19:41пожаловаться #2

IJ

IL Jah in Natural Language Processing

Alexander Kukushkin

Да, конечно, нужно запускать Томиту в пакетном режиме. Если сравнивать с Наташей версии <1.0 Томита должна быть в ~6 раз быстрее. Это если Наташа запущена под PyPy. Если под обычным Python разница ещё больше. Пример как запускать Томиту в поточном режиме в виде веб-сервиса https://github.com/natasha/naeval/blob/master/docker/tomita-algfio/app.py

natasha/naeval

Comparing quality and performance of NLP systems for Russian language - natasha/naeval

О, большое спасибо!

источник

20:01пожаловаться #3

2020 May 14

A

Alexander in Natural Language Processing

Так я загружаю предобученную модель word2vec:
pre_train_model = gensim.downloader.load('word2vec-ruscorpora-300')

Так я обучаю модель на собственных данных:
model = Word2Vec(my_text, size=32, min_count=5, window=50)

Я хочу взять предобученную модель (pre_train_model) и дополнить ее своими данными(my_text). Как я могу это сделать? Есть минусы от этого подхода?

источник

18:24пожаловаться #4

K

Kir in Natural Language Processing

попробуй сделать так:
old_model.build_vocab(your_sentences, update = True)
old_model.train(your_sentences, total_examples=2, epochs = 1)

источник

18:33пожаловаться #5

K

Kir in Natural Language Processing

сначала ты апдейтишь словарь старой модели

источник

18:33пожаловаться #6

K

Kir in Natural Language Processing

потом дообучаешь ее

источник

18:33пожаловаться #7

K

Kir in Natural Language Processing

(параметры во второй строке опциональны)

источник

18:36пожаловаться #8

K

Kir in Natural Language Processing

(поправьте меня, я сам второй день!!!)

источник

18:36пожаловаться #9

A

Alexander in Natural Language Processing

Похоже на правду! Правда получается что я подгружаю не модель, а KeyedVectors. Пойду искать как подгрузить модель. Спасибо!

источник

18:49пожаловаться #10

V

Vlad in Natural Language Processing

Насколько я помню, word2vec в реализации gensim не поддерживает дообучение. В приведённом выше примере модель будет обучена с нуля на ваших данных, а не дообучена

источник

19:02пожаловаться #11

K

Kir in Natural Language Processing

разве там не добавили эту опцию позднее?

источник

19:49пожаловаться #12

A

Alexander in Natural Language Processing

У меня получилось. А на каких курсах так за два дня учатся?

источник

20:13пожаловаться #13

K

Kir in Natural Language Processing

непонятный вопрос. Еще раз плз

источник

20:43пожаловаться #14

DR

Dinesh Raturi in Natural Language Processing

https://youtu.be/kB_kN7V7pN4

1 HOUR Challenge |Build End-To-End Covid-19 Chatbot using Python | DialogFlow|MongoDB|Flask|RapidAPI

full source code Github Link - http://tiny.cc/bestcovid19 Many people asked me regarding a Youtube series for the Covid-19 chatbot implementation over Linked...

источник

22:05пожаловаться #15

2020 May 15

R

Rashi in Natural Language Processing

hey,

источник

13:41пожаловаться #16

R

Rashi in Natural Language Processing

I wanted to download TACRED dataset. can someone please tell me how can I do that?

источник

13:41пожаловаться #17

ND

Nikolay Dudnik in Natural Language Processing

Всем доброго времени суток, если кто-то сталкивался с модулем TensorFlow datasets, скажите пожалуйста, если в Download Config стоит этот флаг, то если прервать работу скрипта который выкачивает данные, то после его повторного запуска сборка данных продолжиться или начнётся заново?

источник

19:11пожаловаться #18

2020 May 16

D(

David (ddale) Dale in Natural Language Processing

Друзья, а можете поделиться вашим любимым способом майнить синонимы для [преимущественно русских] слов?

Что пока пришло мне в голову:
1) Воспользоваться готовым тезаурусом. По точности - идеально, но заметно не хватает полноты.
2) Брать ближайших соседей по словным эмбеддингам из языковой модели. Тут, наоборот, с полнотой всё ок, но точность плохая: для "можно" ближайшие соседи "невозможно" и "нельзя".
3) Тоже соседи по эмбеддингам, но не из языковой модели (которая не отличает синонимы от антонимов), а из какой-нибудь модели-переводчика. Кажется, должно быть лучше. Вопрос: какую предобученную модель для русского языка посоветуете?
4) Ваши варианты?

источник

14:02пожаловаться #19

DK

Denis Kirjanov in Natural Language Processing

David (ddale) Dale

Друзья, а можете поделиться вашим любимым способом майнить синонимы для [преимущественно русских] слов?

Что пока пришло мне в голову:
1) Воспользоваться готовым тезаурусом. По точности - идеально, но заметно не хватает полноты.
2) Брать ближайших соседей по словным эмбеддингам из языковой модели. Тут, наоборот, с полнотой всё ок, но точность плохая: для "можно" ближайшие соседи "невозможно" и "нельзя".
3) Тоже соседи по эмбеддингам, но не из языковой модели (которая не отличает синонимы от антонимов), а из какой-нибудь модели-переводчика. Кажется, должно быть лучше. Вопрос: какую предобученную модель для русского языка посоветуете?
4) Ваши варианты?

В 2) можно предварительно потюнить модель чем-то вроде кантерфиттинга или других видов фитинга
Тогда антонимы отъедут и должно быть плюс-минус ок

источник

15:15пожаловаться #20