Size: a a a

NLP_RU - Natural Language Processing & Text Mining

2019 January 14

ИК

Иван Калининский in NLP_RU - Natural Language Processing & Text Mining
German Zvonchuk
Друзья, у кого есть опыт работы со spaCy? На сколько сложно написать свою модель, чтобы потом выдёргивать из текста объявления район, город, улицу, проспект, деревню? Может есть какие-то инструкции в сети для новичков?
Тебя интересует именно функциональность NER? В таком случае, для семи языков, включая русский, должно работать из коробки с мультиязычной моделью.
С другими языками придётся поработать. Может, даже,  придётся обучать что-то вроде CNN.
Впрочем, spacy я гонял только на английском, вполне возможно, что можно быстро настроить vocab по размеченному списку географических объектов с использованием кастомных атрибутов token.
источник
2019 January 24

rd

rus dacent in NLP_RU - Natural Language Processing & Text Mining
Zero-shot transfer across 93 languages: Open-sourcing enhanced LASER library
https://code.fb.com/ai-research/laser-multilingual-sentence-embeddings/
источник
2019 February 04

fs

fedor s in NLP_RU - Natural Language Processing & Text Mining
источник
2019 February 17

AG

Atin Gupta in NLP_RU - Natural Language Processing & Text Mining
источник
2019 February 20

AP

Alex Pak in NLP_RU - Natural Language Processing & Text Mining
Друзья, привет. Есть предобученные модели для русского языка помимо Павлова?
источник

AK

Alex Konst in NLP_RU - Natural Language Processing & Text Mining
Alex Pak
Друзья, привет. Есть предобученные модели для русского языка помимо Павлова?
источник

AP

Alex Pak in NLP_RU - Natural Language Processing & Text Mining
Спасибо! Правильно понимаю, что во вкладке модели нужно искать? Но там нет ни GloVe ни Bert моделей, только FastText word2vec.
источник

t2

tonko 22 in NLP_RU - Natural Language Processing & Text Mining
Alex Pak
Друзья, привет. Есть предобученные модели для русского языка помимо Павлова?
А можно ссылочку русский BERT от Павлова? А то у них issue закрыта, но ни чего не гуглится
источник

AP

Alex Pak in NLP_RU - Natural Language Processing & Text Mining
источник

t2

tonko 22 in NLP_RU - Natural Language Processing & Text Mining
Да это то мы знаем
источник

AP

Alex Pak in NLP_RU - Natural Language Processing & Text Mining
tonko 22
Да это то мы знаем
Сорри опечатка )
источник

AP

Alex Pak in NLP_RU - Natural Language Processing & Text Mining
А кроме этого других нет?
источник

t2

tonko 22 in NLP_RU - Natural Language Processing & Text Mining
У меня на классификации заявок не побило TF-IDF(50к фичей n-gramm+char-gramm),
источник

t2

tonko 22 in NLP_RU - Natural Language Processing & Text Mining
Alex Pak
А кроме этого других нет?
Пока не видно, elmo вон спустя сколько месяцев обучили
источник

AP

Alex Pak in NLP_RU - Natural Language Processing & Text Mining
tonko 22
У меня на классификации заявок не побило TF-IDF(50к фичей n-gramm+char-gramm),
Т.е. bert хуже 😱?😂😂😂
источник

t2

tonko 22 in NLP_RU - Natural Language Processing & Text Mining
Alex Pak
Т.е. bert хуже 😱?😂😂😂
На моих данных да, но в них 1. сильный дизбаланс 2. есть плохая разметка
источник

t2

tonko 22 in NLP_RU - Natural Language Processing & Text Mining
+ Есть еще очень короткие заявки
источник

t2

tonko 22 in NLP_RU - Natural Language Processing & Text Mining
Но я так подробно пока не валидирвал, надо бы посмотреть где конкретно хуже отрабатывает
источник

t2

tonko 22 in NLP_RU - Natural Language Processing & Text Mining
0.7 bert против 0.84 tf-idf на логреге
источник

t2

tonko 22 in NLP_RU - Natural Language Processing & Text Mining
elmo от Павлова 0.5
источник