Size: a a a

Natural Language Processing

2020 November 19

TM

Toemik Mnemonic in Natural Language Processing
Sebastian Pereira
Per и Loc точно были, когда я смотрел.
не получилось для весьма очевидной локации
источник

KL

Kir L in Natural Language Processing
Друзья, всем привет.
Есть кто-то, кто съел собаку на эластике? Пара вопросов.
1. Использовали ли эмбеддинги (USE) ? Есть какие-то подводные камни? Интересно, какие токены там векторизуются для поиска по телу документа. Или это только для поиска заголовков...

2. Удалось ли вам использовать какую-то хитрость для поиска неявного, но смыслового совпадения запроса и тела документа. Расскажите
источник

SP

Sebastian Pereira in Natural Language Processing
import spacy
sample_sentences = "Привет Миру! Как твои дела? 14 октября. 12 рублей. Лондон. Понедельник. Сегодня неплохая погода."
if __name__ == '__main__':
   nlp = spacy.load('/content/ru2_nerus_800ks_96')
   doc = nlp(sample_sentences)
   for ent in doc.ents:
     print(ent.text, ent.start_char, ent.end_char, ent.label_)
Миру 7 11 PER
Лондон 51 57 LOC

код из прямо из туториала 10 секунд
источник

SP

Sebastian Pereira in Natural Language Processing
Kir L
Друзья, всем привет.
Есть кто-то, кто съел собаку на эластике? Пара вопросов.
1. Использовали ли эмбеддинги (USE) ? Есть какие-то подводные камни? Интересно, какие токены там векторизуются для поиска по телу документа. Или это только для поиска заголовков...

2. Удалось ли вам использовать какую-то хитрость для поиска неявного, но смыслового совпадения запроса и тела документа. Расскажите
Использовали, как следует из названия он для предложений предназначен, что MUSE, что LASER - оба хороши.
источник

KL

Kir L in Natural Language Processing
Sebastian Pereira
Использовали, как следует из названия он для предложений предназначен, что MUSE, что LASER - оба хороши.
И что же там, эластик векторизует все предложения тела документа? Это же жесть сколько векторов получается, не совсем понятен этот момент
источник

KL

Kir L in Natural Language Processing
Сам USE понятен как явление, не понятно, как его использует эластиг
источник

YB

Yuri Baburov in Natural Language Processing
Toemik Mnemonic
не получилось для весьма очевидной локации
там выложено 4 модели, и в двух из них нет NER, а в двух есть.
источник

НК

Николай Карпенко... in Natural Language Processing
Семантический поиск в эластике готовил кто-нибудь? Толк есть?
источник

TM

Toemik Mnemonic in Natural Language Processing
Yuri Baburov
там выложено 4 модели, и в двух из них нет NER, а в двух есть.
спасибо, разобрался
источник
2020 November 20

AK

Alexander Kukushkin in Natural Language Processing
Библиотеки из проекта Natasha скачивают примерно 3700 раз в месяц (1500 natasha, 1000(!) yargy, 1000 razdel). Это не очень много, но и не мало. Для сравнения DeepPavlov скачивают ~4000 раз. Мне стало интересно, кто все эти люди, особенно, герои кто осилил Yargy. Пройдите, пожалуйста, опросик, может быть, я вам напишу, поспрашиваю. #natasha
источник

AK

Alexander Kukushkin in Natural Language Processing
Natasha и я
Анонимный опрос
5%
Что есть Natasha, почему он пишет в этот чат 👀
19%
Что-то слышал  🙉
17%
Читал статью, смотрел доклад 🤏
14%
Пробовал что-то запускать 💣
17%
Использовал не по работе (учеба, pet project, ...) 🔬
26%
Использовал для рабочих проектов 🚲
2%
Присылал багрепорт, пуллреквест 💪
Проголосовало: 198
источник

k

kosc in Natural Language Processing
Alexander Kukushkin
Библиотеки из проекта Natasha скачивают примерно 3700 раз в месяц (1500 natasha, 1000(!) yargy, 1000 razdel). Это не очень много, но и не мало. Для сравнения DeepPavlov скачивают ~4000 раз. Мне стало интересно, кто все эти люди, особенно, герои кто осилил Yargy. Пройдите, пожалуйста, опросик, может быть, я вам напишу, поспрашиваю. #natasha
Но ведь не все кто есть в этом чате используют Natasha, и не все кто использует Natasha, есть в этом чате.
источник

AK

Alexander Kukushkin in Natural Language Processing
kosc
Но ведь не все кто есть в этом чате используют Natasha, и не все кто использует Natasha, есть в этом чате.
Все и нужны, достаточно выборки
источник

AS

Ardak Shalkarbay in Natural Language Processing
Подскажите пожалуйста,как можно сделать токенизацию, но так чтобы whitespace тоже остались на своих местах?
источник

НК

Николай Карпенко... in Natural Language Processing
Alexander Kukushkin
Все и нужны, достаточно выборки
хотелось бы razdel в качестве сервера с api, вы можете помочь написать? лучше в докер сразу
источник

AK

Alexander Kukushkin in Natural Language Processing
Николай Карпенко
хотелось бы razdel в качестве сервера с api, вы можете помочь написать? лучше в докер сразу
Причина в том что у вас язык программирования не Питон? Просто razdel легкая библиотека, обычно удобно использлвать ее не как сервис. Вы можете взять https://github.com/natasha/natasha-demo, убрать часть кода, будет то что надо
источник

НК

Николай Карпенко... in Natural Language Processing
Да, часто проект вне питона, плюс надо на микросервисы масштабировать нагрузку. Спасибо, гляну Natasha.
источник

НК

Николай Карпенко... in Natural Language Processing
А есть ли возможность через elmo написать алгоритм, который определяет, что у слова или фразы есть множество значений в зависимости от контекста?
источник

MF

M F in Natural Language Processing
Николай Карпенко
А есть ли возможность через elmo написать алгоритм, который определяет, что у слова или фразы есть множество значений в зависимости от контекста?
в контекстах с разными  значениями вектора для одного слова по косинусу (или другой метрике) дальше будут. Подойдёт ли именно под вашу задачу - только пробовать
источник

НК

Николай Карпенко... in Natural Language Processing
Есть ли смысл сделать свою elmo модель из текста 300-500гб?
источник