Телеграмм чат группы natural_language

2020 November 19

TM

Toemik Mnemonic in Natural Language Processing

Sebastian Pereira

Per и Loc точно были, когда я смотрел.

не получилось для весьма очевидной локации

источник

16:29пожаловаться #1

KL

Kir L in Natural Language Processing

Друзья, всем привет.
Есть кто-то, кто съел собаку на эластике? Пара вопросов.
1. Использовали ли эмбеддинги (USE) ? Есть какие-то подводные камни? Интересно, какие токены там векторизуются для поиска по телу документа. Или это только для поиска заголовков...

2. Удалось ли вам использовать какую-то хитрость для поиска неявного, но смыслового совпадения запроса и тела документа. Расскажите

источник

16:41пожаловаться #2

SP

Sebastian Pereira in Natural Language Processing

import spacy
sample_sentences = "Привет Миру! Как твои дела? 14 октября. 12 рублей. Лондон. Понедельник. Сегодня неплохая погода."
if __name__ == '__main__':
    nlp = spacy.load('/content/ru2_nerus_800ks_96')
    doc = nlp(sample_sentences)
    for ent in doc.ents:
      print(ent.text, ent.start_char, ent.end_char, ent.label_)

Миру 7 11 PER
Лондон 51 57 LOC

код из прямо из туториала 10 секунд

источник

16:43пожаловаться #3

SP

Sebastian Pereira in Natural Language Processing

Kir L

Друзья, всем привет.
Есть кто-то, кто съел собаку на эластике? Пара вопросов.
1. Использовали ли эмбеддинги (USE) ? Есть какие-то подводные камни? Интересно, какие токены там векторизуются для поиска по телу документа. Или это только для поиска заголовков...

2. Удалось ли вам использовать какую-то хитрость для поиска неявного, но смыслового совпадения запроса и тела документа. Расскажите

Использовали, как следует из названия он для предложений предназначен, что MUSE, что LASER - оба хороши.

источник

16:44пожаловаться #4

KL

Kir L in Natural Language Processing

Sebastian Pereira

Использовали, как следует из названия он для предложений предназначен, что MUSE, что LASER - оба хороши.

И что же там, эластик векторизует все предложения тела документа? Это же жесть сколько векторов получается, не совсем понятен этот момент

источник

16:48пожаловаться #5

KL

Kir L in Natural Language Processing

Сам USE понятен как явление, не понятно, как его использует эластиг

источник

16:48пожаловаться #6

YB

Yuri Baburov in Natural Language Processing

Toemik Mnemonic

не получилось для весьма очевидной локации

там выложено 4 модели, и в двух из них нет NER, а в двух есть.

источник

16:59пожаловаться #7

НК

Николай Карпенко... in Natural Language Processing

Семантический поиск в эластике готовил кто-нибудь? Толк есть?

источник

19:14пожаловаться #8

TM

Toemik Mnemonic in Natural Language Processing

Yuri Baburov

там выложено 4 модели, и в двух из них нет NER, а в двух есть.

спасибо, разобрался

источник

20:20пожаловаться #9

2020 November 20

AK

Alexander Kukushkin in Natural Language Processing

Библиотеки из проекта Natasha скачивают примерно 3700 раз в месяц (1500 natasha, 1000(!) yargy, 1000 razdel). Это не очень много, но и не мало. Для сравнения DeepPavlov скачивают ~4000 раз. Мне стало интересно, кто все эти люди, особенно, герои кто осилил Yargy. Пройдите, пожалуйста, опросик, может быть, я вам напишу, поспрашиваю. #natasha

источник

09:56пожаловаться #10

AK

Alexander Kukushkin in Natural Language Processing

Natasha и я

Анонимный опрос

5%

Что есть Natasha, почему он пишет в этот чат 👀

19%

Что-то слышал 🙉

17%

Читал статью, смотрел доклад 🤏

14%

Пробовал что-то запускать 💣

17%

Использовал не по работе (учеба, pet project, ...) 🔬

26%

Использовал для рабочих проектов 🚲

2%

Присылал багрепорт, пуллреквест 💪

Проголосовало: 198

источник

09:56пожаловаться #11

k

kosc in Natural Language Processing

Alexander Kukushkin

Библиотеки из проекта Natasha скачивают примерно 3700 раз в месяц (1500 natasha, 1000(!) yargy, 1000 razdel). Это не очень много, но и не мало. Для сравнения DeepPavlov скачивают ~4000 раз. Мне стало интересно, кто все эти люди, особенно, герои кто осилил Yargy. Пройдите, пожалуйста, опросик, может быть, я вам напишу, поспрашиваю. #natasha

Но ведь не все кто есть в этом чате используют Natasha, и не все кто использует Natasha, есть в этом чате.

источник

10:23пожаловаться #12

AK

Alexander Kukushkin in Natural Language Processing

kosc

Но ведь не все кто есть в этом чате используют Natasha, и не все кто использует Natasha, есть в этом чате.

Все и нужны, достаточно выборки

источник

10:33пожаловаться #13

AS

Ardak Shalkarbay in Natural Language Processing

Подскажите пожалуйста,как можно сделать токенизацию, но так чтобы whitespace тоже остались на своих местах?

источник

11:23пожаловаться #14

НК

Николай Карпенко... in Natural Language Processing

Alexander Kukushkin

Все и нужны, достаточно выборки

хотелось бы razdel в качестве сервера с api, вы можете помочь написать? лучше в докер сразу

источник

11:28пожаловаться #15

AK

Alexander Kukushkin in Natural Language Processing

Николай Карпенко

хотелось бы razdel в качестве сервера с api, вы можете помочь написать? лучше в докер сразу

Причина в том что у вас язык программирования не Питон? Просто razdel легкая библиотека, обычно удобно использлвать ее не как сервис. Вы можете взять https://github.com/natasha/natasha-demo, убрать часть кода, будет то что надо

GitHub

natasha/natasha-demo

Contribute to natasha/natasha-demo development by creating an account on GitHub.

источник

11:32пожаловаться #16

НК

Николай Карпенко... in Natural Language Processing

Да, часто проект вне питона, плюс надо на микросервисы масштабировать нагрузку. Спасибо, гляну Natasha.

источник

11:36пожаловаться #17

НК

Николай Карпенко... in Natural Language Processing

А есть ли возможность через elmo написать алгоритм, который определяет, что у слова или фразы есть множество значений в зависимости от контекста?

источник

11:37пожаловаться #18

MF

M F in Natural Language Processing

Николай Карпенко

А есть ли возможность через elmo написать алгоритм, который определяет, что у слова или фразы есть множество значений в зависимости от контекста?

в контекстах с разными значениями вектора для одного слова по косинусу (или другой метрике) дальше будут. Подойдёт ли именно под вашу задачу - только пробовать

источник

11:40пожаловаться #19

НК

Николай Карпенко... in Natural Language Processing

Есть ли смысл сделать свою elmo модель из текста 300-500гб?

источник

11:44пожаловаться #20