Телеграмм чат группы natural_language

Или я неверно задачу грамматики понимаю? Кажется, что это эквивалент регулярки. Только грамматики более читаемые.

Alexander Kukushkin in Natural Language Processing

09:32пожаловаться #1

AK

Egor Urvanov

Я с регулярками не очень дружу. А с yargy раньше работал и он мне понравился. Кроме того, yargy проще читать и потом изменять, если потребуется. Я не уверен, что регуляркой я напишу также эффективно

Для извлечения телефон лучше использовать библиотеку https://github.com/daviddrysdale/python-phonenumbers

Python port of Google's libphonenumber. Contribute to daviddrysdale/python-phonenumbers development by creating an account on GitHub.

daviddrysdale/python-phonenumbers

Alexander Kukushkin in Natural Language Processing

09:38пожаловаться #2

AK

Egor Urvanov

Мне нужно извлекать телефоны. natasha этого делать не умеет. Я написал грамматики на yargy, которые уже неплохо работают. С вопросом выше разобрался.

Верно ли я понимаю, что наташа — это заготовленные грамматики и, в принципе, всё. Их там то ли 3, то ли 4 штуки (я имею ввиду 3 или 4 кейса: адреса, имена...)?

> Верно ли я понимаю, что наташа — это заготовленные грамматики и, в принципе, всё.

Это устаревшая информация ) см https://t.me/natural_language_processing/16962

Alexander Kukushkin in Natural Language Processing

Наверное, уже не все участники, знаю что этот чатик был создан несколько лет назад @dveselov, чтобы обсуждать Yargy-парсер и библиотеку Natasha. Здорово, что с тех пор здесь сама по себе завелась жизнь.

За последний год проект Natasha подрос. Я выложил в открытый доступ несколько наших внутренных наработок. Раньше библиотека Natasha решала задачу NER для русского языка, была построена на правилах, показывала среднее качество и производительность. Теперь Natasha — это целый большой проект https://github.com/natasha, состоит из 9 подпроектов. Библиотека Natasha https://github.com/natasha/natasha объединять их под одним интерфейсом, решает базовые задачи обработки естественного русского языка: разделение на токены и предложения, эмбединги, анализ морфологии и синтаксиса, лемматизация, NER. Все решения показывают топовые результаты в новостной тематике, быстро работают на CPU.

В этом году я планирую сделать несколько постов про технологии проекта. Предварительно буду выкладывать ссылки сюда. Задавайте вопросы,…

09:39пожаловаться #3

EU

Alexander Kukushkin in Natural Language Processing

Alexander Kukushkin

> Верно ли я понимаю, что наташа — это заготовленные грамматики и, в принципе, всё.

Это устаревшая информация ) см https://t.me/natural_language_processing/16962

Наверное, уже не все участники, знаю что этот чатик был создан несколько лет назад @dveselov, чтобы обсуждать Yargy-парсер и библиотеку Natasha. Здорово, что с тех пор здесь сама по себе завелась жизнь.

За последний год проект Natasha подрос. Я выложил в открытый доступ несколько наших внутренных наработок. Раньше библиотека Natasha решала задачу NER для русского языка, была построена на правилах, показывала среднее качество и производительность. Теперь Natasha — это целый большой проект https://github.com/natasha, состоит из 9 подпроектов. Библиотека Natasha https://github.com/natasha/natasha объединять их под одним интерфейсом, решает базовые задачи обработки естественного русского языка: разделение на токены и предложения, эмбединги, анализ морфологии и синтаксиса, лемматизация, NER. Все решения показывают топовые результаты в новостной тематике, быстро работают на CPU.

В этом году я планирую сделать несколько постов про технологии проекта. Предварительно буду выкладывать ссылки сюда. Задавайте вопросы,…

https://github.com/natasha/natasha

Я говорил про вот эту репу, которая находится в проекте наташа. Вижу, она интегрирует в себе несколько технологий. Я на это внимания до этого не обратил и плохо прочитал то, что вы написали. Окей, спасибо

Solves basic Russian NLP tasks, API for lower level Natasha projects - natasha/natasha

natasha/natasha

09:44пожаловаться #4

EU

Alexander Kukushkin

Для извлечения телефон лучше использовать библиотеку https://github.com/daviddrysdale/python-phonenumbers

Python port of Google's libphonenumber. Contribute to daviddrysdale/python-phonenumbers development by creating an account on GitHub.

daviddrysdale/python-phonenumbers

09:50пожаловаться #5

EU

Его кастомизировать можно как-нибудь внутренними средствами?

09:50пожаловаться #6

EU

Вот такую штуку не взял

Alexander Kukushkin in Natural Language Processing

09:50пожаловаться #7

AK

Egor Urvanov

Его кастомизировать можно как-нибудь внутренними средствами?

Кастомизировать нет. Там действитель две проблемы: доп. коды и телефоны с общим префиксом (+7 (123) 456-56-56, 123-12-12). Можно накручивать логику сбоку от phonenumbers

10:00пожаловаться #8

EU

Понял, буду yargy допиливать

10:21пожаловаться #9

EU

Там я общий случай разберу. А здесь костыли будут

Sergey Shulga in Natural Language Processing

10:22пожаловаться #10

SS

Вопрос поиска похожих эмбедингов. Чтобы не поднимать фаис или любую другую ann, есть желание писать вектора в бд, а поиск стоить через Эластик, никто не сталкивался, как это настроить и как быстро это работает? Просто индекс выходит очень большой, в память грузить не хочется, а понижение размерности в моей задаче снижает сильно качество выдачи.

Vladimir Bougay in Natural Language Processing

10:54пожаловаться #11

VB

Sergey Shulga

Вопрос поиска похожих эмбедингов. Чтобы не поднимать фаис или любую другую ann, есть желание писать вектора в бд, а поиск стоить через Эластик, никто не сталкивался, как это настроить и как быстро это работает? Просто индекс выходит очень большой, в память грузить не хочется, а понижение размерности в моей задаче снижает сильно качество выдачи.

https://www.elastic.co/blog/text-similarity-search-with-vectors-in-elasticsearch

Elastic Blog

The Elasticsearch 7.3 release brings support for using vectors in document scoring. This post explores how text embeddings and vector fields can be used to support similarity search.

Роман Некрасов... in Natural Language Processing

10:59пожаловаться #12

РН

Sergey Shulga

Вопрос поиска похожих эмбедингов. Чтобы не поднимать фаис или любую другую ann, есть желание писать вектора в бд, а поиск стоить через Эластик, никто не сталкивался, как это настроить и как быстро это работает? Просто индекс выходит очень большой, в память грузить не хочется, а понижение размерности в моей задаче снижает сильно качество выдачи.

Зачем вектора в БД? Есть же удобная вещь для индексирования векторов https://github.com/spotify/annoy

Approximate Nearest Neighbors in C++/Python optimized for memory usage and loading/saving to disk - spotify/annoy

spotify/annoy

Vladimir Bougay in Natural Language Processing

10:59пожаловаться #13

VB

Sergey Shulga

Вопрос поиска похожих эмбедингов. Чтобы не поднимать фаис или любую другую ann, есть желание писать вектора в бд, а поиск стоить через Эластик, никто не сталкивался, как это настроить и как быстро это работает? Просто индекс выходит очень большой, в память грузить не хочется, а понижение размерности в моей задаче снижает сильно качество выдачи.

Вопрос в том сколько у вас документов и какая размерность векторов

11:00пожаловаться #14

EU

Лучше hnsw

11:02пожаловаться #15

EU