Size: a a a

Natural Language Processing

2020 June 30

EU

Egor Urvanov in Natural Language Processing
Или я неверно задачу грамматики понимаю? Кажется, что это эквивалент регулярки. Только грамматики более читаемые.
источник

AK

Alexander Kukushkin in Natural Language Processing
Egor Urvanov
Я с регулярками не очень дружу. А с yargy раньше работал и он мне понравился. Кроме того, yargy проще читать и потом изменять, если потребуется. Я не уверен, что регуляркой я напишу также эффективно
Для извлечения телефон лучше использовать библиотеку https://github.com/daviddrysdale/python-phonenumbers
источник

AK

Alexander Kukushkin in Natural Language Processing
Egor Urvanov
Мне нужно извлекать телефоны. natasha этого делать не умеет. Я написал грамматики на yargy, которые уже неплохо работают. С вопросом выше разобрался.

Верно ли я понимаю, что наташа — это заготовленные грамматики и, в принципе, всё. Их там то ли 3, то ли 4 штуки (я имею ввиду 3 или 4 кейса: адреса, имена...)?
> Верно ли я понимаю, что наташа — это заготовленные грамматики и, в принципе, всё.

Это устаревшая информация ) см https://t.me/natural_language_processing/16962
Telegram
Alexander Kukushkin in Natural Language Processing
Наверное, уже не все участники, знаю что этот чатик был создан несколько лет назад @dveselov, чтобы обсуждать Yargy-парсер и библиотеку Natasha. Здорово, что с тех пор здесь сама по себе завелась жизнь.

За последний год проект Natasha подрос. Я выложил в открытый доступ несколько наших внутренных наработок. Раньше библиотека Natasha решала задачу NER для русского языка, была построена на правилах, показывала среднее качество и производительность. Теперь Natasha — это целый большой проект https://github.com/natasha, состоит из 9 подпроектов. Библиотека Natasha https://github.com/natasha/natasha объединять их под одним интерфейсом, решает базовые задачи обработки естественного русского языка: разделение на токены и предложения, эмбединги, анализ морфологии и синтаксиса, лемматизация, NER. Все решения показывают топовые результаты в новостной тематике, быстро работают на CPU.

В этом году я планирую сделать несколько постов про технологии проекта. Предварительно буду выкладывать ссылки сюда. Задавайте вопросы,…
источник

EU

Egor Urvanov in Natural Language Processing
Alexander Kukushkin
> Верно ли я понимаю, что наташа — это заготовленные грамматики и, в принципе, всё.

Это устаревшая информация ) см https://t.me/natural_language_processing/16962
Telegram
Alexander Kukushkin in Natural Language Processing
Наверное, уже не все участники, знаю что этот чатик был создан несколько лет назад @dveselov, чтобы обсуждать Yargy-парсер и библиотеку Natasha. Здорово, что с тех пор здесь сама по себе завелась жизнь.

За последний год проект Natasha подрос. Я выложил в открытый доступ несколько наших внутренных наработок. Раньше библиотека Natasha решала задачу NER для русского языка, была построена на правилах, показывала среднее качество и производительность. Теперь Natasha — это целый большой проект https://github.com/natasha, состоит из 9 подпроектов. Библиотека Natasha https://github.com/natasha/natasha объединять их под одним интерфейсом, решает базовые задачи обработки естественного русского языка: разделение на токены и предложения, эмбединги, анализ морфологии и синтаксиса, лемматизация, NER. Все решения показывают топовые результаты в новостной тематике, быстро работают на CPU.

В этом году я планирую сделать несколько постов про технологии проекта. Предварительно буду выкладывать ссылки сюда. Задавайте вопросы,…
https://github.com/natasha/natasha

Я говорил про вот эту репу, которая находится в проекте наташа. Вижу, она интегрирует в себе несколько технологий. Я на это внимания до этого не обратил и плохо прочитал то, что вы написали. Окей, спасибо
источник

EU

Egor Urvanov in Natural Language Processing
источник

EU

Egor Urvanov in Natural Language Processing
Его кастомизировать можно как-нибудь внутренними средствами?
источник

EU

Egor Urvanov in Natural Language Processing
Вот такую штуку не взял
источник

AK

Alexander Kukushkin in Natural Language Processing
Egor Urvanov
Его кастомизировать можно как-нибудь внутренними средствами?
Кастомизировать нет. Там действитель две проблемы: доп. коды и телефоны с общим префиксом (+7 (123) 456-56-56, 123-12-12). Можно накручивать логику сбоку от phonenumbers
источник

EU

Egor Urvanov in Natural Language Processing
Понял, буду yargy допиливать
источник

EU

Egor Urvanov in Natural Language Processing
Там я общий случай разберу. А здесь костыли будут
источник

SS

Sergey Shulga in Natural Language Processing
Вопрос  поиска похожих эмбедингов. Чтобы не поднимать фаис или любую другую ann, есть желание писать вектора в бд, а поиск стоить через Эластик, никто не сталкивался, как это настроить и как быстро это работает? Просто индекс выходит очень большой, в память грузить не хочется, а понижение размерности в моей задаче снижает сильно качество выдачи.
источник

VB

Vladimir Bougay in Natural Language Processing
Sergey Shulga
Вопрос  поиска похожих эмбедингов. Чтобы не поднимать фаис или любую другую ann, есть желание писать вектора в бд, а поиск стоить через Эластик, никто не сталкивался, как это настроить и как быстро это работает? Просто индекс выходит очень большой, в память грузить не хочется, а понижение размерности в моей задаче снижает сильно качество выдачи.
источник

РН

Роман Некрасов... in Natural Language Processing
Sergey Shulga
Вопрос  поиска похожих эмбедингов. Чтобы не поднимать фаис или любую другую ann, есть желание писать вектора в бд, а поиск стоить через Эластик, никто не сталкивался, как это настроить и как быстро это работает? Просто индекс выходит очень большой, в память грузить не хочется, а понижение размерности в моей задаче снижает сильно качество выдачи.
Зачем вектора в БД? Есть же удобная вещь для индексирования векторов https://github.com/spotify/annoy
источник

VB

Vladimir Bougay in Natural Language Processing
Sergey Shulga
Вопрос  поиска похожих эмбедингов. Чтобы не поднимать фаис или любую другую ann, есть желание писать вектора в бд, а поиск стоить через Эластик, никто не сталкивался, как это настроить и как быстро это работает? Просто индекс выходит очень большой, в память грузить не хочется, а понижение размерности в моей задаче снижает сильно качество выдачи.
Вопрос в том сколько у вас документов и какая размерность векторов
источник

EU

Egor Urvanov in Natural Language Processing
Лучше hnsw
источник

EU

Egor Urvanov in Natural Language Processing
источник

EU

Egor Urvanov in Natural Language Processing
Вот бенчи
источник

DK

Denis Kirjanov in Natural Language Processing
hnsw не поддерживается больше
источник

EU

Egor Urvanov in Natural Language Processing
Ого. Чего это так. Хороший инструмент.
источник

SS

Sergey Shulga in Natural Language Processing
Он плохо апроксимирует
источник