Size: a a a

Natural Language Processing

2021 September 30

МЕ

Максим Ермаков... in Natural Language Processing
Всем привет! Подскажите, как в spaCy можно заменить текст внутри entity? Или просто заменить кусок текста внтури дока?

Вот тут Ines Montani в очередной раз подчёркивает недеструктивность обработки в spaCy 😐
источник

AS

Artem Sergeev in Natural Language Processing
добрый день
а ведь у меня прямо похожий вопрос был
ну в смысле я тут заметно продвинулся, но результат в реальности пока сильно далёк от идеала

и просто "дотюнить" тут не помогает, тем более small модель

в чате есть обсуждение на этот счёт. А мне было бы интересно пообщаться.

Причём на первом этапе у меня не условный Толстой, а вполне реальный :)
источник

A

Aron in Natural Language Processing
Доброго времени суток! Как тут относятся к размещению ссылок на фриланс биржу? Ищу исполнителя.
источник

A

Aron in Natural Language Processing
Видимо рискну.
https://freelance.habr.com/tasks/391323
источник

SS

Sergey Sikorskiy in Natural Language Processing
Может лучше создать отдельный чат для работы/бизнеса, а здесь обсуждать только софт и теорию?
источник

AP

Arsen Plus in Natural Language Processing
Добрый вечер всем! Немного глупый вопрос сейчас последует:

Я же могу потюнить ru_core_news_lg из SpaCy (ner-компоненту) на своих данных, следуя той процедуре, что описана в мануалах SpaCy?

https://spacy.io/usage/training
источник

🐙

🐙 in Natural Language Processing
Да, можете, там статистическая модель учится.
источник

AP

Arsen Plus in Natural Language Processing
Спасибо
источник

MA

Mark Adamenko in Natural Language Processing
Коллеги, приветствую! Буду благодарен за помощь! Есть несколько датасетов -часть в csv, часть в json (json разной структуры - разная степень вложенности, разные имена свойств, хотя по факту могут быть эквивалентными). Как подступиться к задаче?
источник

MA

Mark Adamenko in Natural Language Processing
А - самое главное - надо объединить с одной структурой, свойства смержить.
источник
2021 October 01

OS

Oleg Serikov in Natural Language Processing
привет! а есть тьюториал с best practices для построения корпуса с быстрым поиском?

в моей голове это "документация lucene/elk" но звучит как высокий порог вхождения
источник

A

Andrey in Natural Language Processing
посмотрите weviate, milvus
источник

NK

Nikolay Karelin in Natural Language Processing
Milvus - Для поиска по эмбеддингам, на уверен, что про это спрашивали
источник

OS

Oleg Serikov in Natural Language Processing
скорее для кастомного трибанка не в юди
источник

A

Andrey in Natural Language Processing
ничего не понял, но очень интересно.

эластик не такой уж сложный, если что.
источник

FF

Futorio Franklin in Natural Language Processing
Там разве поиск по векторам не в xpack версия?
источник

FF

Futorio Franklin in Natural Language Processing
для ann поиск есть vearch, но там всё плохо с документацией
источник

A

Andrey in Natural Language Processing
нет. я юзаю cosine similarity на бесплатном без дополнений
источник

FF

Futorio Franklin in Natural Language Processing
Круто. И как по скорости?
источник

A

Andrey in Natural Language Processing
https://www.elastic.co/blog/text-similarity-search-with-vectors-in-elasticsearch

отдельно не бенчмаркал, но вообще претензий нет
источник