Size: a a a

Natural Language Processing

2021 December 02

KS

Konstantin Smith in Natural Language Processing
А что, там на сайте нет? Вроде SDK на 4-х языках, на выбор...
источник

ИК

Иван Каилов... in Natural Language Processing
📞
источник

ИК

Иван Каилов... in Natural Language Processing
источник
2021 December 03

A

Alex in Natural Language Processing
Может кто посоветовать на чем лучше поднять систему автогенерации квизов?
источник

🐙

🐙 in Natural Language Processing
Ребят, всем привет! Подскажите, а есть что-то такое же встраиваемое, как faiss, и при этом с персистентностью, но без необходимости разворачивать ряд сервисов как milvus? Ищу что-то посередине.
источник

FF

Futorio Franklin in Natural Language Processing
Смотрели annoy?
источник

🐙

🐙 in Natural Language Processing
Не видел, большое спасибо! Достаточо интересная библиотека, однозначно пригодится.

Вот это немного смущает:
> Index creation is separate from lookup (in particular you can not add more items once the tree has been created)

in particular you can not add more items once the tree has been created)

Судя по всему, не позволяет догружать вектора без перестроения, а мне эта функциональность тоже нужна.

И вот это тоже:
> seems to perform surprisingly well even up to 1,000 dimensions
У меня где-то 200'000 получилось.
источник

FF

Futorio Franklin in Natural Language Processing
векторы с размерностью в 200к?
источник

A

Andrey in Natural Language Processing
elasticsearch... а 200'000 этот одном векторе?
источник

FF

Futorio Franklin in Natural Language Processing
это tf-idf что ли?
источник

🐙

🐙 in Natural Language Processing
Да, в 1 векторе. HashingVectorizer, faiss переваривает с допустимой для меня скоростью.
источник

FF

Futorio Franklin in Natural Language Processing
так а зачем их хранить?
источник

🐙

🐙 in Natural Language Processing
Скажем, исходные документы могут стать не доступны.
источник

FF

Futorio Franklin in Natural Language Processing
А faiss нужен, чтобы их сжимать?
источник

🐙

🐙 in Natural Language Processing
faiss нужен для Ann классификации.
источник

A

Andrey in Natural Language Processing
у faiss вроде тоже сериализация есть
источник

🐙

🐙 in Natural Language Processing
Есть. У меня уже есть свой код, который выполняет мою задачу, я просто решил поискать готовые решения.

Для себя сделал процесс через хранение векторов в RDB, а при старте просто перегружаю базу в индекс. Получается персистентно, устойчиво к нарушению порядка целочисленных векторных индексов + бонусом статистики можно прикрутить.
источник

A

Andrey in Natural Language Processing
крутенько... а вопрос тогда в чем...
источник

🐙

🐙 in Natural Language Processing
Вопрос в том, есть ли такое же, с аналогичным составом возможностей:
- персистентность между перевключениями
- возможность online добавления
- встраиваемое, без необходимости разворачивания экосистемы,
но готовое.

Я свой код пока в библиотеку не оформлял, потому что нахожусь под впечатлением, что сделал велосипед.
источник

NS

Nikolay V. Shmyrev in Natural Language Processing
Привет. Чего-то не могу найти русского берта uncased. Никто не видел?
источник