Size: a a a

Natural Language Processing

2020 June 30

SS

Sergey Shulga in Natural Language Processing
Denis Kirjanov
hnsw не поддерживается больше
Но он реально хорош, лучше только фаис
источник

SS

Sergey Shulga in Natural Language Processing
И то только за счёт возможности использовать гпу
источник

SS

Sergey Shulga in Natural Language Processing
Мы использовали hnsw, но размер индекса стал слишком большой
источник

FF

Futorio Franklin in Natural Language Processing
Sergey Shulga
И то только за счёт возможности использовать гпу
Так в фаисе тоже можно использовать гпу
источник

SS

Sergey Shulga in Natural Language Processing
Vladimir Bougay
Вопрос в том сколько у вас документов и какая размерность векторов
Примерно миллион, размерность 1044
источник

SS

Sergey Shulga in Natural Language Processing
Futorio Franklin
Так в фаисе тоже можно использовать гпу
Я про это и пишу
источник

FF

Futorio Franklin in Natural Language Processing
Да, сори, неправильно прочитал
источник

VB

Vladimir Bougay in Natural Language Processing
Sergey Shulga
Примерно миллион, размерность 1044
Я не очень понимаю как могут возникнуть проблемы с таким количеством векторов. У нас суммарно под миллиард векторов, размерность 768-1024. Размер индекса 12-16Гб. Используем FAISS HNSW+PQ, на качество поиска не влияет по сути. Надо только подобрать грамотно параметры квантизации-кластеризации
источник

VB

Vladimir Bougay in Natural Language Processing
Попробуйте в FAISS индекс IndexIVFPQ с PQ32 и 4096 центроидами (IVF4096), если качество будет не очень то можно попробовать увеличить количество  центроидов или увеличить количество компонентов квантизованных векторов
источник

VB

Vladimir Bougay in Natural Language Processing
Вот по сути букварь как это делать
https://github.com/facebookresearch/faiss/wiki/Indexing-1M-vectors
источник

EU

Egor Urvanov in Natural Language Processing
У меня есть токен огромный, который нужно разобрать руками и сделать для него интепретацию. Но как это сделать. Я могу для одного токена сделать только 1 интерпретацию. А мне нужно несколько.

@alexkuk
источник

EU

Egor Urvanov in Natural Language Processing
Пример 89061234567
источник

EU

Egor Urvanov in Natural Language Processing
Мне его нужно разложить в

Phone(
country_code=None, code=906, phone=1234567)
источник

EU

Egor Urvanov in Natural Language Processing
А получается только, например, так
Phone(
country_code=None, code=None, phone=89061234567)
источник

DY

Daniel Yavorovych in Natural Language Processing
источник

DY

Daniel Yavorovych in Natural Language Processing
тут ml не нужен, вероятно. попробуй начать с простого подхода, используя библиотеки по типу phonenumbers
источник

А

Антон in Natural Language Processing
Коллеги, мы готовим заявку для подачи в Фонд проекта, который планируем разработать с применением нейросетей и искусственного интеллекта. Для подачи заявки требуется её корректировка с технической точки зрения, кто сможем помочь с этой задаче на платной основе?
источник

EU

Egor Urvanov in Natural Language Processing
Daniel Yavorovych
тут ml не нужен, вероятно. попробуй начать с простого подхода, используя библиотеки по типу phonenumbers
При чём тут мл?
источник

EU

Egor Urvanov in Natural Language Processing
Почему phonenumbers не подходит, Я писал выше
источник

DY

Daniel Yavorovych in Natural Language Processing
Egor Urvanov
При чём тут мл?
исходя из тематики чата
источник