Телеграмм чат группы natural_language

Но tf-idf не делает же слово вектором? В KMeans сложно будет результат передать.

У меня такая гипотеза - каждое слово превратить в вектор по fasttext, выделить топ 100 слов на каждого клиента например с помощью TF-IDF и разложить на 100 слов * 100 (размер вектора fasttext) и так получится 10000 колонок. Может что-то экономнее?

Можно посчитать тфидф слова в каждом документе и получить вектор длины (кол-во документов)

источник

00:46пожаловаться #5

DB

Dmitry Bohdanov in Natural Language Processing

Oleg Serikov

Можно посчитать тфидф слова в каждом документе и получить вектор длины (кол-во документов)

Интересный способ, спасибо, попробую

источник

00:52пожаловаться #6

D

Den in Natural Language Processing

так никто не подскажет по написанию скрипта файнтюна?

источник

02:03пожаловаться #7

SZ

Sergey Zakharov in Natural Language Processing

Yuri Baburov

можно, только не забудь сделать один раз for l in doc2.get_pipe('ner').labels: doc1.get_pipe('ner').add_label(l)

чот такое не работает, пишет AttributeError: 'spacy.tokens.doc.Doc' object has no attribute 'get_pipe'

источник

03:30пожаловаться #8

V

V in Natural Language Processing

Павел

А какие требования на инференс модели, и как Вы препроцессите текст перед тем, как его скормить?

извините, не заметил сообщение. если ещё актуально...
инференс: не гонюсь за скоростью (пока что). без оптимизаций фичи извлекаются примерно со скоростью 3-4 документа в секунду (зависит от размера текстовой части и количества изображений; тестировал пока только на коротких тестах). вместо скорости целюсь в минимизацию занимаемой памяти и дискового пространства, как следствие - в возможность запускать на слабых машинах. под вопросом остаётся выбор алгоритма поиска по векторам - пока в тестовых целях использую bruteforce-поиск, но планирую использовать Annoy (в основном потому что эта библиотека позволяет строить и хранить индексы на диске и является кроссплатформенной).

препроцессинг текста: в итоге я перешёл с LASER на Multilingual Universal Sentence Encoder от гугла, так как эта модель работает шустрее. гугл велел особо о препроцессинге не париться, мол предобученная модель всё сделает сама, но я всё же разбиваю текст на параграфы в среднем около 10 тыс. символов (не SentencePiece-токенов, которыми оперирует модель), и обрабатываю только первые 1000 таких параграфов в документе. векторы параграфов потом усредняю.

источник

04:39пожаловаться #9

V

V in Natural Language Processing

для получения кросс-модальных векторов решил в итоге использовать подход с псевдосиамскими сетями, с применением функции потерь, описанной в https://arxiv.org/abs/1707.05612 . обучал на MS COCO с MobileNetV2 для извлечения фич из изображений, и Multilingual USE для текста. даже с аугментацией данных пока не удалось получить тех же результатов, что и в референсе (видимо из-за более слабых, не затюненных под один датасет моделей и меньшей размерности мультимодальных векторов) но top-5 recall для ранжирования "текст-изображение" и "изображение-текст" получился около 70%, что пока устраивает.

источник

04:46пожаловаться #10

V

V in Natural Language Processing

вместе с неплохим (пока что, для моих целей) кросс-модальным ранжированием наблюдаю деградацию мультимодальных векторов (по сравнению с исходными) в задаче ранжирования сущностей в одном домене ("текст-текст", "изображение-изображение"). это проблема, так как мне нужно вести и single domain, и cross-domain поиск в одном векторном пространстве...

источник

04:50пожаловаться #11

V

V in Natural Language Processing

может быть у кого-то есть идеи, как избежать подобной деградации? первое, что приходит на ум - обучать модель одновременно и на single domain и на cross-domain датасетах.

источник

04:57пожаловаться #12

V

Viktor in Natural Language Processing

V

извините, не заметил сообщение. если ещё актуально...
инференс: не гонюсь за скоростью (пока что). без оптимизаций фичи извлекаются примерно со скоростью 3-4 документа в секунду (зависит от размера текстовой части и количества изображений; тестировал пока только на коротких тестах). вместо скорости целюсь в минимизацию занимаемой памяти и дискового пространства, как следствие - в возможность запускать на слабых машинах. под вопросом остаётся выбор алгоритма поиска по векторам - пока в тестовых целях использую bruteforce-поиск, но планирую использовать Annoy (в основном потому что эта библиотека позволяет строить и хранить индексы на диске и является кроссплатформенной).

препроцессинг текста: в итоге я перешёл с LASER на Multilingual Universal Sentence Encoder от гугла, так как эта модель работает шустрее. гугл велел особо о препроцессинге не париться, мол предобученная модель всё сделает сама, но я всё же разбиваю текст на параграфы в среднем около 10 тыс. символов (не SentencePiece-токенов, которыми оперирует модель), и обрабатываю только первые 1000 таких параграфов в документе. векторы параграфов потом усредняю.

а faiss не думали применить вместо annoy?

источник

12:48пожаловаться #13

D

Den in Natural Language Processing

...судя по всему нет, всем как-то пофиг

источник

15:23пожаловаться #14

B

Brenoritvrezorkre in Natural Language Processing

https://arxiv.org/abs/1910.10683

источник