Size: a a a

Natural Language Processing

2020 February 24

NO

Nikita O in Natural Language Processing
Берем для подслов n-граммы.Как на выходе получить векторные представления для OOV слов длины>=n понятно.  Что с OOV словами длины меньше n?
источник

NO

Nikita O in Natural Language Processing
Да и на вход не очень понятно как разбиваются на n-граммы слова длины <n
источник

YB

Yuri Baburov in Natural Language Processing
Nikita O
Берем для подслов n-граммы.Как на выходе получить векторные представления для OOV слов длины>=n понятно.  Что с OOV словами длины меньше n?
ноль будет, см алгоритм выше. вектора для слова нет, для подслов нет.
источник

YB

Yuri Baburov in Natural Language Processing
Nikita O
Да и на вход не очень понятно как разбиваются на n-граммы слова длины <n
там есть параметры min_n и max_n, по дефолту — 3..5.
ну вот находи в слове все непрерывные подслова такой длины.
источник

NO

Nikita O in Natural Language Processing
Как хорошо что находятся люди, готовые разъяснить такие моменты 👍
источник

NO

Nikita O in Natural Language Processing
А можете сказать по поводу сравнения самой библиотеки фасттекст и фасттекста в генсиме? Зачем вообще понадобилось реализовывать фасттекст внутри генсима, когда уже существовала готовая библиотека?
источник

YB

Yuri Baburov in Natural Language Processing
Nikita O
Как хорошо что находятся люди, готовые разъяснить такие моменты 👍
вот прям отлично, когда люди вопросы задают, готовых ответов на которые нет в интернете :)
источник

YB

Yuri Baburov in Natural Language Processing
Nikita O
А можете сказать по поводу сравнения самой библиотеки фасттекст и фасттекста в генсиме? Зачем вообще понадобилось реализовывать фасттекст внутри генсима, когда уже существовала готовая библиотека?
источник

NO

Nikita O in Natural Language Processing
По последней ссылке статья как оригинальный w2v в генсим добавляли. Был код на си -> сделали библиотеку на питоне. Зачем после выпуска фасттекста стали еще добавлять фасттекст в генсим непонятно. Фасттекст же уже питоновская библиотека. Или нет? Или изначально для нее не было питоновской обертки и она только потом появилась?
источник

NO

Nikita O in Natural Language Processing
Продолжил гуглить про это. Нашел issue в гитхабе генсима про несовпадение оригинала фасттекст и его реализации в генсим: https://github.com/RaRe-Technologies/gensim/issues/1940 Ник автора menshikh-iv  мне показался подозрительно знакомым и точно! Это Ivan Menshikh, который отвечал мне пару сообщений выше.
источник

N

Nick in Natural Language Processing
Всем привет! Я новичок в nlp. Нужно решить следующую задачу: на основе запроса на базу данных с большим количеством различных текстов вывести наиболее соответствующие данному запросу тексты. С чего начать? Какие методы использовать?
источник

YB

Yuri Baburov in Natural Language Processing
Nikita O
По последней ссылке статья как оригинальный w2v в генсим добавляли. Был код на си -> сделали библиотеку на питоне. Зачем после выпуска фасттекста стали еще добавлять фасттекст в генсим непонятно. Фасттекст же уже питоновская библиотека. Или нет? Или изначально для нее не было питоновской обертки и она только потом появилась?
Пользователи попросили добавить фасттекст. Нет, оригинал на С++, глянь сорцы.
источник

NO

Nikita O in Natural Language Processing
Nick
Всем привет! Я новичок в nlp. Нужно решить следующую задачу: на основе запроса на базу данных с большим количеством различных текстов вывести наиболее соответствующие данному запросу тексты. С чего начать? Какие методы использовать?
Это стандантная задача Information retrieval. Можно прямо начать с гугления по этим словам. Пример конкретного решения - поставить Elasticsearch.
источник

YB

Yuri Baburov in Natural Language Processing
Nikita O
Продолжил гуглить про это. Нашел issue в гитхабе генсима про несовпадение оригинала фасттекст и его реализации в генсим: https://github.com/RaRe-Technologies/gensim/issues/1940 Ник автора menshikh-iv  мне показался подозрительно знакомым и точно! Это Ivan Menshikh, который отвечал мне пару сообщений выше.
Ну да, согласно этому описанию, в фасттексте (в оригинальной реализации) не ноль будет -- будет значение бакета emb[w], ведь в фасттексте проверки на наличие слова нет. Бакеты инициализируются рандомом, а не нуоями. Или может попасть на бакет имеющихся слов/н-грамм. Спасибо, что обратил внимание.
источник

NO

Nikita O in Natural Language Processing
Да я не ради мелкой придирки про гитхаб написал. Я написал это к тому что 1) мир тесен, 2) Иван - это  пример человека в этом чате, который точно знает ответ на мой вопрос. Теперь ты мне все разъяснил, так что вопрос снимается. 👍
источник

IM

Ivan Menshikh in Natural Language Processing
Nikita O
А можете сказать по поводу сравнения самой библиотеки фасттекст и фасттекста в генсиме? Зачем вообще понадобилось реализовывать фасттекст внутри генсима, когда уже существовала готовая библиотека?
Затем, что FBшный fasttext нужно было собрать из C++, что для многих головная боль, поэтому
- вначале в Gensim включили враппер (просто запускалку FBшной версии), чтобы так сказать "всё в одном месте" (я эту практику считаю крайне порочной, но дело хозяйское)
- потом сделали питонью версию FT (которая не требует никакой компиляции), но была существенно медленнее (это была подготовка к следующему этапу)
- потом сделали cython версию FT (которая не требует компиляции, потому что в Gensim всё закатано в колёса -> всё уже скомпилено под разные питоны), имеет схожий интерфейс с другими моделями Gensim и ей можно пользоваться просто поставив Gensim себе
источник

IM

Ivan Menshikh in Natural Language Processing
До кучи, на предыдущем (или позапредыдущем GSoC) была запиленна клевая фича с параллельным чтением корпусов, за счёт чего реализация Gensim (которая на python & cython) иногда может обгонять и FBшную реализацию (а w2v гарантированно работает быстрее сишного варианта Миколова)
источник

IM

Ivan Menshikh in Natural Language Processing
Nikita O
Продолжил гуглить про это. Нашел issue в гитхабе генсима про несовпадение оригинала фасттекст и его реализации в генсим: https://github.com/RaRe-Technologies/gensim/issues/1940 Ник автора menshikh-iv  мне показался подозрительно знакомым и точно! Это Ivan Menshikh, который отвечал мне пару сообщений выше.
Да, это действительно я, я был мейнтейнером Gensim в течение нескольких лет.
источник

IM

Ivan Menshikh in Natural Language Processing
Nikita O
Продолжил гуглить про это. Нашел issue в гитхабе генсима про несовпадение оригинала фасттекст и его реализации в генсим: https://github.com/RaRe-Technologies/gensim/issues/1940 Ник автора menshikh-iv  мне показался подозрительно знакомым и точно! Это Ivan Menshikh, который отвечал мне пару сообщений выше.
а эту штуку вроде бы починили, по-ходу дела оказалось, что там есть разного рода косяки, большинство из них точно было зафикшено, но не знаю, всё ли. Можно уточнить этот вопрос у текущего мейнтейнера (https://github.com/mpenkov)
источник

IM

Ivan Menshikh in Natural Language Processing
Ivan Menshikh
До кучи, на предыдущем (или позапредыдущем GSoC) была запиленна клевая фича с параллельным чтением корпусов, за счёт чего реализация Gensim (которая на python & cython) иногда может обгонять и FBшную реализацию (а w2v гарантированно работает быстрее сишного варианта Миколова)
Вот кстати и результаты бенчмарка
источник