Телеграмм чат группы natural_language

А можете сказать по поводу сравнения самой библиотеки фасттекст и фасттекста в генсиме? Зачем вообще понадобилось реализовывать фасттекст внутри генсима, когда уже существовала готовая библиотека?

источник

00:22пожаловаться #6

YB

Yuri Baburov in Natural Language Processing

Nikita O

Как хорошо что находятся люди, готовые разъяснить такие моменты 👍

вот прям отлично, когда люди вопросы задают, готовых ответов на которые нет в интернете :)

источник

00:23пожаловаться #7

YB

Yuri Baburov in Natural Language Processing

Nikita O

А можете сказать по поводу сравнения самой библиотеки фасттекст и фасттекста в генсиме? Зачем вообще понадобилось реализовывать фасттекст внутри генсима, когда уже существовала готовая библиотека?

Вот так всё начиналось:
https://rare-technologies.com/deep-learning-with-word2vec-and-gensim/

Rare-Technologies

Deep learning with word2vec and gensim | RARE Technologies

Neural networks have been a bit of a punching bag historically: neither particularly fast, nor robust or accurate, nor open to introspection by humans curious to gain insights from them.

источник

00:25пожаловаться #8

NO

Nikita O in Natural Language Processing

По последней ссылке статья как оригинальный w2v в генсим добавляли. Был код на си -> сделали библиотеку на питоне. Зачем после выпуска фасттекста стали еще добавлять фасттекст в генсим непонятно. Фасттекст же уже питоновская библиотека. Или нет? Или изначально для нее не было питоновской обертки и она только потом появилась?

источник

00:40пожаловаться #9

NO

Nikita O in Natural Language Processing

Продолжил гуглить про это. Нашел issue в гитхабе генсима про несовпадение оригинала фасттекст и его реализации в генсим: https://github.com/RaRe-Technologies/gensim/issues/1940 Ник автора menshikh-iv мне показался подозрительно знакомым и точно! Это Ivan Menshikh, который отвечал мне пару сообщений выше.

GitHub

FastText native VS original, different outputs · Issue #1940 · RaRe-Technologies/gensim

Intro As the person mentioned in mailing list, he receives different result with a pre-trained model with gensim code & original facebook code. How to reproduce Install Facebook FastText wg...

источник

00:51пожаловаться #10

N

Nick in Natural Language Processing

Всем привет! Я новичок в nlp. Нужно решить следующую задачу: на основе запроса на базу данных с большим количеством различных текстов вывести наиболее соответствующие данному запросу тексты. С чего начать? Какие методы использовать?

источник

00:56пожаловаться #11

YB

Yuri Baburov in Natural Language Processing

Nikita O

По последней ссылке статья как оригинальный w2v в генсим добавляли. Был код на си -> сделали библиотеку на питоне. Зачем после выпуска фасттекста стали еще добавлять фасттекст в генсим непонятно. Фасттекст же уже питоновская библиотека. Или нет? Или изначально для нее не было питоновской обертки и она только потом появилась?

Пользователи попросили добавить фасттекст. Нет, оригинал на С++, глянь сорцы.

источник

00:59пожаловаться #12

NO

Nikita O in Natural Language Processing

Nick

Всем привет! Я новичок в nlp. Нужно решить следующую задачу: на основе запроса на базу данных с большим количеством различных текстов вывести наиболее соответствующие данному запросу тексты. С чего начать? Какие методы использовать?

Это стандантная задача Information retrieval. Можно прямо начать с гугления по этим словам. Пример конкретного решения - поставить Elasticsearch.

источник

01:03пожаловаться #13

YB

Yuri Baburov in Natural Language Processing

Nikita O

Продолжил гуглить про это. Нашел issue в гитхабе генсима про несовпадение оригинала фасттекст и его реализации в генсим: https://github.com/RaRe-Technologies/gensim/issues/1940 Ник автора menshikh-iv мне показался подозрительно знакомым и точно! Это Ivan Menshikh, который отвечал мне пару сообщений выше.

GitHub

FastText native VS original, different outputs · Issue #1940 · RaRe-Technologies/gensim

Intro As the person mentioned in mailing list, he receives different result with a pre-trained model with gensim code & original facebook code. How to reproduce Install Facebook FastText wg...

Ну да, согласно этому описанию, в фасттексте (в оригинальной реализации) не ноль будет -- будет значение бакета emb[w], ведь в фасттексте проверки на наличие слова нет. Бакеты инициализируются рандомом, а не нуоями. Или может попасть на бакет имеющихся слов/н-грамм. Спасибо, что обратил внимание.

источник

01:19пожаловаться #14

NO

Nikita O in Natural Language Processing

Да я не ради мелкой придирки про гитхаб написал. Я написал это к тому что 1) мир тесен, 2) Иван - это пример человека в этом чате, который точно знает ответ на мой вопрос. Теперь ты мне все разъяснил, так что вопрос снимается. 👍

источник

01:33пожаловаться #15

IM

Ivan Menshikh in Natural Language Processing

Nikita O

А можете сказать по поводу сравнения самой библиотеки фасттекст и фасттекста в генсиме? Зачем вообще понадобилось реализовывать фасттекст внутри генсима, когда уже существовала готовая библиотека?

Затем, что FBшный fasttext нужно было собрать из C++, что для многих головная боль, поэтому
- вначале в Gensim включили враппер (просто запускалку FBшной версии), чтобы так сказать "всё в одном месте" (я эту практику считаю крайне порочной, но дело хозяйское)
- потом сделали питонью версию FT (которая не требует никакой компиляции), но была существенно медленнее (это была подготовка к следующему этапу)
- потом сделали cython версию FT (которая не требует компиляции, потому что в Gensim всё закатано в колёса -> всё уже скомпилено под разные питоны), имеет схожий интерфейс с другими моделями Gensim и ей можно пользоваться просто поставив Gensim себе

источник

15:07пожаловаться #16

IM

Ivan Menshikh in Natural Language Processing

До кучи, на предыдущем (или позапредыдущем GSoC) была запиленна клевая фича с параллельным чтением корпусов, за счёт чего реализация Gensim (которая на python & cython) иногда может обгонять и FBшную реализацию (а w2v гарантированно работает быстрее сишного варианта Миколова)

источник

15:08пожаловаться #17

IM

Ivan Menshikh in Natural Language Processing

Nikita O

Продолжил гуглить про это. Нашел issue в гитхабе генсима про несовпадение оригинала фасттекст и его реализации в генсим: https://github.com/RaRe-Technologies/gensim/issues/1940 Ник автора menshikh-iv мне показался подозрительно знакомым и точно! Это Ivan Menshikh, который отвечал мне пару сообщений выше.

GitHub

FastText native VS original, different outputs · Issue #1940 · RaRe-Technologies/gensim

Intro As the person mentioned in mailing list, he receives different result with a pre-trained model with gensim code & original facebook code. How to reproduce Install Facebook FastText wg...

Да, это действительно я, я был мейнтейнером Gensim в течение нескольких лет.

источник

15:09пожаловаться #18

IM

Ivan Menshikh in Natural Language Processing

Nikita O

Продолжил гуглить про это. Нашел issue в гитхабе генсима про несовпадение оригинала фасттекст и его реализации в генсим: https://github.com/RaRe-Technologies/gensim/issues/1940 Ник автора menshikh-iv мне показался подозрительно знакомым и точно! Это Ivan Menshikh, который отвечал мне пару сообщений выше.

GitHub

FastText native VS original, different outputs · Issue #1940 · RaRe-Technologies/gensim

Intro As the person mentioned in mailing list, he receives different result with a pre-trained model with gensim code & original facebook code. How to reproduce Install Facebook FastText wg...

а эту штуку вроде бы починили, по-ходу дела оказалось, что там есть разного рода косяки, большинство из них точно было зафикшено, но не знаю, всё ли. Можно уточнить этот вопрос у текущего мейнтейнера (https://github.com/mpenkov)

GitHub

mpenkov - Overview

gensim/smart_open maintainer, command line and vim zealot, Slav squat grandmaster - mpenkov

источник

15:13пожаловаться #19

IM

Ivan Menshikh in Natural Language Processing

Ivan Menshikh

До кучи, на предыдущем (или позапредыдущем GSoC) была запиленна клевая фича с параллельным чтением корпусов, за счёт чего реализация Gensim (которая на python & cython) иногда может обгонять и FBшную реализацию (а w2v гарантированно работает быстрее сишного варианта Миколова)

Вот кстати и результаты бенчмарка

источник

15:15пожаловаться #20