А с какой целью вы их визуализируете потом? Просто личный интерес или какую-то задачу решаете?
конечная цель - предоставить одному сообществу инструмент для визуальной навигации по произвольным наборам документов (текстов, изображений и их комбинаций), и бонусом "семантический" поиск по документам (поверх полученных векторов легко можно развернуть ANN search).
возвращаясь к моделям для русского языка: периодически вижу в Сети примеры генерации текста на русском языке с помощью GPT-2, но внятной предобученной модели для русского языка не встречал. может кто находил/работал с/обучал русскоязычную GPT-2?
возвращаясь к моделям для русского языка: периодически вижу в Сети примеры генерации текста на русском языке с помощью GPT-2, но внятной предобученной модели для русского языка не встречал. может кто находил/работал с/обучал русскоязычную GPT-2?
Подскажите. Предположим есть английское существительное, при переводе на русский оно может изменить часть речи на русский глагол например? Тоесть может ли меняться часть речи при переводе. Возможно как часть фразы.
Подскажите. Предположим есть английское существительное, при переводе на русский оно может изменить часть речи на русский глагол например? Тоесть может ли меняться часть речи при переводе. Возможно как часть фразы.
А в чем тебе нужна помощь? Может быть есть начатый репозиторий, список todo?
Сейчас я на раннем этапе, репы ещё нету. Больше всего поможет подобрать побольше разных downstream задачек (семантическая близость, классификация текстов, матчинг ответов с вопросами, и т.п.) на русском языке, на которых вообще оценивать качество эмбеддингов можно будет.
Сейчас я на раннем этапе, репы ещё нету. Больше всего поможет подобрать побольше разных downstream задачек (семантическая близость, классификация текстов, матчинг ответов с вопросами, и т.п.) на русском языке, на которых вообще оценивать качество эмбеддингов можно будет.
Попробую заняться. Через неделю напишу, что вышло) Все на русском? По идее нужно просто собрать все компетишны для таких задач, датасеты из них. Я вроде такие репозитории видел. Возможно у deepppavlov
Подскажите простейшие операции контакенация, приведение к различным регистрам и прочее со строками. По скорости будет значитально отличаться между языками питон и С++ например?
Наверно от конкретных строк зависит, в Python по умолчанию они с Юникодом, а на C++ не факт. Еще в Питоне автоматически их нормализация происходит, а в C++ скорее всего ее нужно дополнительно запускать.
Подскажите простейшие операции контакенация, приведение к различным регистрам и прочее со строками. По скорости будет значитально отличаться между языками питон и С++ например?
Будут очень по разному. В 3-ем python-е строки unicode а в С++ - как укажишь. Так что то же приведение может быть очень разное по скорости.