Хочу словарик составить Play - его вектор Play - его вектор Если слово имеет несколько значений то несколько записей. Пока не понимаю как из hdf5 извлечь это
Да. Ещё точнее я ужму модель до самых частых слов,конвертну в Json и дальше буду с Json работать напрямую сличая расстояния между векторами. Возможно даже из браузера но без tf.js. просто напрямую. Для word2vec такой json давно есть. Для Elmo пока не пойму как получить
Я предлагаю взять корпус текстов, провернуть их через элмо, и получить список пар (слово + вектор этого слова в определенном контексте). Дальше для каждого слова выполнить кластеризацию всех его векторов в разных контекстах, и те слова, где кластеров вышло несколько, и считать полисемичными. А вектором смысла считать центр соответствующего кластера.
В качестве алгоритма кластеризации можно использовать стандартный agglomerative clustering с порогом по дальности, который нужно будет подобрать вручную, так, чтобы кластеров получилось не слишком много.
Всем привет! 👋 Подскажите, если знаете какие-либо годные курсы по NLP с возможностью получить удостоверение о повышении квалифицикации? Для новичков знаю этот (https://python-school.ru/courses/pnlp-natural-language-processing/), но может есть более узкоспециализированные по отдельным задачам? Или сами проходили что-то подобное, что можете порекомендовать?
Народ, а что сейчас есть годного в управляемой аугментации или генерации текста? Хочется закидывать в скрипт одно или пару понятий, а на выходе получать предложение (в идеале не одно) с ними. Что-то вроде Т5 нужно, но с сохранением ключевых терминов.