Size: a a a

NLP_RU - Natural Language Processing & Text Mining

2021 April 03

וק

ולדימיר קון... in NLP_RU - Natural Language Processing & Text Mining
а в проде, я просто не знаю какой у вас проект и требования, обычно гпу нет. и есть cpu и тогда будет еще хуже.
источник

וק

ולדימיר קון... in NLP_RU - Natural Language Processing & Text Mining
Андрей Копылов
Ну векторизует предложения и ключевые слова извлекает довольно быстро на GPU.. А lda есть реализация с ускорением на gpu?)
у lda есть multicore, это если  генсим использовать
источник

АК

Андрей Копылов... in NLP_RU - Natural Language Processing & Text Mining
ולדימיר קון
там O(n*n) от длины последовательности. без паддинг и обрезки по макс длине можно пару дней инференсить 20к даже на гпу
Вообще у моделей берта есть лимит на количество входящих токенов? Если нет, то почему вектор после 52 слов перестает меняться?
источник

וק

ולדימיר קון... in NLP_RU - Natural Language Processing & Text Mining
Андрей Копылов
Вообще у моделей берта есть лимит на количество входящих токенов? Если нет, то почему вектор после 52 слов перестает меняться?
512. Потому что я выше про чанки написал. Иначе смысл говорить про длинные документы. Это тогда не длинные документы. А маленькие документы в 512
источник

וק

ולדימיר קון... in NLP_RU - Natural Language Processing & Text Mining
Андрей Копылов
Вообще у моделей берта есть лимит на количество входящих токенов? Если нет, то почему вектор после 52 слов перестает меняться?
выше у вас 10 тыс слов . если вас интересует весь текст и без суммаризации то это очень грубо ~ 10k//512 раз
источник

АК

Андрей Копылов... in NLP_RU - Natural Language Processing & Text Mining
ולדימיר קון
выше у вас 10 тыс слов . если вас интересует весь текст и без суммаризации то это очень грубо ~ 10k//512 раз
Ок, спасибо 👍 Пойду гуглить, переваривать)
источник

וק

ולדימיר קון... in NLP_RU - Natural Language Processing & Text Mining
Андрей Копылов
Ок, спасибо 👍 Пойду гуглить, переваривать)
Да не за что. Просто попробуйте , пощупайте , на практике больше понимание будет. Чем абстрактные советы от меня) ещё может быть нащупаете , что у вас весь документ , это вообще последние пару предложений важные и нужно только их эмбеддить и смотреть как хорошая аппроксимация
источник

АК

Андрей Копылов... in NLP_RU - Natural Language Processing & Text Mining
ולדימיר קון
Да не за что. Просто попробуйте , пощупайте , на практике больше понимание будет. Чем абстрактные советы от меня) ещё может быть нащупаете , что у вас весь документ , это вообще последние пару предложений важные и нужно только их эмбеддить и смотреть как хорошая аппроксимация
Да, проблема ещё в том, что нет нормальной метрики качества.. То есть заранее неизвестно, какие документы максимально похожи.. Только если каким-то чудом брать часть документа и сравнивать с оставшейся частью этого же документа, но это вообще не точно, потому что в разных частях одного и того же такста может идти речь о разных вещах
источник

וק

ולדימיר קון... in NLP_RU - Natural Language Processing & Text Mining
О лучше тогда с этого начать. Поскольку без понимания метрики качества непонятно что улучшать. Может все уже работает за счёт doc2vec или даже tf-idf....как идея ранжирование. используем симилярити и потом на задаче ранжирования смотрим hit@5 попал наш документ или нет. Но мне сложно сказать. Что у вас есть какой датасет. В общем желаю удачи!
источник

АК

Андрей Копылов... in NLP_RU - Natural Language Processing & Text Mining
ולדימיר קון
О лучше тогда с этого начать. Поскольку без понимания метрики качества непонятно что улучшать. Может все уже работает за счёт doc2vec или даже tf-idf....как идея ранжирование. используем симилярити и потом на задаче ранжирования смотрим hit@5 попал наш документ или нет. Но мне сложно сказать. Что у вас есть какой датасет. В общем желаю удачи!
Ну есть ещё такая идея из ряда бредовых))) Допустим если обученный bert считать эталоном nlp в плане восстановления слов и следующего предложения, то как один из вариантов, можно сначала каждое второе предложение в тексте заменить на предсказание бертом.. Либо то же самое делать по словам в предложениях... Таким образом получим какой-то текст, который тематически должен совпадать с исходным.. И с этим текстом сравниваем.. Таким образом идеал нашей модели - это уровень работы bert на задаче восстановления пропущенных слов/предложений... Ну это уже из ряда пятничного бреда)))
источник

וק

ולדימיר קון... in NLP_RU - Natural Language Processing & Text Mining
Попробуйте) ps если про задачи на которых тренировался с нуля Берт , то да их две это masking language , предсказание 15 процентов скрытого , например слов, и next sentence predictions, это про связь двух предложений. Т е. Берт не умеет генерировать целое предложение. И есть некоторые дискуссии про next sentence predictions насколько оно вообще полезно и нужно ли
источник

АК

Андрей Копылов... in NLP_RU - Natural Language Processing & Text Mining
ולדימיר קון
Попробуйте) ps если про задачи на которых тренировался с нуля Берт , то да их две это masking language , предсказание 15 процентов скрытого , например слов, и next sentence predictions, это про связь двух предложений. Т е. Берт не умеет генерировать целое предложение. И есть некоторые дискуссии про next sentence predictions насколько оно вообще полезно и нужно ли
А, ну как вариант тогда GPT-3 для следующего предложения)
источник

DD

David Dale in NLP_RU - Natural Language Processing & Text Mining
Андрей Копылов
Да, проблема ещё в том, что нет нормальной метрики качества.. То есть заранее неизвестно, какие документы максимально похожи.. Только если каким-то чудом брать часть документа и сравнивать с оставшейся частью этого же документа, но это вообще не точно, потому что в разных частях одного и того же такста может идти речь о разных вещах
А что вообще вы понимаете под "сходством" документов?
Если заранее неизвестно, какие документы похожи на какие, то начинать надо не с нейросетей, а с ручной разметки данных 🙃
И потом только подбирать такую метрику сходства, которая коррелирует с ручной разметкой.
источник

АК

Андрей Копылов... in NLP_RU - Natural Language Processing & Text Mining
David Dale
А что вообще вы понимаете под "сходством" документов?
Если заранее неизвестно, какие документы похожи на какие, то начинать надо не с нейросетей, а с ручной разметки данных 🙃
И потом только подбирать такую метрику сходства, которая коррелирует с ручной разметкой.
Ну наверное это больше сходство ключевых слов. Поэтому я про ключевые слова и написал. То есть допустим мы сжимаем текст до ключевых фраз таким образом, чтобы при прочтении этих ключевых слов у читателя возникали ассоциации, максимально описывающие то, о чем речь в документе (статье).. И вот чтобы эти возникающие ассоциации по двум документам совпадали.. То есть из ключевых слов двух разных документов восстанавливалась примерно одинаковая картина)
источник

АК

Андрей Копылов... in NLP_RU - Natural Language Processing & Text Mining
Список объектов, их свойств и действий с ними в статье
источник

DD

David Dale in NLP_RU - Natural Language Processing & Text Mining
Андрей Копылов
Ну наверное это больше сходство ключевых слов. Поэтому я про ключевые слова и написал. То есть допустим мы сжимаем текст до ключевых фраз таким образом, чтобы при прочтении этих ключевых слов у читателя возникали ассоциации, максимально описывающие то, о чем речь в документе (статье).. И вот чтобы эти возникающие ассоциации по двум документам совпадали.. То есть из ключевых слов двух разных документов восстанавливалась примерно одинаковая картина)
Окей, если сходство основывается на ключевых словах, и документы достаточно длинные, то мой совет - отказаться от нейронок вообще. Представить документы просто как мешок ключевых слов (лемматизированных), и сходство считать как коэффциент Жакара (долю лемм, входящих в оба документа) или как косинусное расстояние между разреженными векторами с частотами слов. Готов поспорить, 80% похожих документов вы так найдёте. А эффект от оставшихся 20% вы всё равно не сможете оценить, пока не выстроите внятную систему оценки качества.
источник

АК

Андрей Копылов... in NLP_RU - Natural Language Processing & Text Mining
David Dale
Окей, если сходство основывается на ключевых словах, и документы достаточно длинные, то мой совет - отказаться от нейронок вообще. Представить документы просто как мешок ключевых слов (лемматизированных), и сходство считать как коэффциент Жакара (долю лемм, входящих в оба документа) или как косинусное расстояние между разреженными векторами с частотами слов. Готов поспорить, 80% похожих документов вы так найдёте. А эффект от оставшихся 20% вы всё равно не сможете оценить, пока не выстроите внятную систему оценки качества.
Да, согласен, это была первая мысль.. Потом что-то потянуло в сторону бертов, use и doc2vec'ов) с этого и начали, что извлекли список ключевых слов кейбертом, но он извлёк не совсем так, как планировалось.. То есть это не объекты, из свойства и действия, а просто какие-то словосочетания, которые в тексте более весомы для модели.. А нам надо, чтобы допустим есть 2 статьи, в обеих пишут о том, что взяли определённую модель, обучили, провели определённые тесты.. Но в обеих статьях обьект(модель) и действия совпадают.. Вот это максимально похожие документы)
источник

וק

ולדימיר קון... in NLP_RU - Natural Language Processing & Text Mining
David Dale
Окей, если сходство основывается на ключевых словах, и документы достаточно длинные, то мой совет - отказаться от нейронок вообще. Представить документы просто как мешок ключевых слов (лемматизированных), и сходство считать как коэффциент Жакара (долю лемм, входящих в оба документа) или как косинусное расстояние между разреженными векторами с частотами слов. Готов поспорить, 80% похожих документов вы так найдёте. А эффект от оставшихся 20% вы всё равно не сможете оценить, пока не выстроите внятную систему оценки качества.
+ , нейронки и берт он про контекст и связи, если его нет и не нужен, достаточно tf-idf   (помнится на волне ковида , многие делали поиски статей похожих, и Карпатный как всегда отличился, сделав видимо за пару часов таковой на tf-idf , который вполне себе работает)
источник

АК

Андрей Копылов... in NLP_RU - Natural Language Processing & Text Mining
Всем спасибо, будем разбираться в новой информации и тестить)
источник
2021 April 05

WP

Wład Pachomenko in NLP_RU - Natural Language Processing & Text Mining
Нужно сделать задание по machine learning сейчас до 14:00 по мск  за денюжку, кто сможет помочь? Без библиотек, своими ручками

нужно написать перцептрон который будет обучаться на training set file потом тестировать данные из test set и выводить процент правильно классифицированных

затем читать данные от юзера и тоже правильно классифицировать

в файле трейнинг сет лежит 120 векторов 3 разных цветов Iris
источник