Телеграмм чат группы nlp

2021 April 03

וק

ולדימיר קון... in NLP_RU - Natural Language Processing & Text Mining

а в проде, я просто не знаю какой у вас проект и требования, обычно гпу нет. и есть cpu и тогда будет еще хуже.

источник

01:17пожаловаться #1

וק

ולדימיר קון... in NLP_RU - Natural Language Processing & Text Mining

Андрей Копылов

Ну векторизует предложения и ключевые слова извлекает довольно быстро на GPU.. А lda есть реализация с ускорением на gpu?)

у lda есть multicore, это если генсим использовать

источник

01:19пожаловаться #2

АК

Андрей Копылов... in NLP_RU - Natural Language Processing & Text Mining

ולדימיר קון

там O(n*n) от длины последовательности. без паддинг и обрезки по макс длине можно пару дней инференсить 20к даже на гпу

Вообще у моделей берта есть лимит на количество входящих токенов? Если нет, то почему вектор после 52 слов перестает меняться?

источник

01:22пожаловаться #3

וק

ולדימיר קון... in NLP_RU - Natural Language Processing & Text Mining

Андрей Копылов

Вообще у моделей берта есть лимит на количество входящих токенов? Если нет, то почему вектор после 52 слов перестает меняться?

512. Потому что я выше про чанки написал. Иначе смысл говорить про длинные документы. Это тогда не длинные документы. А маленькие документы в 512

источник

01:23пожаловаться #4

וק

ולדימיר קון... in NLP_RU - Natural Language Processing & Text Mining

Андрей Копылов

Вообще у моделей берта есть лимит на количество входящих токенов? Если нет, то почему вектор после 52 слов перестает меняться?

выше у вас 10 тыс слов . если вас интересует весь текст и без суммаризации то это очень грубо ~ 10k//512 раз

источник

01:25пожаловаться #5

АК

Андрей Копылов... in NLP_RU - Natural Language Processing & Text Mining

ולדימיר קון

выше у вас 10 тыс слов . если вас интересует весь текст и без суммаризации то это очень грубо ~ 10k//512 раз

Ок, спасибо 👍 Пойду гуглить, переваривать)

источник

01:28пожаловаться #6

וק

ולדימיר קון... in NLP_RU - Natural Language Processing & Text Mining

Андрей Копылов

Ок, спасибо 👍 Пойду гуглить, переваривать)

Да не за что. Просто попробуйте , пощупайте , на практике больше понимание будет. Чем абстрактные советы от меня) ещё может быть нащупаете , что у вас весь документ , это вообще последние пару предложений важные и нужно только их эмбеддить и смотреть как хорошая аппроксимация

источник

01:30пожаловаться #7

АК

Андрей Копылов... in NLP_RU - Natural Language Processing & Text Mining

ולדימיר קון

Да не за что. Просто попробуйте , пощупайте , на практике больше понимание будет. Чем абстрактные советы от меня) ещё может быть нащупаете , что у вас весь документ , это вообще последние пару предложений важные и нужно только их эмбеддить и смотреть как хорошая аппроксимация

Да, проблема ещё в том, что нет нормальной метрики качества.. То есть заранее неизвестно, какие документы максимально похожи.. Только если каким-то чудом брать часть документа и сравнивать с оставшейся частью этого же документа, но это вообще не точно, потому что в разных частях одного и того же такста может идти речь о разных вещах

источник

01:32пожаловаться #8

וק

ולדימיר קון... in NLP_RU - Natural Language Processing & Text Mining

О лучше тогда с этого начать. Поскольку без понимания метрики качества непонятно что улучшать. Может все уже работает за счёт doc2vec или даже tf-idf....как идея ранжирование. используем симилярити и потом на задаче ранжирования смотрим hit@5 попал наш документ или нет. Но мне сложно сказать. Что у вас есть какой датасет. В общем желаю удачи!

источник

01:35пожаловаться #9

АК

Андрей Копылов... in NLP_RU - Natural Language Processing & Text Mining

ולדימיר קון

О лучше тогда с этого начать. Поскольку без понимания метрики качества непонятно что улучшать. Может все уже работает за счёт doc2vec или даже tf-idf....как идея ранжирование. используем симилярити и потом на задаче ранжирования смотрим hit@5 попал наш документ или нет. Но мне сложно сказать. Что у вас есть какой датасет. В общем желаю удачи!

Ну есть ещё такая идея из ряда бредовых))) Допустим если обученный bert считать эталоном nlp в плане восстановления слов и следующего предложения, то как один из вариантов, можно сначала каждое второе предложение в тексте заменить на предсказание бертом.. Либо то же самое делать по словам в предложениях... Таким образом получим какой-то текст, который тематически должен совпадать с исходным.. И с этим текстом сравниваем.. Таким образом идеал нашей модели - это уровень работы bert на задаче восстановления пропущенных слов/предложений... Ну это уже из ряда пятничного бреда)))

источник

01:46пожаловаться #10

וק

ולדימיר קון... in NLP_RU - Natural Language Processing & Text Mining

Попробуйте) ps если про задачи на которых тренировался с нуля Берт , то да их две это masking language , предсказание 15 процентов скрытого , например слов, и next sentence predictions, это про связь двух предложений. Т е. Берт не умеет генерировать целое предложение. И есть некоторые дискуссии про next sentence predictions насколько оно вообще полезно и нужно ли

источник

01:50пожаловаться #11

АК

Андрей Копылов... in NLP_RU - Natural Language Processing & Text Mining

ולדימיר קון

Попробуйте) ps если про задачи на которых тренировался с нуля Берт , то да их две это masking language , предсказание 15 процентов скрытого , например слов, и next sentence predictions, это про связь двух предложений. Т е. Берт не умеет генерировать целое предложение. И есть некоторые дискуссии про next sentence predictions насколько оно вообще полезно и нужно ли

А, ну как вариант тогда GPT-3 для следующего предложения)

источник

01:52пожаловаться #12

DD

David Dale in NLP_RU - Natural Language Processing & Text Mining

Андрей Копылов

Да, проблема ещё в том, что нет нормальной метрики качества.. То есть заранее неизвестно, какие документы максимально похожи.. Только если каким-то чудом брать часть документа и сравнивать с оставшейся частью этого же документа, но это вообще не точно, потому что в разных частях одного и того же такста может идти речь о разных вещах

А что вообще вы понимаете под "сходством" документов?
Если заранее неизвестно, какие документы похожи на какие, то начинать надо не с нейросетей, а с ручной разметки данных 🙃
И потом только подбирать такую метрику сходства, которая коррелирует с ручной разметкой.

источник

01:54пожаловаться #13

АК

Андрей Копылов... in NLP_RU - Natural Language Processing & Text Mining

David Dale

А что вообще вы понимаете под "сходством" документов?
Если заранее неизвестно, какие документы похожи на какие, то начинать надо не с нейросетей, а с ручной разметки данных 🙃
И потом только подбирать такую метрику сходства, которая коррелирует с ручной разметкой.

Ну наверное это больше сходство ключевых слов. Поэтому я про ключевые слова и написал. То есть допустим мы сжимаем текст до ключевых фраз таким образом, чтобы при прочтении этих ключевых слов у читателя возникали ассоциации, максимально описывающие то, о чем речь в документе (статье).. И вот чтобы эти возникающие ассоциации по двум документам совпадали.. То есть из ключевых слов двух разных документов восстанавливалась примерно одинаковая картина)

источник

01:59пожаловаться #14

АК

Андрей Копылов... in NLP_RU - Natural Language Processing & Text Mining

Список объектов, их свойств и действий с ними в статье

источник

02:00пожаловаться #15

DD

David Dale in NLP_RU - Natural Language Processing & Text Mining

Андрей Копылов

Ну наверное это больше сходство ключевых слов. Поэтому я про ключевые слова и написал. То есть допустим мы сжимаем текст до ключевых фраз таким образом, чтобы при прочтении этих ключевых слов у читателя возникали ассоциации, максимально описывающие то, о чем речь в документе (статье).. И вот чтобы эти возникающие ассоциации по двум документам совпадали.. То есть из ключевых слов двух разных документов восстанавливалась примерно одинаковая картина)

Окей, если сходство основывается на ключевых словах, и документы достаточно длинные, то мой совет - отказаться от нейронок вообще. Представить документы просто как мешок ключевых слов (лемматизированных), и сходство считать как коэффциент Жакара (долю лемм, входящих в оба документа) или как косинусное расстояние между разреженными векторами с частотами слов. Готов поспорить, 80% похожих документов вы так найдёте. А эффект от оставшихся 20% вы всё равно не сможете оценить, пока не выстроите внятную систему оценки качества.

источник

02:04пожаловаться #16

АК

Андрей Копылов... in NLP_RU - Natural Language Processing & Text Mining

David Dale

Окей, если сходство основывается на ключевых словах, и документы достаточно длинные, то мой совет - отказаться от нейронок вообще. Представить документы просто как мешок ключевых слов (лемматизированных), и сходство считать как коэффциент Жакара (долю лемм, входящих в оба документа) или как косинусное расстояние между разреженными векторами с частотами слов. Готов поспорить, 80% похожих документов вы так найдёте. А эффект от оставшихся 20% вы всё равно не сможете оценить, пока не выстроите внятную систему оценки качества.

Да, согласен, это была первая мысль.. Потом что-то потянуло в сторону бертов, use и doc2vec'ов) с этого и начали, что извлекли список ключевых слов кейбертом, но он извлёк не совсем так, как планировалось.. То есть это не объекты, из свойства и действия, а просто какие-то словосочетания, которые в тексте более весомы для модели.. А нам надо, чтобы допустим есть 2 статьи, в обеих пишут о том, что взяли определённую модель, обучили, провели определённые тесты.. Но в обеих статьях обьект(модель) и действия совпадают.. Вот это максимально похожие документы)

источник

02:10пожаловаться #17

וק

ולדימיר קון... in NLP_RU - Natural Language Processing & Text Mining

David Dale

Окей, если сходство основывается на ключевых словах, и документы достаточно длинные, то мой совет - отказаться от нейронок вообще. Представить документы просто как мешок ключевых слов (лемматизированных), и сходство считать как коэффциент Жакара (долю лемм, входящих в оба документа) или как косинусное расстояние между разреженными векторами с частотами слов. Готов поспорить, 80% похожих документов вы так найдёте. А эффект от оставшихся 20% вы всё равно не сможете оценить, пока не выстроите внятную систему оценки качества.

+ , нейронки и берт он про контекст и связи, если его нет и не нужен, достаточно tf-idf (помнится на волне ковида , многие делали поиски статей похожих, и Карпатный как всегда отличился, сделав видимо за пару часов таковой на tf-idf , который вполне себе работает)

источник

02:12пожаловаться #18

АК

Андрей Копылов... in NLP_RU - Natural Language Processing & Text Mining

Всем спасибо, будем разбираться в новой информации и тестить)

источник

02:15пожаловаться #19

2021 April 05

WP

Wład Pachomenko in NLP_RU - Natural Language Processing & Text Mining

Нужно сделать задание по machine learning сейчас до 14:00 по мск за денюжку, кто сможет помочь? Без библиотек, своими ручками

нужно написать перцептрон который будет обучаться на training set file потом тестировать данные из test set и выводить процент правильно классифицированных

затем читать данные от юзера и тоже правильно классифицировать

в файле трейнинг сет лежит 120 векторов 3 разных цветов Iris

источник

02:30пожаловаться #20