Size: a a a

Natural Language Processing

2020 May 26

VS

Vladimir Shebunyaev in Natural Language Processing
Подскажите какие техники есть улучшения intent классификатора. Я давно уже не реализовывал может какието трюки новые появились
источник

D(

David (ddale) Dale in Natural Language Processing
Vladimir Shebunyaev
Подскажите какие техники есть улучшения intent классификатора. Я давно уже не реализовывал может какието трюки новые появились
В основном появились хорошо забытые старые трюки.
Яндекс, например, выкатил для разработчиков навыков Алисы NLU на рукописных грамматиках.
И с учётом того, что ни у кого нет нормальных размеченных данных, это работает лучше любых (в основном не существующих 🤷‍♂️) машиннообученных классификаторов 🙈
источник

M

Mishanya in Natural Language Processing
Alexander
Привет! Подскажите, если я хочу работать со словом на уровне символов(частеречная разметка), что я могу использовать кроме CountVectorizer(analyzer='char',  ngram_range=(1, 1))? Хотелось бы еще сохранить информацию о позиции символа, с чего слово начинается и чем заканчивается.
вот это можо взять для начала https://sklearn-crfsuite.readthedocs.io/en/latest/tutorial.html#features
аффиксы в отдельный CountVectorizer, позицию можно категриально
источник

A

Alexander in Natural Language Processing
Mishanya
вот это можо взять для начала https://sklearn-crfsuite.readthedocs.io/en/latest/tutorial.html#features
аффиксы в отдельный CountVectorizer, позицию можно категриально
Спс
источник
2020 May 27

ВГ

Вадим Гришкевич... in Natural Language Processing
Всем добрый! Подскажите может кто решал задачу избавления от шумов? Есть ли какие библиотеки нормальные для этой задаче? В более приближенном виде задача схожа с получением минусов из музыкальных произведений
источник
2020 May 28

D

Dmitry in Natural Language Processing
Вадим Гришкевич
Всем добрый! Подскажите может кто решал задачу избавления от шумов? Есть ли какие библиотеки нормальные для этой задаче? В более приближенном виде задача схожа с получением минусов из музыкальных произведений
Вам вот сюда: @speech_recognition_ru
источник

Р

Родион in Natural Language Processing
Всем привет! Может кто-нибудь сталкивался с такой задачей, был бы рад, если бы вы поделились своими мыслями на этот счет 😊

В общем, есть извлеченный из текстового корпуса (английская вики) словарь слов: слово + сколько раз оно встречалось в корпусе. И словарь отсортирован по убыванию количества упоминаний.

Так вот, необходимо, на основании этих значений сгруппировать слова на условные группы: "очень частые, "частые", "менее частые" и т.д, соответственно присвоив этим словам условную сложность: 0, 1, 2 ...  

Собственно вопрос в том, каким образом определять такие интервалы? 😥

В конечном итоге это нужно для того, чтобы присвоить некоторому входному тексту значение "сложности", на основании, допустим, среднего количества сложности отдельно взятых слов.
источник

SS

Sergey Shulga in Natural Language Processing
xyz-анализ
источник

Р

Родион in Natural Language Processing
Sergey Shulga
xyz-анализ
ого, не слышал о таком, спасибо!
источник

SS

Sergey Shulga in Natural Language Processing
хотя он про продажи больше, но легко ложится на другие задачи
источник

SS

Sergey Shulga in Natural Language Processing
источник

NC

Nikolay Chudinov in Natural Language Processing
коллеги а есть кейсы сравнения текстов на одну тему?  грубо говоря есть две статьи в разных изданиях с одинаковой аудиторией читателей, одну дочитывают, а на вторую забивают. Естественно стиль написания везде свой. Хочется понять на уровне алгоритма, чем отличаются тексты. Тональность нейтральная, побуждающих к действию глаголов почти поровну - тексты коммерческие.  Как лучше поступить для анализа?
источник

Р

Родион in Natural Language Processing
Не, боюсь, что в моем случае это не подойдёт (
источник

D(

David (ddale) Dale in Natural Language Processing
Родион
Всем привет! Может кто-нибудь сталкивался с такой задачей, был бы рад, если бы вы поделились своими мыслями на этот счет 😊

В общем, есть извлеченный из текстового корпуса (английская вики) словарь слов: слово + сколько раз оно встречалось в корпусе. И словарь отсортирован по убыванию количества упоминаний.

Так вот, необходимо, на основании этих значений сгруппировать слова на условные группы: "очень частые, "частые", "менее частые" и т.д, соответственно присвоив этим словам условную сложность: 0, 1, 2 ...  

Собственно вопрос в том, каким образом определять такие интервалы? 😥

В конечном итоге это нужно для того, чтобы присвоить некоторому входному тексту значение "сложности", на основании, допустим, среднего количества сложности отдельно взятых слов.
Интуитивному понятию "сложность" соответствует метрика perplexity. Это средний логарифм от относительной частоты слова в минус первой степени.
Например, у нас текст "мама мыла раму", в корпусе слово "мама" встречается 100 раз, "мыла" - 10 раз, "раму" - 1 раз, а сам корпус размера 1 000 000. Тогда перплексия этого текста будет 1/3 * (log(1 000 000/100) + log(1 000 000/10)+log(1 000 000/1)).
Чем более редкие слова, тем выше перплексия, всё как ты хотел.
И делить слова на группы не нужно; кажется, что это лишний промежуточный шаг)
источник

Р

Родион in Natural Language Processing
David (ddale) Dale
Интуитивному понятию "сложность" соответствует метрика perplexity. Это средний логарифм от относительной частоты слова в минус первой степени.
Например, у нас текст "мама мыла раму", в корпусе слово "мама" встречается 100 раз, "мыла" - 10 раз, "раму" - 1 раз, а сам корпус размера 1 000 000. Тогда перплексия этого текста будет 1/3 * (log(1 000 000/100) + log(1 000 000/10)+log(1 000 000/1)).
Чем более редкие слова, тем выше перплексия, всё как ты хотел.
И делить слова на группы не нужно; кажется, что это лишний промежуточный шаг)
ого! спасибо огромное, кажется это то, что и было нужно 😊
источник

VS

Vladimir Shebunyaev in Natural Language Processing
Nikolay Chudinov
коллеги а есть кейсы сравнения текстов на одну тему?  грубо говоря есть две статьи в разных изданиях с одинаковой аудиторией читателей, одну дочитывают, а на вторую забивают. Естественно стиль написания везде свой. Хочется понять на уровне алгоритма, чем отличаются тексты. Тональность нейтральная, побуждающих к действию глаголов почти поровну - тексты коммерческие.  Как лучше поступить для анализа?
А попробуй сделать суммаризацию по тексту и уже анализировать суммаризацию
источник

N

Nikita in Natural Language Processing
Подскажите, пожалуйста, что примерно можно погуглить/почитать, если хочется научиться решать такую задачу: из всего текста, находящегося на сайте компании научиться вычленять только её название. (ну вот например на dellin.ru куча текста, но интересуют только два слова - "деловые линии")  Выборка для обучения есть, вроде довольно большая (понятно, что обычно это название лежит где-то в футере, но не прям всегда, к сожалению, еще есть готовые штуки от deeppavlov которые выделяют название организаций из текста, но тоже как то так себе работает)
источник

SP

Sebastian Pereira in Natural Language Processing
Привет! А кто-то задачу для суммаризации по русскому языку с rubert от deep pavlov решал?
источник

SP

Sebastian Pereira in Natural Language Processing
И, может быть, кто-то тестил MarianMT ? https://huggingface.co/Helsinki-NLP/opus-mt-en-ru
источник
2020 May 29

VS

Vladimir Shebunyaev in Natural Language Processing
Народ напомните а то забыл для русского языка лучше стемминг или лемматизация и если кто помнить дайте ссылку на пруф
источник