Телеграмм чат группы natural_language

2020 May 26

VS

Vladimir Shebunyaev in Natural Language Processing

Подскажите какие техники есть улучшения intent классификатора. Я давно уже не реализовывал может какието трюки новые появились

источник

21:41пожаловаться #1

D(

David (ddale) Dale in Natural Language Processing

Vladimir Shebunyaev

Подскажите какие техники есть улучшения intent классификатора. Я давно уже не реализовывал может какието трюки новые появились

В основном появились хорошо забытые старые трюки.
Яндекс, например, выкатил для разработчиков навыков Алисы NLU на рукописных грамматиках.
И с учётом того, что ни у кого нет нормальных размеченных данных, это работает лучше любых (в основном не существующих 🤷‍♂️) машиннообученных классификаторов 🙈

источник

21:44пожаловаться #2

M

Mishanya in Natural Language Processing

Alexander

Привет! Подскажите, если я хочу работать со словом на уровне символов(частеречная разметка), что я могу использовать кроме CountVectorizer(analyzer='char', ngram_range=(1, 1))? Хотелось бы еще сохранить информацию о позиции символа, с чего слово начинается и чем заканчивается.

вот это можо взять для начала https://sklearn-crfsuite.readthedocs.io/en/latest/tutorial.html#features
аффиксы в отдельный CountVectorizer, позицию можно категриально

источник

22:01пожаловаться #3

A

Alexander in Natural Language Processing

Mishanya

вот это можо взять для начала https://sklearn-crfsuite.readthedocs.io/en/latest/tutorial.html#features
аффиксы в отдельный CountVectorizer, позицию можно категриально

Спс

источник

23:07пожаловаться #4

2020 May 27

ВГ

Вадим Гришкевич... in Natural Language Processing

Всем добрый! Подскажите может кто решал задачу избавления от шумов? Есть ли какие библиотеки нормальные для этой задаче? В более приближенном виде задача схожа с получением минусов из музыкальных произведений

источник

21:42пожаловаться #5

2020 May 28

D

Dmitry in Natural Language Processing

Вадим Гришкевич

Всем добрый! Подскажите может кто решал задачу избавления от шумов? Есть ли какие библиотеки нормальные для этой задаче? В более приближенном виде задача схожа с получением минусов из музыкальных произведений

Вам вот сюда: @speech_recognition_ru

источник

02:06пожаловаться #6

Р

Родион in Natural Language Processing

Всем привет! Может кто-нибудь сталкивался с такой задачей, был бы рад, если бы вы поделились своими мыслями на этот счет 😊

В общем, есть извлеченный из текстового корпуса (английская вики) словарь слов: слово + сколько раз оно встречалось в корпусе. И словарь отсортирован по убыванию количества упоминаний.

Так вот, необходимо, на основании этих значений сгруппировать слова на условные группы: "очень частые, "частые", "менее частые" и т.д, соответственно присвоив этим словам условную сложность: 0, 1, 2 ...

Собственно вопрос в том, каким образом определять такие интервалы? 😥

В конечном итоге это нужно для того, чтобы присвоить некоторому входному тексту значение "сложности", на основании, допустим, среднего количества сложности отдельно взятых слов.

источник

12:43пожаловаться #7

SS

Sergey Shulga in Natural Language Processing

xyz-анализ

источник

12:44пожаловаться #8

Р

Родион in Natural Language Processing

Sergey Shulga

xyz-анализ

ого, не слышал о таком, спасибо!

источник

12:45пожаловаться #9

SS

Sergey Shulga in Natural Language Processing

хотя он про продажи больше, но легко ложится на другие задачи

источник

12:46пожаловаться #10

SS

Sergey Shulga in Natural Language Processing

https://ru.wikipedia.org/wiki/XYZ-%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7

Wikipedia

XYZ-анализ

XYZ-анализ позволяет произвести классификацию ресурсов компании в зависимости от характера их потребления и точности прогнозирования изменений в их потребности в течение определенного временного цикла. Алгоритм проведения можно представить в четырёх этапах:

источник

12:46пожаловаться #11

NC

Nikolay Chudinov in Natural Language Processing

коллеги а есть кейсы сравнения текстов на одну тему? грубо говоря есть две статьи в разных изданиях с одинаковой аудиторией читателей, одну дочитывают, а на вторую забивают. Естественно стиль написания везде свой. Хочется понять на уровне алгоритма, чем отличаются тексты. Тональность нейтральная, побуждающих к действию глаголов почти поровну - тексты коммерческие. Как лучше поступить для анализа?

источник

12:51пожаловаться #12

Р

Родион in Natural Language Processing

Sergey Shulga

https://ru.wikipedia.org/wiki/XYZ-%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7

Wikipedia

XYZ-анализ

XYZ-анализ позволяет произвести классификацию ресурсов компании в зависимости от характера их потребления и точности прогнозирования изменений в их потребности в течение определенного временного цикла. Алгоритм проведения можно представить в четырёх этапах:

Не, боюсь, что в моем случае это не подойдёт (

источник

12:54пожаловаться #13

D(

David (ddale) Dale in Natural Language Processing

Родион

Всем привет! Может кто-нибудь сталкивался с такой задачей, был бы рад, если бы вы поделились своими мыслями на этот счет 😊

В общем, есть извлеченный из текстового корпуса (английская вики) словарь слов: слово + сколько раз оно встречалось в корпусе. И словарь отсортирован по убыванию количества упоминаний.

Так вот, необходимо, на основании этих значений сгруппировать слова на условные группы: "очень частые, "частые", "менее частые" и т.д, соответственно присвоив этим словам условную сложность: 0, 1, 2 ...

Собственно вопрос в том, каким образом определять такие интервалы? 😥

В конечном итоге это нужно для того, чтобы присвоить некоторому входному тексту значение "сложности", на основании, допустим, среднего количества сложности отдельно взятых слов.

Интуитивному понятию "сложность" соответствует метрика perplexity. Это средний логарифм от относительной частоты слова в минус первой степени.
Например, у нас текст "мама мыла раму", в корпусе слово "мама" встречается 100 раз, "мыла" - 10 раз, "раму" - 1 раз, а сам корпус размера 1 000 000. Тогда перплексия этого текста будет 1/3 * (log(1 000 000/100) + log(1 000 000/10)+log(1 000 000/1)).
Чем более редкие слова, тем выше перплексия, всё как ты хотел.
И делить слова на группы не нужно; кажется, что это лишний промежуточный шаг)

источник

12:56пожаловаться #14

Р

Родион in Natural Language Processing

David (ddale) Dale

Интуитивному понятию "сложность" соответствует метрика perplexity. Это средний логарифм от относительной частоты слова в минус первой степени.
Например, у нас текст "мама мыла раму", в корпусе слово "мама" встречается 100 раз, "мыла" - 10 раз, "раму" - 1 раз, а сам корпус размера 1 000 000. Тогда перплексия этого текста будет 1/3 * (log(1 000 000/100) + log(1 000 000/10)+log(1 000 000/1)).
Чем более редкие слова, тем выше перплексия, всё как ты хотел.
И делить слова на группы не нужно; кажется, что это лишний промежуточный шаг)

ого! спасибо огромное, кажется это то, что и было нужно 😊

источник

13:06пожаловаться #15

VS

Vladimir Shebunyaev in Natural Language Processing

Nikolay Chudinov

коллеги а есть кейсы сравнения текстов на одну тему? грубо говоря есть две статьи в разных изданиях с одинаковой аудиторией читателей, одну дочитывают, а на вторую забивают. Естественно стиль написания везде свой. Хочется понять на уровне алгоритма, чем отличаются тексты. Тональность нейтральная, побуждающих к действию глаголов почти поровну - тексты коммерческие. Как лучше поступить для анализа?

А попробуй сделать суммаризацию по тексту и уже анализировать суммаризацию

источник

17:57пожаловаться #16

N

Nikita in Natural Language Processing

Подскажите, пожалуйста, что примерно можно погуглить/почитать, если хочется научиться решать такую задачу: из всего текста, находящегося на сайте компании научиться вычленять только её название. (ну вот например на dellin.ru куча текста, но интересуют только два слова - "деловые линии") Выборка для обучения есть, вроде довольно большая (понятно, что обычно это название лежит где-то в футере, но не прям всегда, к сожалению, еще есть готовые штуки от deeppavlov которые выделяют название организаций из текста, но тоже как то так себе работает)

источник

18:26пожаловаться #17

SP

Sebastian Pereira in Natural Language Processing

Привет! А кто-то задачу для суммаризации по русскому языку с rubert от deep pavlov решал?

источник

18:49пожаловаться #18

SP

Sebastian Pereira in Natural Language Processing

И, может быть, кто-то тестил MarianMT ? https://huggingface.co/Helsinki-NLP/opus-mt-en-ru

huggingface.co

Helsinki-NLP/opus-mt-en-ru · Hugging Face