Телеграмм чат группы natural_language

всем привет, делаю классифатор текста и есть проблема - данных очень мало ( буквально по 10 штук), но есть заданные фичи - ключевые слова которые должны присутствовать в тексте и отдельно ключевые слова, которых не должно быть там. как такое решают?

источник

15:10пожаловаться #7

D(

David (ddale) Dale in Natural Language Processing

Andrey Zakharov

всем привет, делаю классифатор текста и есть проблема - данных очень мало ( буквально по 10 штук), но есть заданные фичи - ключевые слова которые должны присутствовать в тексте и отдельно ключевые слова, которых не должно быть там. как такое решают?

Рукописным написанием if'ов :) Или регулярок.

источник

15:12пожаловаться #8

AZ

Andrey Zakharov in Natural Language Processing

ну да, у меня такие же мысли были, но думал вдруг другие подходы есть)

источник

15:14пожаловаться #9

2019 December 24

G

George in Natural Language Processing

Всем привет, есть задача - мультиклассовая классификация текстов на русском языке, но также попадаются и на английском. Данных достаточно, но в них много грязи. Также есть смещение сильное в сторону одного класса. Вопросы: как к данной задаче лучше всего подойти?; какие алгоритмы использовать?; как и чем очищать данные? (от случайных комбинаций букв, например : "wef asdasd qweqwdasd")

источник

11:30пожаловаться #10

D(

David (ddale) Dale in Natural Language Processing

George

Всем привет, есть задача - мультиклассовая классификация текстов на русском языке, но также попадаются и на английском. Данных достаточно, но в них много грязи. Также есть смещение сильное в сторону одного класса. Вопросы: как к данной задаче лучше всего подойти?; какие алгоритмы использовать?; как и чем очищать данные? (от случайных комбинаций букв, например : "wef asdasd qweqwdasd")

А зачем очищать?
Сделай отдельный класс "бессмыслица", и классифицируй такие тексты в него.
Если при применении алгоритма такой булшит попадается, то и при обучении стоит быть к таким данным готовым.

источник

11:32пожаловаться #11

G

George in Natural Language Processing

David (ddale) Dale

А зачем очищать?
Сделай отдельный класс "бессмыслица", и классифицируй такие тексты в него.
Если при применении алгоритма такой булшит попадается, то и при обучении стоит быть к таким данным готовым.

Спасибо, согласен. Чем можно эту белеберду детектить?

источник

11:35пожаловаться #12

IK

Irina Krotova in Natural Language Processing

Согласна с предыдущим сообщением: если это постоянные характерные ошибки, то, наоборот, есть смысл оставить. Самый простой способ детектить: взять словарь (опенкорпора, например) и выкидывать все слова, которые туда не попадают (если текст русскоязычный), либо тексты, где % несловарных слов выше критического.

источник

11:36пожаловаться #13

D(

David (ddale) Dale in Natural Language Processing

George

Спасибо, согласен. Чем можно эту белеберду детектить?

Можно для каждого из языков с которым ты работаешь (ru, en) обучить простенькую языковую модель на символьных н-граммах. Подойдёт даже не нейронка, а просто статистическая модель (частота каждой, скажем, 3-граммы).
У случайных комбинаций букв вероятность (точнее, логарифм вероятности, делённый на число символов) будет заметно меньше, чем у нормальных текстов.

источник

11:37пожаловаться #14

V

Vlad in Natural Language Processing

А почему нельзя просто по набору букв определять язык? У нас же алфавиты вообще не пересекаются

источник

11:38пожаловаться #15

D(

David (ddale) Dale in Natural Language Processing

Vlad

А почему нельзя просто по набору букв определять язык? У нас же алфавиты вообще не пересекаются

Если я правильно понял задачу, у нас есть минимум четыре языка: английский, латинский-бессмысленный, русский, кириллический-бессмысленный. 1 от 2 и 3 от 4 по набору букв отделить нельзя. А вот по набору буквенных n-грам уже можно.

источник

11:39пожаловаться #16

G

George in Natural Language Processing

David (ddale) Dale

Если я правильно понял задачу, у нас есть минимум четыре языка: английский, латинский-бессмысленный, русский, кириллический-бессмысленный. 1 от 2 и 3 от 4 по набору букв отделить нельзя. А вот по набору буквенных n-грам уже можно.

Все верно. Чем можно фиксить смещение выборки в сторону определенного класса?

источник

11:43пожаловаться #17

D(

David (ddale) Dale in Natural Language Processing

George

Все верно. Чем можно фиксить смещение выборки в сторону определенного класса?

Если это смещение не слишком сильное (не 99% одного класса), можно вообще не фиксить. Пусть модель выучит реальное распределение классов.
Если есть нормальные признаки, и если редкие классы таки содержат приличное число примеров (в штуках), то модель нормально научится их детектить, даже если в процентах их мало.
А если редких классов даже в штуках мало, то надо или укрупнять классы, или go get more data.

источник

11:45пожаловаться #18

G

George in Natural Language Processing

David (ddale) Dale

Если это смещение не слишком сильное (не 99% одного класса), можно вообще не фиксить. Пусть модель выучит реальное распределение классов.
Если есть нормальные признаки, и если редкие классы таки содержат приличное число примеров (в штуках), то модель нормально научится их детектить, даже если в процентах их мало.
А если редких классов даже в штуках мало, то надо или укрупнять классы, или go get more data.

Может быть еще такая проблема: плохая разметка данных, то есть текст не подходит к классу, такое можно детектить? И нужно ли фиксить?

источник

11:48пожаловаться #19

ck

cnstntn kndrtv in Natural Language Processing

Вопрос кстати. Допустим у нас 4 класса. Задача - классификация текста, например сообщений. Идеальный датасет - по 25% каждого класса. Какое допустимое минимальное количество примеров для одного класса может быть, чтобы не применять upsampling, subsampling?

источник

11:48пожаловаться #20