Size: a a a

Natural Language Processing

2019 December 22

AD

Alfredo Diezo in Natural Language Processing
Cookie Thief
Или речь о модели, предобученной для сентимента?
Написал в личку
источник

A

Andrey in Natural Language Processing
ребята, а как называется задача в NLP, когда по двум текстам пытаешься понять, об одном и том же ли идет речь? Забыл как гуглить
источник

N

N in Natural Language Processing
document similarity какой-нибудь?)
источник

A

Andrey in Natural Language Processing
N
document similarity какой-нибудь?)
гениальное просто).
Вообще мне казалось что-то типа semantic relationship, но так даже лучше и результатов больше. Спасибо!
источник

OS

Oleg Serikov in Natural Language Processing
Alfredo Diezo
Написал в личку
😡
источник

AD

Alfredo Diezo in Natural Language Processing
😀
источник
2019 December 23

AZ

Andrey Zakharov in Natural Language Processing
всем привет, делаю классифатор текста и есть  проблема - данных очень мало ( буквально по 10 штук), но есть заданные фичи - ключевые слова которые должны присутствовать в тексте и отдельно ключевые слова, которых  не должно быть там. как такое решают?
источник

D(

David (ddale) Dale in Natural Language Processing
Andrey Zakharov
всем привет, делаю классифатор текста и есть  проблема - данных очень мало ( буквально по 10 штук), но есть заданные фичи - ключевые слова которые должны присутствовать в тексте и отдельно ключевые слова, которых  не должно быть там. как такое решают?
Рукописным написанием if'ов :) Или регулярок.
источник

AZ

Andrey Zakharov in Natural Language Processing
ну да, у меня такие  же мысли были, но думал вдруг другие подходы есть)
источник
2019 December 24

G

George in Natural Language Processing
Всем привет, есть задача - мультиклассовая классификация текстов на русском языке, но также попадаются и на английском. Данных достаточно, но в них много грязи.  Также есть смещение сильное в сторону одного класса. Вопросы: как к данной задаче лучше всего подойти?; какие алгоритмы использовать?; как и чем очищать данные? (от случайных комбинаций букв, например : "wef asdasd qweqwdasd")
источник

D(

David (ddale) Dale in Natural Language Processing
George
Всем привет, есть задача - мультиклассовая классификация текстов на русском языке, но также попадаются и на английском. Данных достаточно, но в них много грязи.  Также есть смещение сильное в сторону одного класса. Вопросы: как к данной задаче лучше всего подойти?; какие алгоритмы использовать?; как и чем очищать данные? (от случайных комбинаций букв, например : "wef asdasd qweqwdasd")
А зачем очищать?
Сделай отдельный класс "бессмыслица", и классифицируй такие тексты в него.
Если при применении алгоритма такой булшит попадается, то и при обучении стоит быть к таким данным готовым.
источник

G

George in Natural Language Processing
David (ddale) Dale
А зачем очищать?
Сделай отдельный класс "бессмыслица", и классифицируй такие тексты в него.
Если при применении алгоритма такой булшит попадается, то и при обучении стоит быть к таким данным готовым.
Спасибо, согласен. Чем можно эту белеберду детектить?
источник

IK

Irina Krotova in Natural Language Processing
Согласна с предыдущим сообщением: если это постоянные характерные ошибки, то, наоборот, есть смысл оставить. Самый простой способ детектить: взять словарь (опенкорпора, например) и выкидывать все слова, которые туда не попадают (если текст русскоязычный), либо тексты, где % несловарных слов выше критического.
источник

D(

David (ddale) Dale in Natural Language Processing
George
Спасибо, согласен. Чем можно эту белеберду детектить?
Можно для каждого из языков с которым ты работаешь (ru, en) обучить простенькую языковую модель на символьных н-граммах. Подойдёт даже не нейронка, а просто статистическая модель (частота каждой, скажем, 3-граммы).
У случайных комбинаций букв вероятность (точнее, логарифм вероятности, делённый на число символов) будет заметно меньше, чем у нормальных текстов.
источник

V

Vlad in Natural Language Processing
А почему нельзя просто по набору букв определять язык? У нас же алфавиты вообще не пересекаются
источник

D(

David (ddale) Dale in Natural Language Processing
Vlad
А почему нельзя просто по набору букв определять язык? У нас же алфавиты вообще не пересекаются
Если я правильно понял задачу, у нас есть минимум четыре языка: английский, латинский-бессмысленный, русский, кириллический-бессмысленный. 1 от 2 и 3 от 4 по набору букв отделить нельзя. А вот по набору буквенных n-грам уже можно.
источник

G

George in Natural Language Processing
David (ddale) Dale
Если я правильно понял задачу, у нас есть минимум четыре языка: английский, латинский-бессмысленный, русский, кириллический-бессмысленный. 1 от 2 и 3 от 4 по набору букв отделить нельзя. А вот по набору буквенных n-грам уже можно.
Все верно. Чем можно фиксить смещение выборки в сторону определенного класса?
источник

D(

David (ddale) Dale in Natural Language Processing
George
Все верно. Чем можно фиксить смещение выборки в сторону определенного класса?
Если это смещение не слишком сильное (не 99% одного класса), можно вообще не фиксить. Пусть модель выучит реальное распределение классов.
Если есть нормальные признаки, и если редкие классы таки содержат приличное число примеров (в штуках), то модель нормально научится их детектить, даже если в процентах их мало.
А если редких классов даже в штуках мало, то надо или укрупнять классы, или go get more data.
источник

G

George in Natural Language Processing
David (ddale) Dale
Если это смещение не слишком сильное (не 99% одного класса), можно вообще не фиксить. Пусть модель выучит реальное распределение классов.
Если есть нормальные признаки, и если редкие классы таки содержат приличное число примеров (в штуках), то модель нормально научится их детектить, даже если в процентах их мало.
А если редких классов даже в штуках мало, то надо или укрупнять классы, или go get more data.
Может быть еще такая проблема: плохая разметка данных, то есть текст не подходит к классу, такое можно детектить? И нужно ли фиксить?
источник

ck

cnstntn kndrtv in Natural Language Processing
Вопрос кстати. Допустим у нас 4 класса. Задача - классификация текста, например сообщений. Идеальный датасет - по 25% каждого класса. Какое допустимое минимальное количество примеров для одного класса может быть, чтобы не применять upsampling, subsampling?
источник