Size: a a a

Natural Language Processing

2020 January 14

M

Mairna in Natural Language Processing
David (ddale) Dale
Это по факту будет 100 регрессий (100 векторов коэффициентов) в одной обёртке.
ты к тому, что это медленно или?
источник

D(

David (ddale) Dale in Natural Language Processing
Mairna
ты к тому, что это медленно или?
Я к тому, что это по существу не отличается от 100 независимых регрессий. И переживание Алекса, что "совокупность моделей получится тяжеловатой" (и по времени, и особенно по памяти), так же актуально.
источник

M

Mairna in Natural Language Processing
David (ddale) Dale
Я к тому, что это по существу не отличается от 100 независимых регрессий. И переживание Алекса, что "совокупность моделей получится тяжеловатой" (и по времени, и особенно по памяти), так же актуально.
интересно было бы сравнить one-vs-all регреммию и нейронку с сигмоидой по времени и памяти. делать этого, я, конечно же, не буду 😁
источник

A

Alex in Natural Language Processing
Mairna
а в разметке тоже некоторые примеры имеют несколько тегов?
да, каждый текст отмечен более чем одним тегом
источник

K

Kir in Natural Language Processing
Нейронка быстрее посчитается, да может не туда, не в глобальный минимум
источник

V

Viktor in Natural Language Processing
Alex
Уважаемые знатоки, на просторах интернета не нашел ответ, прошу вашей помощи.

Имеется набор коротких текстов. К каждому тексту прилагаются метки или, проще сказать, теги тематик. На каждый текст от 2 до 12 тегов.

Задача: обучить модель, которая на входе принимает новый текст, а на выходе предсказывает некоторое количество тегов к этому тексту (в идеале, к каждому предсказанному тегу еще выдавать числовой параметр его вероятности).

Это как определение темы текста, но только тем на один текст должно получиться несколько, а не одна

Принцип предобработки текста понятен:  Лемматизация, очистка от стоп слов и тд.

Но вот никак не могу сообразить, как подойти к задаче чтобы тем на один текст было больше одной.

Помогите, пожалуйста.
можешь еще и это трайнуть
https://github.com/facebookresearch/fastText
источник

K

Kir in Natural Language Processing
У меня есть под рукой такое сравнение, но прямо сейчас данных слишком мало, метрики совпадают
источник

A

Alex in Natural Language Processing
благодарствую, попробую
источник

A

Alex in Natural Language Processing
David (ddale) Dale
Я к тому, что это по существу не отличается от 100 независимых регрессий. И переживание Алекса, что "совокупность моделей получится тяжеловатой" (и по времени, и особенно по памяти), так же актуально.
Понимаю, что качественно лучше сделать и посмотреть что получится, нежели заранее переживать)
Просто не знал как подступиться к проблеме..
источник

YB

Yuri Baburov in Natural Language Processing
Там OVA loss появился год назад, да. Тоже рекомендую в этом режиме.
источник
2020 January 15

PG

Pavel Gulyaev in Natural Language Processing
Господа, подскажите, пожалуйста, что сейчас модно в тематическом моделировании? Мне нужно по парам вопросов-ответов выделить кластеры и их названия. Возможно есть идея как это решается лучше чем тематическое моделирование?
Кластеризацию можно сделать как угодно в принципе, но как можно выделять названия тем?
источник
2020 January 16

Г

Георгий in Natural Language Processing
Alex
Уважаемые знатоки, на просторах интернета не нашел ответ, прошу вашей помощи.

Имеется набор коротких текстов. К каждому тексту прилагаются метки или, проще сказать, теги тематик. На каждый текст от 2 до 12 тегов.

Задача: обучить модель, которая на входе принимает новый текст, а на выходе предсказывает некоторое количество тегов к этому тексту (в идеале, к каждому предсказанному тегу еще выдавать числовой параметр его вероятности).

Это как определение темы текста, но только тем на один текст должно получиться несколько, а не одна

Принцип предобработки текста понятен:  Лемматизация, очистка от стоп слов и тд.

Но вот никак не могу сообразить, как подойти к задаче чтобы тем на один текст было больше одной.

Помогите, пожалуйста.
Очень важный вопрос - размер текстов. Написано: "очень коротких" сколько это слов?

Я спрашиваю, потому что вижу очевидные проблемы с точки зрения точности в словах про малый размер.

Решал задачу с малыми текстами, но было 3 класса.
источник

A

Alex in Natural Language Processing
Георгий
Очень важный вопрос - размер текстов. Написано: "очень коротких" сколько это слов?

Я спрашиваю, потому что вижу очевидные проблемы с точки зрения точности в словах про малый размер.

Решал задачу с малыми текстами, но было 3 класса.
От 5 до 20 слов.
источник

FF

Futorio Franklin in Natural Language Processing
Alex
От 5 до 20 слов.
Я делал классификатор на 25 лейблов по заголовкам с ленты там среднее количество токенов где-то 8,  должно хватить
источник

A

Alex in Natural Language Processing
Futorio Franklin
Я делал классификатор на 25 лейблов по заголовкам с ленты там среднее количество токенов где-то 8,  должно хватить
Благодаря участникам этого чата нашлись варианты как делать. На днях сообщу что получилось в итоге
источник

MK

Mikhail Karpets in Natural Language Processing
Коллеги, всем привет! Хотел спросить, знает ли кто-нибудь открытые датасеты/генераторы изображений русского печатного текста? (в идеале с возможностью аугментации, вариативности по искажениям, шрифтам и т.п.)
источник

V

Vlad in Natural Language Processing
Mikhail Karpets
Коллеги, всем привет! Хотел спросить, знает ли кто-нибудь открытые датасеты/генераторы изображений русского печатного текста? (в идеале с возможностью аугментации, вариативности по искажениям, шрифтам и т.п.)
А у проекта tesseract ocr нету ничего такого?
источник

K

Kismat in Natural Language Processing
Всем привет!
Есть задача сопоставления товара одной сети с товаром из другой сети. На вход подаётся описание с ценника со всякими сокращениями. У нас есть наши описания, также с сокращениями, на которых обучаемся, нужно сматчить товары 1 к 1, либо 1 к нескольким похожим товарам из нашей сети.

Уже пробовали следующее:

Пример строки:
NAVIATOR Куртка муж.100%найл.черн.р46-56

"... ку кур курт куртка ... ". слово Куртка например  раскладывали посимвольно от начала, по 2, 3, 4 символа. и добавляли в перечень слов в фразе. Так для каждого слова(если в нем больше 4 символов) в строке

Цифры сначала удаляли из строки, затем конкатенировали после предыдущей операции со строкой в конец.

На этом делали tfidf, count vectoriser. Похожие искали при помощи KNN

Что посоветуете использовать? Можно ли прикрутить эмбеддинги?
источник

MK

Mikhail Karpets in Natural Language Processing
Vlad
А у проекта tesseract ocr нету ничего такого?
Спасибо, сейчас посмотрю
источник

FF

Futorio Franklin in Natural Language Processing
Kismat
Всем привет!
Есть задача сопоставления товара одной сети с товаром из другой сети. На вход подаётся описание с ценника со всякими сокращениями. У нас есть наши описания, также с сокращениями, на которых обучаемся, нужно сматчить товары 1 к 1, либо 1 к нескольким похожим товарам из нашей сети.

Уже пробовали следующее:

Пример строки:
NAVIATOR Куртка муж.100%найл.черн.р46-56

"... ку кур курт куртка ... ". слово Куртка например  раскладывали посимвольно от начала, по 2, 3, 4 символа. и добавляли в перечень слов в фразе. Так для каждого слова(если в нем больше 4 символов) в строке

Цифры сначала удаляли из строки, затем конкатенировали после предыдущей операции со строкой в конец.

На этом делали tfidf, count vectoriser. Похожие искали при помощи KNN

Что посоветуете использовать? Можно ли прикрутить эмбеддинги?
Мне кажется, что тут fasttext может помочь раз он с n-граммами работает, то ему проще будет
источник