Телеграмм чат группы natural_language

2020 January 14

M

Mairna in Natural Language Processing

David (ddale) Dale

Это по факту будет 100 регрессий (100 векторов коэффициентов) в одной обёртке.

ты к тому, что это медленно или?

источник

17:25пожаловаться #1

D(

David (ddale) Dale in Natural Language Processing

Mairna

ты к тому, что это медленно или?

Я к тому, что это по существу не отличается от 100 независимых регрессий. И переживание Алекса, что "совокупность моделей получится тяжеловатой" (и по времени, и особенно по памяти), так же актуально.

источник

17:26пожаловаться #2

M

Mairna in Natural Language Processing

David (ddale) Dale

Я к тому, что это по существу не отличается от 100 независимых регрессий. И переживание Алекса, что "совокупность моделей получится тяжеловатой" (и по времени, и особенно по памяти), так же актуально.

интересно было бы сравнить one-vs-all регреммию и нейронку с сигмоидой по времени и памяти. делать этого, я, конечно же, не буду 😁

источник

17:28пожаловаться #3

A

Alex in Natural Language Processing

Mairna

а в разметке тоже некоторые примеры имеют несколько тегов?

да, каждый текст отмечен более чем одним тегом

источник

17:34пожаловаться #4

K

Kir in Natural Language Processing

Нейронка быстрее посчитается, да может не туда, не в глобальный минимум

источник

17:34пожаловаться #5

V

Viktor in Natural Language Processing

Alex

Уважаемые знатоки, на просторах интернета не нашел ответ, прошу вашей помощи.

Имеется набор коротких текстов. К каждому тексту прилагаются метки или, проще сказать, теги тематик. На каждый текст от 2 до 12 тегов.

Задача: обучить модель, которая на входе принимает новый текст, а на выходе предсказывает некоторое количество тегов к этому тексту (в идеале, к каждому предсказанному тегу еще выдавать числовой параметр его вероятности).

Это как определение темы текста, но только тем на один текст должно получиться несколько, а не одна

Принцип предобработки текста понятен: Лемматизация, очистка от стоп слов и тд.

Но вот никак не могу сообразить, как подойти к задаче чтобы тем на один текст было больше одной.

Помогите, пожалуйста.

можешь еще и это трайнуть
https://github.com/facebookresearch/fastText

GitHub

facebookresearch/fastText

Library for fast text representation and classification. - facebookresearch/fastText

источник

17:34пожаловаться #6

K

Kir in Natural Language Processing

У меня есть под рукой такое сравнение, но прямо сейчас данных слишком мало, метрики совпадают

источник

17:34пожаловаться #7

A

Alex in Natural Language Processing

Viktor

можешь еще и это трайнуть
https://github.com/facebookresearch/fastText

GitHub

facebookresearch/fastText

Library for fast text representation and classification. - facebookresearch/fastText

благодарствую, попробую

источник

17:35пожаловаться #8

A

Alex in Natural Language Processing

David (ddale) Dale

Я к тому, что это по существу не отличается от 100 независимых регрессий. И переживание Алекса, что "совокупность моделей получится тяжеловатой" (и по времени, и особенно по памяти), так же актуально.

Понимаю, что качественно лучше сделать и посмотреть что получится, нежели заранее переживать)
Просто не знал как подступиться к проблеме..

источник

17:36пожаловаться #9

YB

Yuri Baburov in Natural Language Processing

Viktor

можешь еще и это трайнуть
https://github.com/facebookresearch/fastText

GitHub

facebookresearch/fastText

Library for fast text representation and classification. - facebookresearch/fastText

Там OVA loss появился год назад, да. Тоже рекомендую в этом режиме.

источник

18:33пожаловаться #10

2020 January 15

PG

Pavel Gulyaev in Natural Language Processing

Господа, подскажите, пожалуйста, что сейчас модно в тематическом моделировании? Мне нужно по парам вопросов-ответов выделить кластеры и их названия. Возможно есть идея как это решается лучше чем тематическое моделирование?
Кластеризацию можно сделать как угодно в принципе, но как можно выделять названия тем?

источник

02:07пожаловаться #11

2020 January 16

Г

Георгий in Natural Language Processing

Alex

Уважаемые знатоки, на просторах интернета не нашел ответ, прошу вашей помощи.

Имеется набор коротких текстов. К каждому тексту прилагаются метки или, проще сказать, теги тематик. На каждый текст от 2 до 12 тегов.

Задача: обучить модель, которая на входе принимает новый текст, а на выходе предсказывает некоторое количество тегов к этому тексту (в идеале, к каждому предсказанному тегу еще выдавать числовой параметр его вероятности).

Это как определение темы текста, но только тем на один текст должно получиться несколько, а не одна

Принцип предобработки текста понятен: Лемматизация, очистка от стоп слов и тд.

Но вот никак не могу сообразить, как подойти к задаче чтобы тем на один текст было больше одной.

Помогите, пожалуйста.

Очень важный вопрос - размер текстов. Написано: "очень коротких" сколько это слов?

Я спрашиваю, потому что вижу очевидные проблемы с точки зрения точности в словах про малый размер.

Решал задачу с малыми текстами, но было 3 класса.

источник

08:41пожаловаться #12

A

Alex in Natural Language Processing

Георгий

Очень важный вопрос - размер текстов. Написано: "очень коротких" сколько это слов?

Я спрашиваю, потому что вижу очевидные проблемы с точки зрения точности в словах про малый размер.

Решал задачу с малыми текстами, но было 3 класса.

От 5 до 20 слов.

источник

08:51пожаловаться #13

FF

Futorio Franklin in Natural Language Processing

Alex

От 5 до 20 слов.

Я делал классификатор на 25 лейблов по заголовкам с ленты там среднее количество токенов где-то 8, должно хватить

источник

08:55пожаловаться #14

A

Alex in Natural Language Processing

Futorio Franklin

Я делал классификатор на 25 лейблов по заголовкам с ленты там среднее количество токенов где-то 8, должно хватить

Благодаря участникам этого чата нашлись варианты как делать. На днях сообщу что получилось в итоге

источник

09:20пожаловаться #15

MK

Mikhail Karpets in Natural Language Processing

Коллеги, всем привет! Хотел спросить, знает ли кто-нибудь открытые датасеты/генераторы изображений русского печатного текста? (в идеале с возможностью аугментации, вариативности по искажениям, шрифтам и т.п.)

источник

13:51пожаловаться #16

V

Vlad in Natural Language Processing

Mikhail Karpets

Коллеги, всем привет! Хотел спросить, знает ли кто-нибудь открытые датасеты/генераторы изображений русского печатного текста? (в идеале с возможностью аугментации, вариативности по искажениям, шрифтам и т.п.)

А у проекта tesseract ocr нету ничего такого?

источник

14:00пожаловаться #17

K

Kismat in Natural Language Processing

Всем привет!
Есть задача сопоставления товара одной сети с товаром из другой сети. На вход подаётся описание с ценника со всякими сокращениями. У нас есть наши описания, также с сокращениями, на которых обучаемся, нужно сматчить товары 1 к 1, либо 1 к нескольким похожим товарам из нашей сети.

Уже пробовали следующее:

Пример строки:
NAVIATOR Куртка муж.100%найл.черн.р46-56

"... ку кур курт куртка ... ". слово Куртка например раскладывали посимвольно от начала, по 2, 3, 4 символа. и добавляли в перечень слов в фразе. Так для каждого слова(если в нем больше 4 символов) в строке

Цифры сначала удаляли из строки, затем конкатенировали после предыдущей операции со строкой в конец.

На этом делали tfidf, count vectoriser. Похожие искали при помощи KNN

Что посоветуете использовать? Можно ли прикрутить эмбеддинги?

источник

14:04пожаловаться #18

MK

Mikhail Karpets in Natural Language Processing

Vlad

А у проекта tesseract ocr нету ничего такого?

Спасибо, сейчас посмотрю

источник

14:04пожаловаться #19

FF

Futorio Franklin in Natural Language Processing

Kismat

Всем привет!
Есть задача сопоставления товара одной сети с товаром из другой сети. На вход подаётся описание с ценника со всякими сокращениями. У нас есть наши описания, также с сокращениями, на которых обучаемся, нужно сматчить товары 1 к 1, либо 1 к нескольким похожим товарам из нашей сети.

Уже пробовали следующее:

Пример строки:
NAVIATOR Куртка муж.100%найл.черн.р46-56

"... ку кур курт куртка ... ". слово Куртка например раскладывали посимвольно от начала, по 2, 3, 4 символа. и добавляли в перечень слов в фразе. Так для каждого слова(если в нем больше 4 символов) в строке

Цифры сначала удаляли из строки, затем конкатенировали после предыдущей операции со строкой в конец.

На этом делали tfidf, count vectoriser. Похожие искали при помощи KNN

Что посоветуете использовать? Можно ли прикрутить эмбеддинги?

Мне кажется, что тут fasttext может помочь раз он с n-граммами работает, то ему проще будет

источник

14:07пожаловаться #20