Size: a a a

Natural Language Processing

2020 January 27

STM32F04 и анамнезис in Natural Language Processing
Yuri Baburov
Ну, если не про слова, то может быть уже что угодно не так. Для слов типичные параметры пайплайна более-менее подобрали. У вас же с каждым элементом пайплайна можно играться и дебагать ошибки. Какой смысл их просто перебирать, не понимая, что происходит?
так я и игрался, очищал данные от выбросов/ошибок, сжимал размерность, гиперпараметры подстраивал, вот и ищу какой-нибудь хитрый метрический алгоритм, но более сложный, чем обычный ближайший сосед
источник

AF

Alexander Fedorenko in Natural Language Processing
STM32F04 и анамнезис
так я и игрался, очищал данные от выбросов/ошибок, сжимал размерность, гиперпараметры подстраивал, вот и ищу какой-нибудь хитрый метрический алгоритм, но более сложный, чем обычный ближайший сосед
а пробовал tf-idf по биграммам и триграммам, но не слов а символов?
источник

STM32F04 и анамнезис in Natural Language Processing
Alexander Fedorenko
а пробовал tf-idf по биграммам и триграммам, но не слов а символов?
это уже не про текст, я про другую задачу писал, извините, что запутал и свалил все в кучу)

По триграммы символов интересно, но не уверен, что поможет, там весьма хаотичные наборы букв/цифр
источник

AF

Alexander Fedorenko in Natural Language Processing
STM32F04 и анамнезис
это уже не про текст, я про другую задачу писал, извините, что запутал и свалил все в кучу)

По триграммы символов интересно, но не уверен, что поможет, там весьма хаотичные наборы букв/цифр
помогает даже по геному, а уж тут.. ИМХО это для тебя хотичные буквы и цифры. Это скорее всего код/шифр товара(продукции) по какому-нить каталогизатору. Они же (числа и буквы) не радомно брались и добавлялись в наименование
источник

b

blackmius in Natural Language Processing
Привет, нигде не могу найти правило, объединяющее несколько range в список
пример
(1-4, 7, 9-11 нед.)
(2, 5, 6 нед.)
(5-15 нед.)
(14, 16 нед.)
что хотелось бы доставать
{1,2,3,4,7,9,10,11}
{2,6,5}
{5,6,7,8,9,10,11,12,13,14,15}
{14,16}
источник

b

blackmius in Natural Language Processing
что-то похожее, только числовой тип
источник

b

blackmius in Natural Language Processing
все, нашел .repeatable👌
источник
2020 January 28

G

German_54 in Natural Language Processing
источник

G

German_54 in Natural Language Processing
Подскажите, пожалуйста, как средствами NLP я могу восстановить искаженный вариант?
источник

G

German_54 in Natural Language Processing
Таких примеров искаженный/нормальный - тысяча
источник

YB

Yuri Baburov in Natural Language Processing
German_54
Подскажите, пожалуйста, как средствами NLP я могу восстановить искаженный вариант?
Как минимум -- можно считать вероятность того, что восстановление прошло удачно, и насколько. Частичные восстановления тоже можно поймать.
источник

YB

Yuri Baburov in Natural Language Processing
А, я думал, это циклическая замена символов какая-то. А там ошибки из-за плохого OCR... Причём, слишком много ошибок, только часть восстановится
источник

G

German_54 in Natural Language Processing
Да, изображения испорчены вертикальными полосами, поэтому OCR такой получился. Пытался через cv как-то исправить, но там все плохо. А мб знаете способ/библиотеку для исправления ошибок в тексте, что бы impride ise стал imprudence?
источник

G

German_54 in Natural Language Processing
@yuri_baburov кстати, а на комптехе вы были или будете?
источник

RP

Roman Prilepskiy in Natural Language Processing
Всем привет! Подскажите пожалуйста - знаете ли хорошие датасеты диалогов на русском / датасеты на русском расшифровок звонков в колл-центры оператор-клиент / датасеты или дампы телеграм каналов или slack чатов? Или может знаете конкурсы/чемпионаты, на которых были такие датасеты? Может быть где-то видели какой-то большой справочник таких материалов?

Из того, что находил сам, может кому-то пригодится:
1) https://toloka.yandex.ru/datasets/ - Toloka Persona Chat Rus Датасет из 10 000 диалогов
2) https://github.com/Koziev/NLP_Datasets/blob/master/Conversations/Data/dialogues.zip) - более 130 Мб, собранных из художественной литературы и подобных источников (+ в этом же репозитории много других полезных NLP датасетов на русском)
3) https://github.com/natasha/corus - там можно что-то брать из ветвей ответов Mokoron Russian Twitter Corpus
4) https://github.com/dialogue-evaluation - репозиторий конференции Диалог
5) https://www.kaggle.com/dolfik/russian-telegram-chats-history - (Data parsed from must popular public Russian Telegram chats, 10 GB)

* не совсем подходящее:
- https://tatianashavrina.github.io/2018/08/30/datasets/
- https://nlpub.mipt.ru/%D0%A0%D0%B5%D1%81%D1%83%D1%80%D1%81%D1%8B
источник

D

Dmitry in Natural Language Processing
Roman Prilepskiy
Всем привет! Подскажите пожалуйста - знаете ли хорошие датасеты диалогов на русском / датасеты на русском расшифровок звонков в колл-центры оператор-клиент / датасеты или дампы телеграм каналов или slack чатов? Или может знаете конкурсы/чемпионаты, на которых были такие датасеты? Может быть где-то видели какой-то большой справочник таких материалов?

Из того, что находил сам, может кому-то пригодится:
1) https://toloka.yandex.ru/datasets/ - Toloka Persona Chat Rus Датасет из 10 000 диалогов
2) https://github.com/Koziev/NLP_Datasets/blob/master/Conversations/Data/dialogues.zip) - более 130 Мб, собранных из художественной литературы и подобных источников (+ в этом же репозитории много других полезных NLP датасетов на русском)
3) https://github.com/natasha/corus - там можно что-то брать из ветвей ответов Mokoron Russian Twitter Corpus
4) https://github.com/dialogue-evaluation - репозиторий конференции Диалог
5) https://www.kaggle.com/dolfik/russian-telegram-chats-history - (Data parsed from must popular public Russian Telegram chats, 10 GB)

* не совсем подходящее:
- https://tatianashavrina.github.io/2018/08/30/datasets/
- https://nlpub.mipt.ru/%D0%A0%D0%B5%D1%81%D1%83%D1%80%D1%81%D1%8B
А можно поинтересоваться, вам для каких целей?
источник

RP

Roman Prilepskiy in Natural Language Processing
Dmitry
А можно поинтересоваться, вам для каких целей?
и для себя (разобраться c dialogpt, сделать какой-то pet project for fun), и для работы (тут пригодится указание лицензии и/или как связаться с создателями датасета)
источник

I

Ilya in Natural Language Processing
источник

D

Dmitry in Natural Language Processing
Увы дампы телеграма это очень плохие данные
источник

RP

Roman Prilepskiy in Natural Language Processing
спасибо!
источник