Телеграмм чат группы natural_language_processing страница 581

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Natural Language Processing

1347 membersпожаловаться на группу

2020 January 27

Sи

STM32F04 и анамнезис in Natural Language Processing

Ну, если не про слова, то может быть уже что угодно не так. Для слов типичные параметры пайплайна более-менее подобрали. У вас же с каждым элементом пайплайна можно играться и дебагать ошибки. Какой смысл их просто перебирать, не понимая, что происходит?

так я и игрался, очищал данные от выбросов/ошибок, сжимал размерность, гиперпараметры подстраивал, вот и ищу какой-нибудь хитрый метрический алгоритм, но более сложный, чем обычный ближайший сосед

источник

18:34пожаловаться #1

AF

Alexander Fedorenko in Natural Language Processing

STM32F04 и анамнезис

так я и игрался, очищал данные от выбросов/ошибок, сжимал размерность, гиперпараметры подстраивал, вот и ищу какой-нибудь хитрый метрический алгоритм, но более сложный, чем обычный ближайший сосед

а пробовал tf-idf по биграммам и триграммам, но не слов а символов?

источник

21:22пожаловаться #2

Sи

STM32F04 и анамнезис in Natural Language Processing

Alexander Fedorenko

а пробовал tf-idf по биграммам и триграммам, но не слов а символов?

это уже не про текст, я про другую задачу писал, извините, что запутал и свалил все в кучу)

По триграммы символов интересно, но не уверен, что поможет, там весьма хаотичные наборы букв/цифр

источник

21:31пожаловаться #3

AF

Alexander Fedorenko in Natural Language Processing

STM32F04 и анамнезис

это уже не про текст, я про другую задачу писал, извините, что запутал и свалил все в кучу)

По триграммы символов интересно, но не уверен, что поможет, там весьма хаотичные наборы букв/цифр

помогает даже по геному, а уж тут.. ИМХО это для тебя хотичные буквы и цифры. Это скорее всего код/шифр товара(продукции) по какому-нить каталогизатору. Они же (числа и буквы) не радомно брались и добавлялись в наименование

источник

21:39пожаловаться #4

b

blackmius in Natural Language Processing

Привет, нигде не могу найти правило, объединяющее несколько range в список
пример
(1-4, 7, 9-11 нед.)
(2, 5, 6 нед.)
(5-15 нед.)
(14, 16 нед.)
что хотелось бы доставать
{1,2,3,4,7,9,10,11}
{2,6,5}
{5,6,7,8,9,10,11,12,13,14,15}
{14,16}

источник

22:10пожаловаться #5

b

blackmius in Natural Language Processing

что-то похожее, только числовой тип

источник

22:15пожаловаться #6

b

blackmius in Natural Language Processing

все, нашел .repeatable👌

источник

23:54пожаловаться #7

2020 January 28

G

German_54 in Natural Language Processing

4V4dKlJ8nuM.jpg

источник

00:17пожаловаться #8

G

German_54 in Natural Language Processing

Подскажите, пожалуйста, как средствами NLP я могу восстановить искаженный вариант?

источник

00:18пожаловаться #9

G

German_54 in Natural Language Processing

Таких примеров искаженный/нормальный - тысяча

источник

00:18пожаловаться #10

YB

Yuri Baburov in Natural Language Processing

Подскажите, пожалуйста, как средствами NLP я могу восстановить искаженный вариант?

Как минимум -- можно считать вероятность того, что восстановление прошло удачно, и насколько. Частичные восстановления тоже можно поймать.

источник

03:28пожаловаться #11

YB

Yuri Baburov in Natural Language Processing

А, я думал, это циклическая замена символов какая-то. А там ошибки из-за плохого OCR... Причём, слишком много ошибок, только часть восстановится

источник

03:31пожаловаться #12

G

German_54 in Natural Language Processing

Да, изображения испорчены вертикальными полосами, поэтому OCR такой получился. Пытался через cv как-то исправить, но там все плохо. А мб знаете способ/библиотеку для исправления ошибок в тексте, что бы impride ise стал imprudence?

источник

11:28пожаловаться #13

G

German_54 in Natural Language Processing

@yuri_baburov кстати, а на комптехе вы были или будете?

источник

11:30пожаловаться #14

RP

Roman Prilepskiy in Natural Language Processing

Всем привет! Подскажите пожалуйста - знаете ли хорошие датасеты диалогов на русском / датасеты на русском расшифровок звонков в колл-центры оператор-клиент / датасеты или дампы телеграм каналов или slack чатов? Или может знаете конкурсы/чемпионаты, на которых были такие датасеты? Может быть где-то видели какой-то большой справочник таких материалов?

Из того, что находил сам, может кому-то пригодится:
1) https://toloka.yandex.ru/datasets/ - Toloka Persona Chat Rus Датасет из 10 000 диалогов
2) https://github.com/Koziev/NLP_Datasets/blob/master/Conversations/Data/dialogues.zip) - более 130 Мб, собранных из художественной литературы и подобных источников (+ в этом же репозитории много других полезных NLP датасетов на русском)
3) https://github.com/natasha/corus - там можно что-то брать из ветвей ответов Mokoron Russian Twitter Corpus
4) https://github.com/dialogue-evaluation - репозиторий конференции Диалог
5) https://www.kaggle.com/dolfik/russian-telegram-chats-history - (Data parsed from must popular public Russian Telegram chats, 10 GB)

* не совсем подходящее:
- https://tatianashavrina.github.io/2018/08/30/datasets/
- https://nlpub.mipt.ru/%D0%A0%D0%B5%D1%81%D1%83%D1%80%D1%81%D1%8B

Koziev/NLP_Datasets

My NLP datasets for Russian language. Contribute to Koziev/NLP_Datasets development by creating an account on GitHub.

источник

12:14пожаловаться #15

D

Dmitry in Natural Language Processing

Roman Prilepskiy

Всем привет! Подскажите пожалуйста - знаете ли хорошие датасеты диалогов на русском / датасеты на русском расшифровок звонков в колл-центры оператор-клиент / датасеты или дампы телеграм каналов или slack чатов? Или может знаете конкурсы/чемпионаты, на которых были такие датасеты? Может быть где-то видели какой-то большой справочник таких материалов?

Из того, что находил сам, может кому-то пригодится:
1) https://toloka.yandex.ru/datasets/ - Toloka Persona Chat Rus Датасет из 10 000 диалогов
2) https://github.com/Koziev/NLP_Datasets/blob/master/Conversations/Data/dialogues.zip) - более 130 Мб, собранных из художественной литературы и подобных источников (+ в этом же репозитории много других полезных NLP датасетов на русском)
3) https://github.com/natasha/corus - там можно что-то брать из ветвей ответов Mokoron Russian Twitter Corpus
4) https://github.com/dialogue-evaluation - репозиторий конференции Диалог
5) https://www.kaggle.com/dolfik/russian-telegram-chats-history - (Data parsed from must popular public Russian Telegram chats, 10 GB)

* не совсем подходящее:
- https://tatianashavrina.github.io/2018/08/30/datasets/
- https://nlpub.mipt.ru/%D0%A0%D0%B5%D1%81%D1%83%D1%80%D1%81%D1%8B

Koziev/NLP_Datasets

My NLP datasets for Russian language. Contribute to Koziev/NLP_Datasets development by creating an account on GitHub.

А можно поинтересоваться, вам для каких целей?

источник

12:27пожаловаться #16

RP

Roman Prilepskiy in Natural Language Processing

А можно поинтересоваться, вам для каких целей?

и для себя (разобраться c dialogpt, сделать какой-то pet project for fun), и для работы (тут пригодится указание лицензии и/или как связаться с создателями датасета)

источник

12:34пожаловаться #17

I

Ilya in Natural Language Processing

https://m.habr.com/ru/post/474462/

Огромный открытый датасет русской речи версия 1.0

В начале этого года по ряду причин мы загорелись идеей создать самый большой открытый датасет русской речи. Подробнее о нашей мотивации и о том, как всё начинал...

источник

12:34пожаловаться #18

D

Dmitry in Natural Language Processing

Увы дампы телеграма это очень плохие данные

источник

12:35пожаловаться #19

RP

Roman Prilepskiy in Natural Language Processing

https://m.habr.com/ru/post/474462/

Огромный открытый датасет русской речи версия 1.0

В начале этого года по ряду причин мы загорелись идеей создать самый большой открытый датасет русской речи. Подробнее о нашей мотивации и о том, как всё начинал...

спасибо!

источник

12:35пожаловаться #20