Телеграмм чат группы natural_language

я для русского себе сделал по-быстрому

13:33пожаловаться #1

YB

но вот капитализацию не додумался кстати так же сделать

13:33пожаловаться #2

YB

если кто себе ещё будет делать:
Модельку научить очень легко, а вот датасет сложно обрабатывать. Есть диалоги, а есть тире. Отличить их тяжело, и надо решить в датасете, как вы это будете учитывать, иначе готовая модель предложение возьмёт и разобьёт как диалог.
А ещё дефис и тире отличаются на письме (хотя и не всегда), надо учитывать наличие пробелов вокруг. Скажем, я заменил в датасете " - " и "—" на " -- ". Юникодовые многоточия нужно нормализовывать, и некоторые другие символы.
Ну и принять решение нужно также по кавычкам (нормализация/игнорирование/их не использование для косвенной речи), знаки препинания "%", "$", "№" отнести не к предсказываемым знакам препинания, а к словам текста...

Nikolay Shmyrev in Natural Language Processing

13:42пожаловаться #3

NS

по-хорошему ещё и текст в цифры надо так переводить как тут

https://machinelearning.apple.com/2017/08/02/inverse-text-normal.html

Apple Machine Learning Journal

Inverse Text Normalization as a Labeling Problem - Apple

Apple Machine Learning Journal publishes posts written by Apple engineers about their work using machine learning technologies to help build innovative products for millions of people around the world.

13:46пожаловаться #4

YB

Apple Machine Learning Journal

Nikolay Shmyrev

по-хорошему ещё и текст в цифры надо так переводить как тут

https://machinelearning.apple.com/2017/08/02/inverse-text-normal.html

Inverse Text Normalization as a Labeling Problem - Apple

Apple Machine Learning Journal publishes posts written by Apple engineers about their work using machine learning technologies to help build innovative products for millions of people around the world.

кому-то надо для ASR/OCR восстанавливать знаки, а кому-то для чатов/GPT-2/моделей генерации текста.
у них цифры могут быть, а в случае русского ASR была отдельная либка для этого где-то.

13:48пожаловаться #5

V

Vlad in Natural Language Processing

Я правильно понимаю, что для этой задачи хорошо подойдёт seq2seq из lstm?

13:48пожаловаться #6

V

Vlad in Natural Language Processing

Мне для asr интересно

13:48пожаловаться #7

YB

Vlad

Я правильно понимаю, что для этой задачи хорошо подойдёт seq2seq из lstm?

в общем-то, даже линейная модель неплохо работает.

13:49пожаловаться #8

D

Style and Grammar Checker for 25+ Languages. Contribute to languagetool-org/languagetool development by creating an account on GitHub.

А LanguageTool ( https://github.com/languagetool-org/languagetool ) кто-то юзал для такой задачи?

GitHub

languagetool-org/languagetool

13:50пожаловаться #9

D

хотя он знаки препинания не восстанвилвает, чет я ошибся

13:52пожаловаться #10

YB

Style and Grammar Checker for 25+ Languages. Contribute to languagetool-org/languagetool development by creating an account on GitHub.

Denis

А LanguageTool ( https://github.com/languagetool-org/languagetool ) кто-то юзал для такой задачи?

GitHub

languagetool-org/languagetool

https://community.languagetool.org/rule/list?lang=ru
https://community.languagetool.org/rule/list?lang=en
не думаю, что оно тебе много ошибок исправит, особенно если текст с ошибками после какого-нибудь ASR.

13:52пожаловаться #11

D

надо уже собрать в пакет свои наработки из говна и палок по препроцессингу текстовых датасетов (для очистки от мусора и удаления нежелательных вещей в первую очередь)

13:55пожаловаться #12

D

мб не мне одному это нужно всё )

13:55пожаловаться #13

YB

многим нужно, мало кто готов делиться, но такой репозиторий боюсь будет тяжело найти поиском потом.

13:56пожаловаться #14

D

Dmitry in Natural Language Processing

Denis

надо уже собрать в пакет свои наработки из говна и палок по препроцессингу текстовых датасетов (для очистки от мусора и удаления нежелательных вещей в первую очередь)

У многих из нас есть такая штука, своя)))

13:56пожаловаться #15

D

вот о том и речь, что пора бы кому-то опенсорснуть своё, а там дальше мб коммьюнити подтянется и поможет допилить или идей накинет что ещё можно делать)
у меня сейчас:
- удаление HTML тегов
- удаление всех строк не на английском (fasttext)
- очистка через textacy
- удаление матерных строк
- свои эвристики по очистке от мусора
- удаление дубликатов
- удаление строк с редкими символами (чтоб избежать ситуаций, когда в строке используется пару китайских иероглифов, такое часто после скрапинга у меня)

Denis Kirjanov in Natural Language Processing

13:58пожаловаться #16

DK

Denis

вот о том и речь, что пора бы кому-то опенсорснуть своё, а там дальше мб коммьюнити подтянется и поможет допилить или идей накинет что ещё можно делать)
у меня сейчас:
- удаление HTML тегов
- удаление всех строк не на английском (fasttext)
- очистка через textacy
- удаление матерных строк
- свои эвристики по очистке от мусора
- удаление дубликатов
- удаление строк с редкими символами (чтоб избежать ситуаций, когда в строке используется пару китайских иероглифов, такое часто после скрапинга у меня)

Проблема в том, что большую часть шагов надо выносить в пайплайн и делать необязательными

13:59пожаловаться #17

D

хочу как раз докрутить languagetool ещё и пунктуацию

Denis Kirjanov in Natural Language Processing

13:59пожаловаться #18

DK

Вдруг кому мат нужен, например

14:00пожаловаться #19

D

да, всё верно) у меня сейчас это bash скрипт, который запускает питонячие скрипты и это реально каша