Size: a a a

Natural Language Processing

2020 February 16

YB

Yuri Baburov in Natural Language Processing
я для русского себе сделал по-быстрому
источник

YB

Yuri Baburov in Natural Language Processing
но вот капитализацию не додумался кстати так же сделать
источник

YB

Yuri Baburov in Natural Language Processing
если кто себе ещё будет делать:
Модельку научить очень легко, а вот датасет сложно обрабатывать. Есть диалоги, а есть тире. Отличить их тяжело, и надо решить в датасете, как вы это будете учитывать, иначе готовая модель предложение возьмёт и разобьёт как диалог.
А ещё дефис и тире отличаются на письме (хотя и не всегда), надо учитывать наличие пробелов вокруг. Скажем, я заменил в датасете " - " и "—" на " -- ". Юникодовые многоточия нужно нормализовывать, и некоторые другие символы.
Ну и принять решение нужно также по кавычкам (нормализация/игнорирование/их не использование для косвенной речи), знаки препинания "%", "$", "№" отнести не к предсказываемым знакам препинания, а к словам текста...
источник

NS

Nikolay Shmyrev in Natural Language Processing
по-хорошему ещё и текст в цифры надо так переводить как тут

https://machinelearning.apple.com/2017/08/02/inverse-text-normal.html
источник

YB

Yuri Baburov in Natural Language Processing
кому-то надо для ASR/OCR восстанавливать знаки, а кому-то для чатов/GPT-2/моделей генерации текста.
у них цифры могут быть, а в случае русского ASR была отдельная либка для этого где-то.
источник

V

Vlad in Natural Language Processing
Я правильно понимаю, что для этой задачи хорошо подойдёт seq2seq из lstm?
источник

V

Vlad in Natural Language Processing
Мне для asr интересно
источник

YB

Yuri Baburov in Natural Language Processing
Vlad
Я правильно понимаю, что для этой задачи хорошо подойдёт seq2seq из lstm?
в общем-то, даже линейная модель неплохо работает.
источник

D

Denis in Natural Language Processing
А LanguageTool ( https://github.com/languagetool-org/languagetool ) кто-то юзал для такой задачи?
источник

D

Denis in Natural Language Processing
хотя он знаки препинания не восстанвилвает, чет я ошибся
источник

YB

Yuri Baburov in Natural Language Processing
https://community.languagetool.org/rule/list?lang=ru
https://community.languagetool.org/rule/list?lang=en
не думаю, что оно тебе много ошибок исправит, особенно если текст с ошибками после какого-нибудь ASR.
источник

D

Denis in Natural Language Processing
надо уже собрать в пакет свои наработки из говна и палок по препроцессингу текстовых датасетов (для очистки от мусора и удаления нежелательных вещей в первую очередь)
источник

D

Denis in Natural Language Processing
мб не мне одному это нужно всё )
источник

YB

Yuri Baburov in Natural Language Processing
многим нужно, мало кто готов делиться, но такой репозиторий боюсь будет тяжело найти поиском потом.
источник

D

Dmitry in Natural Language Processing
Denis
надо уже собрать в пакет свои наработки из говна и палок по препроцессингу текстовых датасетов (для очистки от мусора и удаления нежелательных вещей в первую очередь)
У многих из нас есть такая штука, своя)))
источник

D

Denis in Natural Language Processing
вот о том и речь, что пора бы кому-то опенсорснуть своё, а там дальше мб коммьюнити подтянется и поможет допилить или идей накинет что ещё можно делать)
у меня сейчас:
- удаление HTML тегов
- удаление всех строк не на английском (fasttext)
- очистка через textacy
- удаление матерных строк
- свои эвристики по очистке от мусора
- удаление дубликатов
- удаление строк с редкими символами (чтоб избежать ситуаций, когда в строке используется пару китайских иероглифов, такое часто после скрапинга у меня)
источник

DK

Denis Kirjanov in Natural Language Processing
Denis
вот о том и речь, что пора бы кому-то опенсорснуть своё, а там дальше мб коммьюнити подтянется и поможет допилить или идей накинет что ещё можно делать)
у меня сейчас:
- удаление HTML тегов
- удаление всех строк не на английском (fasttext)
- очистка через textacy
- удаление матерных строк
- свои эвристики по очистке от мусора
- удаление дубликатов
- удаление строк с редкими символами (чтоб избежать ситуаций, когда в строке используется пару китайских иероглифов, такое часто после скрапинга у меня)
Проблема в том, что большую часть шагов надо выносить в пайплайн и делать необязательными
источник

D

Denis in Natural Language Processing
хочу как раз докрутить languagetool ещё и пунктуацию
источник

DK

Denis Kirjanov in Natural Language Processing
Вдруг кому мат нужен, например
источник

D

Denis in Natural Language Processing
да, всё верно) у меня сейчас это bash скрипт, который запускает питонячие скрипты и это реально каша
источник