Size: a a a

Natural Language Processing

2020 May 05

rb

r-ysshe beiyez-s in Natural Language Processing
Vlad
У многих терминов нет и вряд ли будет русская адаптация, причём только ради дипломов/диссертаций это уж точно никто не будет делать)
мне кажется, как раз написание дипломов и диссертаций — это главный инструмент адаптации англоязычных терминов для русского языка. ответственное занятие очень — и хочется поэтому как-нибудь покрасивее все обозвать
источник

rb

r-ysshe beiyez-s in Natural Language Processing
но тут, понятное дело, особо не разгуляешься...
источник

OS

Oleg Serikov in Natural Language Processing
задача порождения последовательности для заданной последовательности?..
источник

rb

r-ysshe beiyez-s in Natural Language Processing
Т_Т
источник

D(

David (ddale) Dale in Natural Language Processing
r-ysshe beiyez-s
Всем привет! Как вы думаете, как бы лучше перевести на русской язык seq2seq? Диплом пишу, ломаю голову
Если уж "придумывать" перевод покрасивее, то я бы написал "текст-в-текст", это короче и звучнее.
Это в общем случае неверно (не любая последовательность - текст), но для основных задач NLP это так.
источник

rb

r-ysshe beiyez-s in Natural Language Processing
David (ddale) Dale
Если уж "придумывать" перевод покрасивее, то я бы написал "текст-в-текст", это короче и звучнее.
Это в общем случае неверно (не любая последовательность - текст), но для основных задач NLP это так.
хороший вариант, спасибо!
источник
2020 May 06

ДТ

Дмитрий Тырин... in Natural Language Processing
Как возможно решить задачу по исправлению слов в тексте, у которых стоит буква "е", а не "ё"? Т.е. исправить хотя бы самые очевидные слова "шёл", "неё" и тп
Ручной поиск и замену не предлагать)
источник

RK

Roman Korotaeff in Natural Language Processing
Дмитрий Тырин
Как возможно решить задачу по исправлению слов в тексте, у которых стоит буква "е", а не "ё"? Т.е. исправить хотя бы самые очевидные слова "шёл", "неё" и тп
Ручной поиск и замену не предлагать)
Нужен хороший словарь. Ищем в словаре слово, если не находим, то заменяем в слове букву "е" на "ё" и снова ищем в словаре.
источник

MK

Marianna Kovalova in Natural Language Processing
Всем привет! Подскажите, может кто-то пробовал или знает, можно ли word2vec или что-то другое натренировать на фразах?
источник

ДТ

Дмитрий Тырин... in Natural Language Processing
Roman Korotaeff
Нужен хороший словарь. Ищем в словаре слово, если не находим, то заменяем в слове букву "е" на "ё" и снова ищем в словаре.
Спасибо. В библиотеках типа pymorphy2 нету такого встроенного?
источник

D

Dmitry in Natural Language Processing
Marianna Kovalova
Всем привет! Подскажите, может кто-то пробовал или знает, можно ли word2vec или что-то другое натренировать на фразах?
Doc2vec
источник

RK

Roman Korotaeff in Natural Language Processing
У Pymorphy2 есть свой словарь, но там ещё и фейковый словарь, который включается при отсутствии слова в базовом словаре. Но попробуйте, может для вашей задачи и подойдёт.
источник

NK

Nikolay Karelin in Natural Language Processing
Дмитрий Тырин
Спасибо. В библиотеках типа pymorphy2 нету такого встроенного?
Словари с ё и без были раньше для библиотеки ispell/hunspell (LibreOffice/Firefox)
источник

ДТ

Дмитрий Тырин... in Natural Language Processing
Nikolay Karelin
Словари с ё и без были раньше для библиотеки ispell/hunspell (LibreOffice/Firefox)
спасибо, посмотрю
источник

DK

Denis Kirjanov in Natural Language Processing
а есть какая-нибудь либа для проверки орфографической/пунктуационной грамотности текста на русском, типа ться/тся, лишних запятых, вот это все?
источник

YB

Yuri Baburov in Natural Language Processing
Denis Kirjanov
а есть какая-нибудь либа для проверки орфографической/пунктуационной грамотности текста на русском, типа ться/тся, лишних запятых, вот это все?
ну всякие ispell,aspell,hunspell же есть. они слабенькие, но что-то умеют. и быстрые, ибо на правилах работают
источник

DK

Denis Kirjanov in Natural Language Processing
Yuri Baburov
ну всякие ispell,aspell,hunspell же есть. они слабенькие, но что-то умеют. и быстрые, ибо на правилах работают
да, но ться/тся и пунктуацию вроде не ловят
источник

YB

Yuri Baburov in Natural Language Processing
Denis Kirjanov
да, но ться/тся и пунктуацию вроде не ловят
да, точно, hunspell обрабатывает по одному слову за раз, научить пунктуации его нельзя.
для пунктуации ничего нет.
наверное, надо брать сетку, и оценить вероятность текущего знака препинания. где сильно не совпадает -- там ругаться.
источник

NK

Nikolay Karelin in Natural Language Processing
Denis Kirjanov
да, но ться/тся и пунктуацию вроде не ловят
источник

C

Cyril in Natural Language Processing
Добрый день!

Разбираюсь что к чему в области обработки текста. В качестве инструментов использую открытые библиотеки на python.

Появились вопросы, на которые пока не нашел ответа:

1. Существует ли ocr для распознавания текстов на русском языке с дореформенной орфографией? Для всего остального использую pytesseract.

2. Есть ли в открытом доступе словари географических названий на русском, чтобы их можно было использовать для проверки спеллинга токенов.

3. Существуют ли инструменты для нормализации названий географических объектов. Сейчас использую лемматизацию pymystem3, но, закономерно получаю не всегда то, что нужно.
источник