Телеграмм чат группы natural_language_processing страница 655

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Natural Language Processing

1540 membersпожаловаться на группу

2020 May 05

rb

r-ysshe beiyez-s in Natural Language Processing

У многих терминов нет и вряд ли будет русская адаптация, причём только ради дипломов/диссертаций это уж точно никто не будет делать)

мне кажется, как раз написание дипломов и диссертаций — это главный инструмент адаптации англоязычных терминов для русского языка. ответственное занятие очень — и хочется поэтому как-нибудь покрасивее все обозвать

источник

22:32пожаловаться #1

rb

r-ysshe beiyez-s in Natural Language Processing

но тут, понятное дело, особо не разгуляешься...

источник

22:34пожаловаться #2

OS

Oleg Serikov in Natural Language Processing

задача порождения последовательности для заданной последовательности?..

источник

22:34пожаловаться #3

rb

r-ysshe beiyez-s in Natural Language Processing

Т_Т

источник

22:35пожаловаться #4

D(

David (ddale) Dale in Natural Language Processing

r-ysshe beiyez-s

Всем привет! Как вы думаете, как бы лучше перевести на русской язык seq2seq? Диплом пишу, ломаю голову

Если уж "придумывать" перевод покрасивее, то я бы написал "текст-в-текст", это короче и звучнее.
Это в общем случае неверно (не любая последовательность - текст), но для основных задач NLP это так.

источник

22:35пожаловаться #5

rb

r-ysshe beiyez-s in Natural Language Processing

David (ddale) Dale

Если уж "придумывать" перевод покрасивее, то я бы написал "текст-в-текст", это короче и звучнее.
Это в общем случае неверно (не любая последовательность - текст), но для основных задач NLP это так.

хороший вариант, спасибо!

источник

22:38пожаловаться #6

2020 May 06

ДТ

Дмитрий Тырин... in Natural Language Processing

Как возможно решить задачу по исправлению слов в тексте, у которых стоит буква "е", а не "ё"? Т.е. исправить хотя бы самые очевидные слова "шёл", "неё" и тп
Ручной поиск и замену не предлагать)

источник

07:57пожаловаться #7

RK

Roman Korotaeff in Natural Language Processing

Дмитрий Тырин

Как возможно решить задачу по исправлению слов в тексте, у которых стоит буква "е", а не "ё"? Т.е. исправить хотя бы самые очевидные слова "шёл", "неё" и тп
Ручной поиск и замену не предлагать)

Нужен хороший словарь. Ищем в словаре слово, если не находим, то заменяем в слове букву "е" на "ё" и снова ищем в словаре.

источник

08:34пожаловаться #8

MK

Marianna Kovalova in Natural Language Processing

Всем привет! Подскажите, может кто-то пробовал или знает, можно ли word2vec или что-то другое натренировать на фразах?

источник

08:35пожаловаться #9

ДТ

Дмитрий Тырин... in Natural Language Processing

Roman Korotaeff

Нужен хороший словарь. Ищем в словаре слово, если не находим, то заменяем в слове букву "е" на "ё" и снова ищем в словаре.

Спасибо. В библиотеках типа pymorphy2 нету такого встроенного?

источник

08:37пожаловаться #10

D

Dmitry in Natural Language Processing

Marianna Kovalova

Всем привет! Подскажите, может кто-то пробовал или знает, можно ли word2vec или что-то другое натренировать на фразах?

Doc2vec

источник

08:40пожаловаться #11

RK

Roman Korotaeff in Natural Language Processing

У Pymorphy2 есть свой словарь, но там ещё и фейковый словарь, который включается при отсутствии слова в базовом словаре. Но попробуйте, может для вашей задачи и подойдёт.

источник

08:49пожаловаться #12

NK

Nikolay Karelin in Natural Language Processing

Дмитрий Тырин

Спасибо. В библиотеках типа pymorphy2 нету такого встроенного?

Словари с ё и без были раньше для библиотеки ispell/hunspell (LibreOffice/Firefox)

источник

11:40пожаловаться #13

ДТ

Дмитрий Тырин... in Natural Language Processing

Nikolay Karelin

Словари с ё и без были раньше для библиотеки ispell/hunspell (LibreOffice/Firefox)

спасибо, посмотрю

источник

11:41пожаловаться #14

DK

Denis Kirjanov in Natural Language Processing

а есть какая-нибудь либа для проверки орфографической/пунктуационной грамотности текста на русском, типа ться/тся, лишних запятых, вот это все?

источник

11:50пожаловаться #15

YB

Yuri Baburov in Natural Language Processing

а есть какая-нибудь либа для проверки орфографической/пунктуационной грамотности текста на русском, типа ться/тся, лишних запятых, вот это все?

ну всякие ispell,aspell,hunspell же есть. они слабенькие, но что-то умеют. и быстрые, ибо на правилах работают

источник

13:05пожаловаться #16

DK

Denis Kirjanov in Natural Language Processing

ну всякие ispell,aspell,hunspell же есть. они слабенькие, но что-то умеют. и быстрые, ибо на правилах работают

да, но ться/тся и пунктуацию вроде не ловят

источник

13:14пожаловаться #17

YB

Yuri Baburov in Natural Language Processing

да, но ться/тся и пунктуацию вроде не ловят

да, точно, hunspell обрабатывает по одному слову за раз, научить пунктуации его нельзя.
для пунктуации ничего нет.
наверное, надо брать сетку, и оценить вероятность текущего знака препинания. где сильно не совпадает -- там ругаться.

источник

13:18пожаловаться #18

NK

Nikolay Karelin in Natural Language Processing

да, но ться/тся и пунктуацию вроде не ловят

Есть еще https://github.com/languagetool-org/languagetool

languagetool-org/languagetool

Style and Grammar Checker for 25+ Languages. Contribute to languagetool-org/languagetool development by creating an account on GitHub.

источник

13:42пожаловаться #19

C

Cyril in Natural Language Processing

Добрый день!

Разбираюсь что к чему в области обработки текста. В качестве инструментов использую открытые библиотеки на python.

Появились вопросы, на которые пока не нашел ответа:

1. Существует ли ocr для распознавания текстов на русском языке с дореформенной орфографией? Для всего остального использую pytesseract.

2. Есть ли в открытом доступе словари географических названий на русском, чтобы их можно было использовать для проверки спеллинга токенов.

3. Существуют ли инструменты для нормализации названий географических объектов. Сейчас использую лемматизацию pymystem3, но, закономерно получаю не всегда то, что нужно.

источник

14:10пожаловаться #20