Size: a a a

Natural Language Processing

2021 February 25

A

Anthony in Natural Language Processing
Natalia
но вообще осторожно такое автоматизировать для некоторых задач, потому что а) бывают гипокористики с несколькими соответствиями (Ася — Александра или Анастасия? или вообще Анна? Шура — Александр или Александра?), б) у некоторых людей прямо в паспорте может быть написано "ненормальное" имя
Да, эти моменты тонкие. Но, возможно под мою задачу хватит автоматизации. Спасибо за замечание :)
источник

V

Vladimir in Natural Language Processing
Всем привет! Кто-то знает как наиболее эффективно делать предикты на CPU для BERT и PyTorch
источник

V

Vladimir in Natural Language Processing
?
источник

V

Vladimir in Natural Language Processing
8 моделей применяю на одну итерацию, как вариант думаю батчами получать предсказания и непосредственно работать с ними это может помочь в ускорении предсказания, как думаете?
источник

AT

Andrey Tatarinov in Natural Language Processing
На CPU батчи не ускоряют
источник

V

Vladimir in Natural Language Processing
Значит на процессоры разбросать нужно =(
источник

RS

Ruslan Sabirov in Natural Language Processing
Добрый вечер!
Можете посоветовать какую-нибудь либу для конвертации чисел из цифр в слова (на русском языке)?

"23 яблока" —> "двадцать три яблока"
"10-ый трамвай" —> "десятый трамвай"
"22е февраля" —> "двадцать второе февраля"
источник

DK

Daniel Kornev in Natural Language Processing
Всем привет!

Мы начинаем наш ежемесячный DeepPavlov Community Call через 5 минут!

Ссылка:
https://us02web.zoom.us/j/82879341724?pwd=UUtFRHIzbVYxbGliLzJEc0VJL3hxZz09

Приходите! )
источник

KS

Konstantin Smith in Natural Language Processing
Ruslan Sabirov
Добрый вечер!
Можете посоветовать какую-нибудь либу для конвертации чисел из цифр в слова (на русском языке)?

"23 яблока" —> "двадцать три яблока"
"10-ый трамвай" —> "десятый трамвай"
"22е февраля" —> "двадцать второе февраля"
В Pullenti есть ряд функций для решения этой задачи. Например, для "23 яблока" можно Pullenti.Ner.Core.NumberHelper.GetNumberString(23, "яблоко") =  "двадцать три яблока". А функцией GetNumberAdjective можно преобразовать число в числительное в нужном роде и числе.
источник

SS

Sergey Saygushkin in Natural Language Processing
Всем привет!

Не очень понимаю, как в yargy написать правило, которое будет "зависимым" от другого правила.
Например, в грамматике стандартного AddressExtractor описано правило для определения индекса, но оно работает независимо от того, есть ли в строке какая-то другая часть адреса или нет.
Получается что, в строке УАЗ-390995 был найден индекс.
Хотелось бы парсить индекс только в том случае, если уже напарсили, например, город.

Также, хочется доработать текущую грамматику AddressExtractor, чтобы можно было разбирать подобные адреса: Пенза, Строителей, 90.
Т.е., если мы уже напарсили город, то следующий токен -- название улицы, если после него идет ADDR_VALUE rule.
INDEX = and_(
   INT, gte(100000),lte(999999)
).interpretation(
   Index.value
).interpretation(
   Index
)

ADDR_PART = or_(
   INDEX, COUNTRY, ..., KVARTIRA
).interpretation(
   AddrPart.value
).interpretation(
   AddrPart
)
источник

AO

Alex Orgish in Natural Language Processing
Можно попробовать сконвертировать pytorch модель в onnx. Onnx работает быстрее.
https://huggingface.co/transformers/serialization.html
https://pytorch.org/tutorials/advanced/super_resolution_with_onnxruntime.html
Onnx умеет и на cpu и на gpu, везде быстрее pytorch
А для bert у них еще оптимизация есть специальная в
https://pypi.org/project/onnxruntime-tools/
источник

AO

Alex Orgish in Natural Language Processing
Vladimir
Всем привет! Кто-то знает как наиболее эффективно делать предикты на CPU для BERT и PyTorch
Ответил выше про onnx. С первого раза в reply не попал
источник

NC

Nikolay Chudinov in Natural Language Processing
Natalia
а потом решили, что "нормальная" форма — это как в паспорте, да?
но в паспорт много чего можно записать
Вспомнилось, когда в загран фамилия написана правильно а в билете на самолёт с ошибкой. Обратился в Аэрофлот, там сказали что допускается до 3 опечаток в фамилии. Хорошо что у меня фамилия не Цой или Ким
источник

KL

Kir L in Natural Language Processing
@cointegrated Давид, спасибо за недавнюю ссылку на интересный подкаст, мотивирует.
Я обычно для этого слушаю Лекса Фридмана, но хочется чего-то именно по теме диалоговых технологий, чат-ботов и ассистентов. Не обязательно подкаст, можно какие-то блоги, сайты, то что Вы сами читаете, чтобы искать новые идеи, мысли и т.п. Посоветуйте! Спасибо! )
источник

V

Vladimir in Natural Language Processing
Alex Orgish
Ответил выше про onnx. С первого раза в reply не попал
Спасибо большое! Выглядит интерестно!
источник

DD

David Dale in Natural Language Processing
Kir L
@cointegrated Давид, спасибо за недавнюю ссылку на интересный подкаст, мотивирует.
Я обычно для этого слушаю Лекса Фридмана, но хочется чего-то именно по теме диалоговых технологий, чат-ботов и ассистентов. Не обязательно подкаст, можно какие-то блоги, сайты, то что Вы сами читаете, чтобы искать новые идеи, мысли и т.п. Посоветуйте! Спасибо! )
Из подкастов про диалоговые технологии мне нравится "Вы находитесь здесь",  ну и собственно "Неопознанный Искусственный Интеллект", где я поучаствовал.
А ещё если хочется идей, рекомендую VoiceLunch - еженедельный англоязычный зум-созвон на тему голосовых интерфейсов. На русском тоже скоро появится)
А если вообще за NLP, то очень рекомендую подписаться на рассылку Рудера.
источник

D

D in Natural Language Processing
Natalia
а вообще это опять же показывает сложность проблемы, потому что исторически у нас было имя Наталия как в святцах и его разговорный вариант Наталья, т.е. это не было двумя разными именами
Аналогично Евдокия ->Авдотья->Дуня.
источник

KL

Kir L in Natural Language Processing
@cointegrated спасибо!
источник

GF

Grigory Frantsuzov in Natural Language Processing
David Dale
Из подкастов про диалоговые технологии мне нравится "Вы находитесь здесь",  ну и собственно "Неопознанный Искусственный Интеллект", где я поучаствовал.
А ещё если хочется идей, рекомендую VoiceLunch - еженедельный англоязычный зум-созвон на тему голосовых интерфейсов. На русском тоже скоро появится)
А если вообще за NLP, то очень рекомендую подписаться на рассылку Рудера.
Спасибо! Отличная подборка!
источник

N

Natalia in Natural Language Processing
про NLP ещё вот этот: https://m.soundcloud.com/nlp-highlights
источник