Size: a a a

Natural Language Processing

2021 March 02

AZ

Alexandra Zh in Natural Language Processing
Ребята, привет, сегодня был вебинар вот такой: https://us02web.zoom.us/webinar/register/1515989556145/WN_TqpWU9HpT8ukGC4PaWEPOw, у меня не получилось послушать, есть он в записи где-нибудь?
источник

NS

Nikolay V. Shmyrev in Natural Language Processing
будет скоро. Подпишитесь просто на канал https://www.youtube.com/channel/UCi8TSxLIp-hb8lnYpU7XUmw
источник

AZ

Alexandra Zh in Natural Language Processing
Nikolay V. Shmyrev
будет скоро. Подпишитесь просто на канал https://www.youtube.com/channel/UCi8TSxLIp-hb8lnYpU7XUmw
о, спасибо
источник

AK

Alexander Kukushkin in Natural Language Processing
Привет! Напоминаю, в четверг 4 марта я буду проводить мастер-класс по разработке навыков Алисы в Python
Регистрация: https://botcamp.timepad.ru/event/1561807

- Расскажу про общие принципы разработки навыков Алисы (и подобных ей ассистентов)
- Покажу, как написать с нуля, захостить и опубликовать свой навык (стоит заранее зарегистрироваться в cloud.yandex.ru)
- Поделюсь своим опытом организации кода и инфраструктуры навыка
- Покажу, как использовать в Алисе собственные ML модели, если вам это вдруг нужно
- Презентую свою питонячью библиотеку tgalice/dialogic

Мастер-класс будет бесплатный и пройдёт в zoom.
источник
2021 March 03

M

Mr in Natural Language Processing
Всем привет. Подскажите, пожалуйста, есть ли решения (кроме тех, что основаны на правилах) для связывания именованной сущности и её сокращенного именования, например, {ООО "Сорок два" (далее - Клиент)}. Вывод {ООО "Сорок два" : Клиент}
.
Чтобы в дальнейшем вытаскивать из документа информацию (сентимент и др.) в привязке к именованной сущности через её сокращенное имя.
источник

AC

Alexander C in Natural Language Processing
Вакансия НЛП Сбер https://t.me/sberlogajobs/37
Telegram
Sberloga Jobs
Lead Data Scientist Industrial NLP - Информационные технологии - разработка / ПАО Сбербанк
Локация: Москва город
Команда Industrial NLP в Sber.AI находится в поиске Data Scientistа, лидера команды, готового развивать экспертизу методов NLP и реализовывать проекты с их помощью. В задачи команды входит научная работа по развитию направления, а также прототипирование и внедрение в промышленное применение различных решений на основе NLP.Задачи, которые придется решать, позволят коснуться всех аспектов работы с языковыми моделями, включая ruGPT-3. Значимым аспектом работы также будет подготовка научных публикаций и выступления на конференциях, вплоть до крупнейших международных мероприятий.На данный момент мы ведем разработки по 2 направлениям: цифровые ассистенты руководителя (различные модели суммаризации, анализа когнитивных искажений, генерация ответов на e-mails и проч.) и RnD в области PLP - Programming Language Processing - создание мультилингвальных трансформеров для перевода кода с одного языка программирования…
источник

В

Владислав in Natural Language Processing
Mr
Всем привет. Подскажите, пожалуйста, есть ли решения (кроме тех, что основаны на правилах) для связывания именованной сущности и её сокращенного именования, например, {ООО "Сорок два" (далее - Клиент)}. Вывод {ООО "Сорок два" : Клиент}
.
Чтобы в дальнейшем вытаскивать из документа информацию (сентимент и др.) в привязке к именованной сущности через её сокращенное имя.
Можно решить как задачу разрешения кореференций
источник

MS

Maxym Shyrchenko in Natural Language Processing
Добрый день.
Натолкните куда копать.
Нужно поменять спецсимвол в слове на его аналог в русском языке. Например г🅟🅐🅜🅜 нужно преобрпзовать в грамм.
источник

E

Elena in Natural Language Processing
а известны все спецсимволы? или они каждый раз новые?
источник

E

Elena in Natural Language Processing
я бы сделала обычную замену регексом по коду UTF
источник

E

Elena in Natural Language Processing
но это если известно, какие символы надо заменять
источник

MS

Maxym Shyrchenko in Natural Language Processing
Elena
а известны все спецсимволы? или они каждый раз новые?
Новые, в иделе нужно перекрыть все варианты
источник

A

Alex in Natural Language Processing
Maxym Shyrchenko
Добрый день.
Натолкните куда копать.
Нужно поменять спецсимвол в слове на его аналог в русском языке. Например г🅟🅐🅜🅜 нужно преобрпзовать в грамм.
Если самому делать - можно посмотреть в сторону названий юникодовских символов. Там зачастую есть название буквы
источник

AP

Arsen Plus in Natural Language Processing
Привет! А может кто-то подсказать, как получается вектор документа в русской модели в третьем SpaCy? На основе усреднения входящих в документ токенов?
источник

C

Constantin in Natural Language Processing
Добрый день. Если обучать NER multilingual для арабского, китайского и английского, то как лучше разбивать данные? Кажется, что по словам не получится, ведь там кажется в арабском и китайском слова немного в другом смысле, нежели чем в английском.

Пока рассматриваются варианты word, wordpiece, BPE ... Но последние не работает, т.к. там сложные иероглифы состоят из несколько байтов и все ломается если неправильно разбить.
источник

YB

Yuri Baburov in Natural Language Processing
Arsen Plus
Привет! А может кто-то подсказать, как получается вектор документа в русской модели в третьем SpaCy? На основе усреднения входящих в документ токенов?
Да. Векторов слов. Но вектора там бывают контекстуальные и неконтекстуальные. Причем неконтекстуальные кажется имеют преимущество... а вот если их нет, то используются контекстуальные. (Но контекстуальные вектора там достаточно простые)
источник

VM

Valentin Malykh in Natural Language Processing
Constantin
Добрый день. Если обучать NER multilingual для арабского, китайского и английского, то как лучше разбивать данные? Кажется, что по словам не получится, ведь там кажется в арабском и китайском слова немного в другом смысле, нежели чем в английском.

Пока рассматриваются варианты word, wordpiece, BPE ... Но последние не работает, т.к. там сложные иероглифы состоят из несколько байтов и все ломается если неправильно разбить.
токенизация для арабского должна работать стандартно по пробелу и пунктуации, а для китайского есть готовые токенизаторы
источник

C

Constantin in Natural Language Processing
Valentin Malykh
токенизация для арабского должна работать стандартно по пробелу и пунктуации, а для китайского есть готовые токенизаторы
Спасибо!
источник

AP

Arsen Plus in Natural Language Processing
Yuri Baburov
Да. Векторов слов. Но вектора там бывают контекстуальные и неконтекстуальные. Причем неконтекстуальные кажется имеют преимущество... а вот если их нет, то используются контекстуальные. (Но контекстуальные вектора там достаточно простые)
Спасибо!
источник

YB

Yuri Baburov in Natural Language Processing
Arsen Plus
Спасибо!
Да, и если включены трансформеры, вектора берутся оттуда (но нужно перепроверить)
источник