Size: a a a

NLP_RU - Natural Language Processing & Text Mining

2021 April 15

D•

Dan • Captain in NLP_RU - Natural Language Processing & Text Mining
Переслано от Alexey Zholobov
Налоговая перекатилась с КЛАДРа на ФИАС и официально выкладывает его в виде БД: https://fias.nalog.ru/Updates
источник
2021 April 18

D

Dima in NLP_RU - Natural Language Processing & Text Mining
Здравствуйте коллеги
источник

D

Dima in NLP_RU - Natural Language Processing & Text Mining
Насколько корректно набор стемов слова и его синоннимов назвать лексемой?
источник

A

Anastasia in NLP_RU - Natural Language Processing & Text Mining
В лексему можно набор основ только одного слова, так что кластер синонимов / основы из кластера синонимов.
источник
2021 April 21

NK

ID:0 in NLP_RU - Natural Language Processing & Text Mining
Как создавать навыки для виртуальных ассистентов Салют и получить за это 2 500 000 рублей?

⏰28 апреля| 18:00 Онлайн-митап от SberDevices
Обсудим темы:
📌 Каким UX-принципам следовать, чтобы создавать полезные и понятные продукты?
📌 Какие возможности для разработчиков смартапов открывает SaluteJS?
📌 Как упростить проектирование внешнего вида смартапов с помощью дизайн-системы Plasma?
📌 Как улучшить клиентский опыт с помощью инструментов SmartServices?
📌 Как портировать готовые навыки для других ассистентов в экосистему Салют?
📌 Зачем и как использовать видео с цифровыми аватарами в смартапах?
Знаниями в области создания приложений для виртуальных ассистентов поделятся ведущие специалисты SberDevices и аккредитованные партнеры, а также про свой независимый опыт разработки смартапа расскажет победитель первого этапа конкурса разработчиков SmartMarket.
Подключайся к митапу и узнай все о создании смартапов. Участие бесплатное. Регистрация по ссылке: https://clck.ru/UQT9N
источник
2021 April 28

N

Nikolay in NLP_RU - Natural Language Processing & Text Mining
А видео ни у кого не осталось, а то попасть не получилось :(
источник

D•

Dan • Captain in NLP_RU - Natural Language Processing & Text Mining
@cointegrated вы записывали встречу?
источник
2021 April 29

M

Mikhail in NLP_RU - Natural Language Processing & Text Mining
Нашёл сокровище на Reddit

Один коллекционер сценариев складывал всё, что находил, в одну папку. Так получился архив, в котором больше 800 (!) сценариев общим весом 1 Гб. Делюсь: https://disk.yandex.ru/d/r_OrUSVUY9gG9A

Просто огромная #СценарнаяПолка
источник
2021 May 27

NK

ID:0 in NLP_RU - Natural Language Processing & Text Mining
Объявляем Weekend Offer для тех, чей конёк — работа с данными!

Weekend Offer
— шанс получить оффер в X5 Group, под крылом которых все «Пятёрочки», «Перекрёстки», «Карусели» и «Чижики» страны.
Это 34 продукта, 123 проекта, 324 IT-системы на поддержке — а ещё миллионы людей, на опыт которых вы будете влиять каждый день.

Схема такая: отправьте заявку → пройдите 2 коротких интервью → оффер.

Отправьте заявку до 4 июня, а лучше — прямо сейчас ↩️
источник
2021 June 03

M

MRL in NLP_RU - Natural Language Processing & Text Mining
Ребят подскажите пож.
Есть датафрейм в котором 2 колонки из слов. В 1 колонке слова относящиеся к машине (ее цвет, характеристики, цена за обслуживание и т.д). Во 2 колонке запрос покупателя, какую именно машину он ищет (не обязательно по параметрам перечисленным из колонки 1), например "она должна быть красивой, быстрой, не дорогой).


Требуется заполнить колонку 3 с % который означает на сколько колонка 1 подходит колонке 2.

Какой алгоритм использовать и на какие этапы разделить задачу, чтобы приблизительно оценить тематику слов и сопоставить на сколько % описание машины из колонки 1 подходят под вариант поиска машины из колонки 2?
источник
2021 June 04

СИ

Сергей Ильин... in NLP_RU - Natural Language Processing & Text Mining
Эммм. Пусть коллеги поправят.

Бейзлайн:
1/ токенизируем каждую из колонок
2/ чистим от стоп-слов
3/ строим эмбеддинги над словами (w2v)
4/ считаем косинусные расстояния между векторами

Посильнее:
3/ строим эмбеддинги не над словами, а над предложениями
(d2v)
4/ те же косинусные расстояния

Ещё немного посильнее:

трансформеры / берт
источник

E

Elena in NLP_RU - Natural Language Processing & Text Mining
мне кажется, тут не хватает собственно критерия, что значит "подходит"? это значит, что покупатель уже купил такую машину?
источник

СИ

Сергей Ильин... in NLP_RU - Natural Language Processing & Text Mining
Видимо, колонка 1 - машина, колонка 2 - то, что предложила рекомендательная система. Ну и надо посчитать, не ерунду ли она предложила. Но пусть автор поправит.
источник

E

Elena in NLP_RU - Natural Language Processing & Text Mining
ну так вот, как понять, ерунда это или нет? должен быть критерий. например, переход по ссылке, или покупка, или какие там еще есть метрики
источник

СИ

Сергей Ильин... in NLP_RU - Natural Language Processing & Text Mining
Ну это уже «с учителем».
По тому, как описана задача, кажется, что это без учителя. Нет? В общем, автора ждём.
источник

E

Elena in NLP_RU - Natural Language Processing & Text Mining
в идеале так вообще надо руками аннотации делать и на этом обучать модель
источник

E

Elena in NLP_RU - Natural Language Processing & Text Mining
например, предложенный бейслайн с векторами ничего нам не даст в этой ситуации. Он будет сравнивать семантику фраз, а не дополнительные смыслы
источник

СИ

Сергей Ильин... in NLP_RU - Natural Language Processing & Text Mining
Да, именно. Поэтому я и говорю, что он именно как некая линия отсчёта, от которой модель будет только усложняться и делаться более точной. Ну или я не правильно понимаю слово «бейзлайн»
источник

E

Elena in NLP_RU - Natural Language Processing & Text Mining
бейслайн нужно оценивать
источник

E

Elena in NLP_RU - Natural Language Processing & Text Mining
для оценки нужны критерии
источник