Size: a a a

Natural Language Processing

2021 May 06

ПЧ

Призрачный Человек... in Natural Language Processing
Здравствуйте. Я знаю, что w2v модели можно использоваться для оценки того, насколько слова "близки" по смыслу, но тут у меня возникает вопрос: можно ли обученные w2v модели использоваться для того, что бы оценить, насколько "слово" соответствует смысле текста?
К примеру мы подаём на вход текст рассказывающий о джинсах, и подаём отдельно слово "брюки". В теории хотелось бы увидеть связь между словом "брюки" и текстом о джинсах, даже если в тексте не упоминается это слово, ведь речь всё равно идёт об одежде. Ну естественно что у слова "брюки" должна быть похожесть на текст выше, чем у слова "торт"
источник

AE

Arty Erokhin in Natural Language Processing
В реальности так делают иногда. Усредняют (или взвешенно усредняют, или производят иное преобразование) эмбеддинг предложения и посмотреть насколько далеко или близко он к эмбеддингу слова
источник

AE

Arty Erokhin in Natural Language Processing
Разные варианты, как можно "поиграть" с эмбеддингом - https://medium.com/analytics-vidhya/combining-word-embeddings-to-form-document-embeddings-9135a66ae0f
источник

ПЧ

Призрачный Человек... in Natural Language Processing
т.е. нужно ужать все вектора слов в предложении ужать до одного вектора, потом ужать все вектора предложений в один, а потом смотреть на косинусное расстояние между получившимся вектором текста и словом?
источник

AO

Alex Orgish in Natural Language Processing
Логичнее сравнить нужное слово/тему со всеми словами в тесте и посчитать сумму близких расстояний (допустим все  > 0.7, или вернюю 1/3 часть, чтобы учитывать длину текста). И выбрать отсечку, при  которой принимать гипотезу о похожести слова тексту.
источник

RS

Ruslan Sabirov in Natural Language Processing
Привет!
В обращении к человеку нужно грамотно расставить род у глаголов. В каких именно словах нужно изменить род не известно, дан просто голый текст. Можете посоветовать, в какую сторону копать?

Пример:
Дано: {NAME1}, добрый день! Меня зовут {NAME2}. Ты смог/смогла сделать задачу. Я сделал/сделала дополнительную инструкцию, вот ссылка
Задача: На основании NAME1, NAME2 нужно понять род глагола (муж/жен)

P.s: это для чат ботов
источник

N

Natalia in Natural Language Processing
имхо, лучше не пытаться, а давать оба варианта, ну или оставить и такую опцию тоже
источник

N

Natalia in Natural Language Processing
2021 год + омонимия и экзотические имена передают привет
источник

Eg

Elena gisly in Natural Language Processing
Перефразировать, типа "тебе удалось", "у меня получилось"?
источник

N

Natalia in Natural Language Processing
о, или вот так, отличная мысль
источник

VM

Victor Maslov in Natural Language Processing
это, возможно, половина решения

> Petrovich также позволяет определять пол по имени, фамилии, отчеству.

https://github.com/petrovich/petrovich-ruby
источник
2021 May 07

EU

Egor Urvanov in Natural Language Processing
Всем привет

Ранее @AlexeyLemeshevski делал анонс про наш митап. Завтра будет проходить ещё один. Заглядывайте.

Будет два доклада. Оба про сбор данных и оптимизацию парсинга

#анонс

Parsing Conf

До митапа осталось меньше суток

Митап про сбор данных

————————————
Дата: 7 мая (пятница)
Время: 20-00 по Москве
————————————

Детали: https://t.me/parsing_conf/138
Telegram
Parsing Conf
#анонс

Parsing Conf

Митап про сбор данных

————————————
Дата: 7 мая (пятинца)
Время: 20-00 по Москве
————————————

@fobscraft. "Микрооптимизации парсинга в промышленных масштабах"
Парсинг нужно делить на разные итерации задач, а именно, краулинг, временное хранение данных (очереди, кафка), обработка данных, запись данных, прокси, контейнеры. Объясню, почему я считаю важным разделение каждой задачи на отдельные этапы и как это все между собой связывать, как подбирать инструменты и языки под исполнения каждой задачи.

@Verz1Lka. "Как добывать данные когда их не хотят отдавать"
1. Почему так происходит? Сервис хочет отдавать данные только реальным пользователям. Что нам делать? Пытаться выглядеть как реальный пользователь.
2. Уровни симуляции пользователя: заголовки, IP, Сессии, Javascript, Сложные отпечатки (js fingerprint, network fingerprint).
3. Заголовки: порядок важен, регистр важен. Пробелы важны.
4. IP. Адреса Тора, плохие прокси, дата центр прокси, всё это можно проверить.
5. Сессии
6. Javascript.…
источник

OP

Olena Pastushok in Natural Language Processing
Всем привет! Не могли б ви подсказать какой математический апарт используется для библиотеки natasha?
источник

Е

Егорка in Natural Language Processing
Смотря про какую часть проекта вы говорите
источник

OP

Olena Pastushok in Natural Language Processing
slovnet ner та tomita-algfio
источник

V

Vic in Natural Language Processing
Подскажите, мы ИИ компания, написали статью про нашу разработку в сфере NLU (чатбот, но там хитрейшая фишка про методику генерации хорошего ответа моделями трансформер), есть расчеты, метрики, картинки векторов. Теперь думаем, в какой бы журнал опубликовать, есть мысль что это должна быть конфа Dialog, или какой-то крутой журнал рецензируемый в базе Скопус, чтобы нам пошли всякие плюшки в виде цитирования и тп. Что посоветуете? Где легче-быстрее опубликоваться?
источник

AW

Alex Wortega in Natural Language Processing
А на чем бота основали? Gpt? Bert?
источник

V

Vic in Natural Language Processing
давайте обсудим в лс, правда сразу скажу мы бесплатно не работаем)
источник

V

Vic in Natural Language Processing
понимаю, ну значит так) вы напишите, может у нас и нет того решения которое вам нужно)
источник

V

Vic in Natural Language Processing
Кстати, я тут запощу одну вещь, возможно ГАРФ заинтересован в рид компрехеншен задачах, это как раз наша тема. Но еще это тема AGI
источник