Телеграмм чат группы natural_language_processing страница 562

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Natural Language Processing

1279 membersпожаловаться на группу

2019 December 29

AB

Arcady Balandin in Natural Language Processing

Народ, ваше мнение- есть набор синонимов к ключевым словам, ну условно для фразы "мама мыла раму" к каждому слову есть словарь синонимов. Далее с помощью простого генератора я получаю набор предложений с подставкой и все ок. Проблема начинается с использованием предлогов, если фразы посложнее. Куда смотреть, если я хочу, чтобы алгоритм при генерации выбирал правильные предлоги? Пока в голову лезет только обучить какую-нибудь bilstm сетку для корректной подстановки. Или есть варианты получше?

Честно говоря меня ваша задача тоже интересует только для английского. И у меня нет набора синонимов. Я хочу просто от балды генерить
Я люблю яблоки
Ты любишь бананы
И.т.п.

источник

19:13пожаловаться #1

YB

Yuri Baburov in Natural Language Processing

был где-то маленький русский framenet

https://github.com/olesar/framebank

olesar/framebank

Russian FrameBank offline resources. Contribute to olesar/framebank development by creating an account on GitHub.

источник

19:13пожаловаться #2

AB

Arcady Balandin in Natural Language Processing

predicate argument structure (valency pattern)

Не знал про термин в скобках

источник

19:14пожаловаться #3

YB

Yuri Baburov in Natural Language Processing

Arcady Balandin

Если без нейронок то надо двигаться в сторону вычленения фреймов по типу FrameNet. Должна быть какая то база русских глаголов с отпечатком набора аргументов для каждого глагола. И сгруппированных по фреймам.

Типа А любит Б (винительный)
Б (дательный) нравится А (винительный)

ну а насчёт первого актанта — дополнения сказуемого — эта информация в морфологии есть, переходный/непереходный глагол

источник

19:15пожаловаться #4

AB

Arcady Balandin in Natural Language Processing

https://github.com/olesar/framebank

olesar/framebank

Russian FrameBank offline resources. Contribute to olesar/framebank development by creating an account on GitHub.

Фигасе 150 core roles. Филлмора кондратий хватит.

источник

19:16пожаловаться #5

YB

Yuri Baburov in Natural Language Processing

Arcady Balandin

predicate argument structure (valency pattern)

Не знал про термин в скобках

актанты / валентности / зависимые компоненты в синтаксическом графе. разные названия есть, да.
валентность — аналогия с атомом, актант — действующее лицо

источник

19:16пожаловаться #6

AB

Arcady Balandin in Natural Language Processing

Ещё в школах начнут такое преподавать. Типа 6 падежей устарели, вот вам core roles

источник

19:17пожаловаться #7

DK

Denis Kirjanov in Natural Language Processing

ну а насчёт первого актанта — дополнения сказуемого — эта информация в морфологии есть, переходный/непереходный глагол

только морфология тут ни при чем )

источник

19:17пожаловаться #8

YB

Yuri Baburov in Natural Language Processing

только морфология тут ни при чем )

я перепутал что-то?

источник

19:18пожаловаться #9

DK

Denis Kirjanov in Natural Language Processing

я перепутал что-то?

ну, переходность -- это синтаксическое свойство

источник

19:18пожаловаться #10

AB

Arcady Balandin in Natural Language Processing

Морфологический разбор сейчас наверное не нужен. Достаточно взять орфографический словарь целиком. Если лексикон не содержит новых слов

источник

19:19пожаловаться #11

YB

Yuri Baburov in Natural Language Processing

ну, переходность -- это синтаксическое свойство

да я согласен, я не спорю :)
http://opencorpora.org/dict.php?act=edit&id=33652 тег "tran"

opencorpora.org

OpenCorpora: открытый корпус русского языка

источник

19:19пожаловаться #12

YB

Yuri Baburov in Natural Language Processing

да я согласен, я не спорю :)
http://opencorpora.org/dict.php?act=edit&id=33652 тег "tran"

opencorpora.org

OpenCorpora: открытый корпус русского языка

и я правда не знаю, какое применение в морфологии находит это свойство, что его в морф словарь положили.

источник

19:20пожаловаться #13

DK

Denis Kirjanov in Natural Language Processing

никакого, дань традиции )

источник

19:23пожаловаться #14

ck

cnstntn kndrtv in Natural Language Processing

Видел модель на уже обученной модели сеткой генерит, на гитхабе, как раз для задачи аугментации данных. Что-то типа sent2vec гуглить

Спасибо

источник

21:30пожаловаться #15

ck

cnstntn kndrtv in Natural Language Processing

Видел модель на уже обученной модели сеткой генерит, на гитхабе, как раз для задачи аугментации данных. Что-то типа sent2vec гуглить

Извините, если глупый вопрос. А как мне sent2vec поможет генерировать, аугментировать предложения?

источник

21:36пожаловаться #16

2019 December 31

A

Alexander in Natural Language Processing

Ребят, у меня здесь NLP задача и я был бы очень благодарен если бы подсказал в каком направлении двигаться!

Есть значит у меня телефонные разговоры операторов с абонентами (речь уже преобразована в текст (английский), и уже произведена классификация того что говорит абонент, и то что говорит оператор). Задача выявить чем абонент разочарован, чтобы при последующим звонке того же абонента, оператор выдел на экране в чём разочарование состояло.

Сейчас все реализовано следующим образом: с помощью regular expressions ведётся поиск отрицательных слов, типа "разочарован", "зол", и т.д. Далее от каждого такого слова отчитывается десять слов в право и десять в лево (пунктуации в тексте нету, поэтому нельзя просто выбрать интересуемое предложение). Получаем кусок текста который потенциально несет negative sentiment. Если в одном разговоре таких слов много, то будет создано много кусков текста. Далее используется Vader из NLTK для скоринга каждого такого куска текста. Выбирается наиболее негативный кусок и он и показывается оператору, когда этот же абонент звонит в следующий раз.

Алгоритм не идеальный по многим причинам. Основная:

Vader приписывает значительный отрицательный скор, обрывкам теста, которые по сути являются набором бессвязных слов. Понятно что Vader не особо в этом виноват, так как такое качество исходного текста. К слову, я не могу повлиять на способ преобразования звука в текст :(

источник

19:28пожаловаться #17

A

Alexander in Natural Language Processing

Какие есть идеи на сегодняшний день:
1) Попробовать другие pre-trained модели (какие порекомендуете?).
2) Попробовать отследить где начинается предложение с негативным словом и где оно заканчивается (есть ли разработанные модели для этого?).
3) Модель которая бы говорила что-то вроде "этот кусок текста мусор и его оценивать не надо, его выкидываем".
4) Topic modeling. То есть все негативные куски текста классифицировать по топикам.
5) Выкинуть этап с regular expressions.
6) Сделать тестовые данные для модели, а не использовать pre-trained модель

источник

19:28пожаловаться #18

A

Alexander in Natural Language Processing

Если честно, то мне кажется 1) не получится реализовать адекватно.
Так как мусора в кусках текста на столько много, то реализовать 2) тоже будет проблематично.
3) - не решение проблемы на 100% и опять же вопрос как реализовывать.
4) - не знаю как реализовывать, но наверное это лучшее что можно было бы предложить. Оператор будет видеть не какой-то неструктурированный набор текста, а осмысленное словосочетание ("дорогие услуги", "неудобный сервис", и т.д.).
5) У меня сомнения на счёт этого. Regular expressions находят хотя бы негативные слова из тонны мусора, без этого мне кажется любой последующий алгоритм будет плохо работать. То что успел понять точно - выкидывание regular expressions ведёт к значительному замедлению расчётов.
6) Думаю это не повредит и например способ 4) не будет без этого работать. На это уйдут месяцы, и хорошо бы знать, что они были потрачены не зря и есть общая идея как улучшить результаты.

В общем, спасибо что дочитали до конца и я открыт к любым вашим идеям.

источник

19:29пожаловаться #19

NS

Nikolay Shmyrev in Natural Language Processing

Без анализа звука эта задача не решится.

источник

19:40пожаловаться #20