Телеграмм чат группы natural_language_processing страница 591

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Natural Language Processing

1357 membersпожаловаться на группу

2020 February 13

D(

David (ddale) Dale in Natural Language Processing

Alexander Kukushkin

Угу, принимается. Мне просто не приходится работать с опечатками. В fasttext напрягает то, что там близкими оказываются слова похожие по морфологии. Например, для "желтый" я ожидаю в похожих увидеть "синий", "красный", а получаю что-то типа "желтым", "желто", "желтеть". Вроде как идея, что fasttext будет использовать морфологию только когда слово редкое, например, с опечаткой, а получается, что всё сводится к поиску по н-граммам. Тогда вопрос зачем fasttext, давайте явно делать какой-нибудь char-cnn

В ft близкими оказываются слова, близкие и семантически, и морфологически - вперемешку (пропорции, возможно, зависят от ширины окна и других параметров обучения).
Если однокоренные слова не нужны, их можно из соседей стеммером отфильтровать. Или, скажем, оставить только слова с такими же морфологическими характеристиками, как и у запроса.
В общем, эта проблема, во-первых, излечимая (с помощью костылей, но всё же).
А во-вторых, она и другим методам извлечения эмбеддингов присуща, просто ft от неё страдает больше остальных.
В общем, пока что лично меня ft всем устраивает, кроме размера)

источник

17:18пожаловаться #1

V

Vlad in Natural Language Processing

а в bert есть такая проблема?

источник

17:19пожаловаться #2

D(

David (ddale) Dale in Natural Language Processing

а в bert есть такая проблема?

Для редких слов (которых нет в словаре и которые распадаются на subwords) в берте должно быть всё ещё хуже - у них нет единого эмбеддинга на слово.
А эмбеддинг bpe-токена отражает всё вперемешку - и его морфологическую роль, и семантику, и, возможно, синтаксическую роль слова, в которое он входит.

источник

17:22пожаловаться #3

V

Vlad in Natural Language Processing

Ничего себе. Я ещё не разбирался с ним, по этому интересен такой вопрос: в задачах классификации текста и извлечения сущностей лучше bert или fasttext использовать? В тестовых реализациях я использовал word2vec, но насколько я понимаю - он уже устарел

источник

17:23пожаловаться #4

D(

David (ddale) Dale in Natural Language Processing

Ничего себе. Я ещё не разбирался с ним, по этому интересен такой вопрос: в задачах классификации текста и извлечения сущностей лучше bert или fasttext использовать? В тестовых реализациях я использовал word2vec, но насколько я понимаю - он уже устарел

Для ner лучше берт, т.к. у него эмбеддинги контекстно-зависимые, и это может быть критично.
Для классификации - возможно, берт тоже лучше, но его тяжеловато файн-тюнить, и лично у меня не получилось из него выжать лучший перформанс на классификации (на русском языке), чем у cnn поверх ft-эмбеддингов.

источник

17:27пожаловаться #5

A

Alex in Natural Language Processing

Друзья, наверняка тут кто-то делает чат-боты)
ужасно неоднозначно, оффтопик или нет, простите
поделитесь опытом, как вы реализуете разухабистые сценарии, заранее известные?
конечный автомат с ифами?
какие-то еще варианты?
мы пробуем озвученный, но как-то некрасиво :(

я тоже какое то время мучился - нужно было написать предварительную диагностику как бы доктор спрашивает пациента - в итоге был написан странный гибрид где куски стандартных опросов на стэйт нашинах перемешивались с блоками диагностики - где вопросы задавалить не по сценарию и на выходе был болен/не болен

источник

17:29пожаловаться #6

A

Alex in Natural Language Processing

и дальше снова кусок стандартных разговоров на стэйт машине

источник

17:30пожаловаться #7

A

Alex in Natural Language Processing

ну и про dialog flow ты конечно знаешь…

источник

17:30пожаловаться #8

V

Vlad in Natural Language Processing

David (ddale) Dale

Для ner лучше берт, т.к. у него эмбеддинги контекстно-зависимые, и это может быть критично.
Для классификации - возможно, берт тоже лучше, но его тяжеловато файн-тюнить, и лично у меня не получилось из него выжать лучший перформанс на классификации (на русском языке), чем у cnn поверх ft-эмбеддингов.

понял, спасибо)

источник

17:31пожаловаться #9

A

Alex in Natural Language Processing

нет, мы похожую задачу начинали решать, потом у нас ее забрали.
пробовали разные NER подходы, начали с правил Ярги, т.к. было известно заранее что-то.
у нас была потребность извлекать оборудование и то, что с ним случилось.
насколько мне известно, далее ребята разметили все под spacy и с помощью него доставали оборудование и происшествия.

спасибо - буду думать над этими не полностью понятными словами ))

источник

17:31пожаловаться #10

2020 February 14

D

Dmitry in Natural Language Processing

Мы используем ft для классификации и близких по значению слов, синонимии. Вполне устраивает.

источник

03:29пожаловаться #11

Ю

Юра Незнанов in Natural Language Processing

Ребят. Подскажите годный способ выявления ключевых слов в тексте. Просто подсчет не канает. Нужно использовать нейронку (задание такое). Обучать по сути не на чем. Что делать? Нужно для каждого текста выделять 10 ключ слов. Тексты на русском. 3-20 страниц

источник

04:26пожаловаться #12

D

Dmitry in Natural Language Processing

LSA/LDA не пойдёт? Topic modelling

источник

04:46пожаловаться #13

NS

Nikolay Shmyrev in Natural Language Processing

Юра Незнанов

Ребят. Подскажите годный способ выявления ключевых слов в тексте. Просто подсчет не канает. Нужно использовать нейронку (задание такое). Обучать по сути не на чем. Что делать? Нужно для каждого текста выделять 10 ключ слов. Тексты на русском. 3-20 страниц

https://github.com/romovpa/habrahabr-dataset скачать, там для каждой статьи есть ключевики

romovpa/habrahabr-dataset

Dataset collected from popular Russian collective blog Habrahabr.ru - romovpa/habrahabr-dataset

источник

10:52пожаловаться #14

NK

Nikolay Karelin in Natural Language Processing

TextRank до сих пор хороший бейзлайн. Если нужно по коллекции текстов (т.е. чем оддин текст выделяется из всей коллекции - TF-IDF. Дальше - нейронки (NER, ...)

источник

11:50пожаловаться #15

ИС

Иван Стразов in Natural Language Processing

Добрый день. Подскажите, есть ли готовые решения (в либах) по определению эмоциональной окраски сообщений клиентов (язык - русский, неграмотный)? Или с чего стоит к этому подступиться?

источник

13:10пожаловаться #16

Г

Георгий in Natural Language Processing

Гуглить sentiment analysis

источник

13:13пожаловаться #17

Г

Георгий in Natural Language Processing

Самое простое решение tf-idf + какая-нибудь классификация.

источник

13:16пожаловаться #18

Г

Георгий in Natural Language Processing

Только разметка нужна будет на данных, но это скорее всего вручную сделать можно.

источник

13:17пожаловаться #19

Г

Георгий in Natural Language Processing

Есть датасеты с отзывами, но это не совсем то, я так понимаю.

источник

13:17пожаловаться #20