Телеграмм чат группы natural_language

2019 October 03

K

Kir in Natural Language Processing

я следил за каналом spacyru в слаке одс и видел, что задача с ner очень долго и тяжело заводилась

источник

14:07пожаловаться #1

K

Kir in Natural Language Processing

сейчас там давно не был, может быть энтузиасты из того канала добили нер, а заказчик просто воспользовался этим?

источник

14:07пожаловаться #2

DV

Dima Veselov in Natural Language Processing

Kir

привет
Кто в теме функционала entity recognition @ spacy?
не именованных, а вообще любых, например, ну нам надо извлекать все то, что похоже на детали автомобиля. или это тоже считается ner?
если я правильно следил за развитием spacy, русского функционала в этой части пока нет.
Но я могу ошибаться, путая теплое с мягким.
Наш подрядчик утверждает, что за 2 недели создал ER на spacy для русского. Это может быть правдой?

Привет, не могу сказать за spacy, но была похожая задача - за две недели вполне реально, даже если самому размечать данные. Задача была связана с объявлениями по недвижке, много классов которые пересекаются (например, жилая площадь и площадь кухни) - использовал anago, получилось очень неплохо на ~2000 размеченных сообщениях.

источник

14:22пожаловаться #3

D(

David (ddale) Dale in Natural Language Processing

Kir

привет
Кто в теме функционала entity recognition @ spacy?
не именованных, а вообще любых, например, ну нам надо извлекать все то, что похоже на детали автомобиля. или это тоже считается ner?
если я правильно следил за развитием spacy, русского функционала в этой части пока нет.
Но я могу ошибаться, путая теплое с мягким.
Наш подрядчик утверждает, что за 2 недели создал ER на spacy для русского. Это может быть правдой?

Я сам нечто ner-о-подобное обучал, тоже на паре тыщ примеров. Получилось приемлемо.
Это была bilstm, предсказывающая iob-разметку, поверх предобученных словных эмбеддингов; никакого специального nlp-шного фреймворка не использовал.
Поверх контекстных эмбеддингов (elmo/bert/name it) должно работать ещё лучше. В доке deeppavlov утверждают, что поверх языковой модели NER с 10 примеров заводится.

источник

14:28пожаловаться #4

w

wisam in Natural Language Processing

I want to know what's the difference between text mining and Natural language processing

источник

15:18пожаловаться #5

V

V in Natural Language Processing

задаю возможно слегка дурацкий вопрос (наверняка в чате это кучу раз обсуждалось). какие синтаксические анализаторы русскоязычных текстов сейчас популярны и дают хороший результат? стоит ли использовать syntaxnet, который гуглом уже и не поддерживается особо, или искать что-то другое?

источник

21:58пожаловаться #6

М

Михаил in Natural Language Processing

Поддерживаю и развиваю вопрос: кто-нибудь проводил сравнение всех вариантов: deeppavlov, yandex.томита парсер, syntaxnet от isanlp, etc... с целью установить, который из них является sota для русского языка с точки зрения pos-tagging и syntax dependency tree?

источник

22:04пожаловаться #7

YB

Yuri Baburov in Natural Language Processing

Kir

привет
Кто в теме функционала entity recognition @ spacy?
не именованных, а вообще любых, например, ну нам надо извлекать все то, что похоже на детали автомобиля. или это тоже считается ner?
если я правильно следил за развитием spacy, русского функционала в этой части пока нет.
Но я могу ошибаться, путая теплое с мягким.
Наш подрядчик утверждает, что за 2 недели создал ER на spacy для русского. Это может быть правдой?

Да, абсолютно реально. Вот пример, за день при наличии датасета человек сделал свой ner-классификатор: https://kelijah.livejournal.com/259705.html

Livejournal

RASA, spacy, русский язык и NER

После трех дней осады и борьбы, у меня заработала связка из текущей версии RASA и spacy (я взял готовые модели для русского языка , спасибо Юрию за помощь :) ). Кроме того, я сделал конвертор для своего NER датасета в формат для обучения Spacy NER. После пары часов получилось дообучить спейсовский…

источник

22:12пожаловаться #8

K

Kir in Natural Language Processing

понял, ок, спасибо!

источник

22:13пожаловаться #9

YB

Yuri Baburov in Natural Language Processing

Михаил

Поддерживаю и развиваю вопрос: кто-нибудь проводил сравнение всех вариантов: deeppavlov, yandex.томита парсер, syntaxnet от isanlp, etc... с целью установить, который из них является sota для русского языка с точки зрения pos-tagging и syntax dependency tree?

Пока что современного сравнения нет, но какие-то простенькие сравнения периодически бывают, например, Денис делал.
Стоит иметь в виду, что Bert даёт обычно лучшее качество и незаменим при небольшом числе примеров, но при этом жрёт в 10 раз больше времени, чем некоторые другие решения. Поэтому он не всегда применим.

источник

22:15пожаловаться #10

OS

Oleg Serikov in Natural Language Processing

Михаил

Поддерживаю и развиваю вопрос: кто-нибудь проводил сравнение всех вариантов: deeppavlov, yandex.томита парсер, syntaxnet от isanlp, etc... с целью установить, который из них является sota для русского языка с точки зрения pos-tagging и syntax dependency tree?

я сравнивал внутри анализа существительных (ну и соотв их тегирования в тексте тоже)
там предсказуемо sota стал rnnmorph, вторым шол deeppavlov с небольшим отрывом

источник

22:26пожаловаться #11

w

wisam in Natural Language Processing

Please

источник

22:31пожаловаться #12

w

wisam in Natural Language Processing

I want to know what's the difference between text mining and Natural language processing

источник

22:31пожаловаться #13

DK

Denis Kirjanov in Natural Language Processing

Михаил

Поддерживаю и развиваю вопрос: кто-нибудь проводил сравнение всех вариантов: deeppavlov, yandex.томита парсер, syntaxnet от isanlp, etc... с целью установить, который из них является sota для русского языка с точки зрения pos-tagging и syntax dependency tree?

У томиты и диппавлова синтаксиса нет
Вообще я голосую за удпайп
Слегка устаревшая статья — вот:
https://m.habr.com/company/sberbank/blog/418701/

Habr

Изучаем синтаксические парсеры для русского языка

Привет! Меня зовут Денис Кирьянов, я работаю в Сбербанке и занимаюсь проблемами обработки естественного языка (NLP). Однажды нам понадобилось выбрать синтаксичес...

источник

22:37пожаловаться #14

K

Kir in Natural Language Processing

wisam

I want to know what's the difference between text mining and Natural language processing

you can mine some data from text using NLP
theres a big article on TM at Wiki, try it!

источник

22:42пожаловаться #15

D(

David (ddale) Dale in Natural Language Processing

Всем доброго вечера!
Так получилось, что я 19 октября организую в московском офисе Яндекса тусу под названием Боткэмп.
Её основная задача - собраться вместе и покодить навыки для Алисы, чатботов, и прочие диалоговые поделки.
А вторая важная задача - поделиться знаниями в этой области. И я ищу спикеров.
Если вы готовы сделать рассказ минут на 20 на какую-нибудь NLP'шную тему, касающуюся диалогов (классификация интентов, выделение слотов в диалоге, кластеризация запросов из логов, генерация разнообразных ответов, и т.п.), пожалуйста, напишите мне в личку или сразу чат Боткэмпа @botcamp2019. С нас - душевная атмосфера, благодарная аудитория, и интересные другие спикеры.
И да пребудет с вами с̶и̶л̶а̶ низкая перплексия 🤗

источник

23:05пожаловаться #16

SZ

Sergey Zakharov in Natural Language Processing

David (ddale) Dale

Всем доброго вечера!
Так получилось, что я 19 октября организую в московском офисе Яндекса тусу под названием Боткэмп.
Её основная задача - собраться вместе и покодить навыки для Алисы, чатботов, и прочие диалоговые поделки.
А вторая важная задача - поделиться знаниями в этой области. И я ищу спикеров.
Если вы готовы сделать рассказ минут на 20 на какую-нибудь NLP'шную тему, касающуюся диалогов (классификация интентов, выделение слотов в диалоге, кластеризация запросов из логов, генерация разнообразных ответов, и т.п.), пожалуйста, напишите мне в личку или сразу чат Боткэмпа @botcamp2019. С нас - душевная атмосфера, благодарная аудитория, и интересные другие спикеры.
И да пребудет с вами с̶и̶л̶а̶ низкая перплексия 🤗

Только спикеры приглашаются или слушатели тоже?

источник

23:06пожаловаться #17

D(

David (ddale) Dale in Natural Language Processing

Sergey Zakharov

Только спикеры приглашаются или слушатели тоже?

Спикеры в приоритете 😄
Но и слушатели тоже, особенно если вы придёте не просто так, а со своим диалоговым pet project'ом или готовностью примкнуть к чужому)

источник

23:08пожаловаться #18

2019 October 04

QQ

Qwerty Qwerton in Natural Language Processing

Кто нибудь натыкался на анализ тональности текста на больше чем 3 эмоции? Чтобы там было всякое счасть, грусть и прочее? Не могу найти для русского такое

источник

14:28пожаловаться #19

YB

Yuri Baburov in Natural Language Processing

Qwerty Qwerton

Кто нибудь натыкался на анализ тональности текста на больше чем 3 эмоции? Чтобы там было всякое счасть, грусть и прочее? Не могу найти для русского такое

Есть датасет со смайлами из твиттера

источник

14:50пожаловаться #20