Size: a a a

Natural Language Processing

2019 October 03

K

Kir in Natural Language Processing
я следил за каналом spacyru в слаке одс и видел, что задача с ner очень долго и тяжело заводилась
источник

K

Kir in Natural Language Processing
сейчас там давно не был, может быть энтузиасты из того канала добили нер, а заказчик просто воспользовался этим?
источник

DV

Dima Veselov in Natural Language Processing
Kir
привет
Кто в теме функционала entity recognition @ spacy?
не именованных, а вообще любых, например, ну нам надо извлекать все то, что похоже на детали автомобиля. или это тоже считается ner?
если я правильно следил за развитием spacy, русского функционала в этой части пока нет.
Но я могу ошибаться, путая теплое с мягким.
Наш подрядчик утверждает, что за 2 недели создал ER на spacy для русского. Это может быть правдой?
Привет, не могу сказать за spacy, но была похожая задача - за две недели вполне реально, даже если самому размечать данные. Задача была связана с объявлениями по недвижке, много классов которые пересекаются (например, жилая площадь и площадь кухни)  - использовал anago, получилось очень неплохо на ~2000 размеченных сообщениях.
источник

D(

David (ddale) Dale in Natural Language Processing
Kir
привет
Кто в теме функционала entity recognition @ spacy?
не именованных, а вообще любых, например, ну нам надо извлекать все то, что похоже на детали автомобиля. или это тоже считается ner?
если я правильно следил за развитием spacy, русского функционала в этой части пока нет.
Но я могу ошибаться, путая теплое с мягким.
Наш подрядчик утверждает, что за 2 недели создал ER на spacy для русского. Это может быть правдой?
Я сам нечто ner-о-подобное обучал, тоже на паре тыщ примеров. Получилось приемлемо.
Это была bilstm, предсказывающая iob-разметку, поверх предобученных словных эмбеддингов; никакого специального nlp-шного фреймворка не использовал.
Поверх контекстных эмбеддингов (elmo/bert/name it) должно работать ещё лучше. В доке deeppavlov утверждают, что поверх языковой модели NER с 10 примеров заводится.
источник

w

wisam in Natural Language Processing
I want to know what's the difference between text mining and Natural language processing
источник

V

V in Natural Language Processing
задаю возможно слегка дурацкий вопрос (наверняка в чате это кучу раз обсуждалось). какие синтаксические анализаторы русскоязычных текстов сейчас популярны и дают хороший результат? стоит ли использовать syntaxnet, который гуглом уже и не поддерживается особо, или искать что-то другое?
источник

М

Михаил in Natural Language Processing
Поддерживаю и развиваю вопрос: кто-нибудь проводил сравнение всех вариантов: deeppavlov,  yandex.томита парсер, syntaxnet от isanlp, etc... с целью установить, который из них является sota для русского языка с точки зрения pos-tagging и syntax dependency tree?
источник

YB

Yuri Baburov in Natural Language Processing
Kir
привет
Кто в теме функционала entity recognition @ spacy?
не именованных, а вообще любых, например, ну нам надо извлекать все то, что похоже на детали автомобиля. или это тоже считается ner?
если я правильно следил за развитием spacy, русского функционала в этой части пока нет.
Но я могу ошибаться, путая теплое с мягким.
Наш подрядчик утверждает, что за 2 недели создал ER на spacy для русского. Это может быть правдой?
Да, абсолютно реально. Вот пример, за день при наличии датасета человек сделал свой ner-классификатор: https://kelijah.livejournal.com/259705.html
источник

K

Kir in Natural Language Processing
понял, ок, спасибо!
источник

YB

Yuri Baburov in Natural Language Processing
Михаил
Поддерживаю и развиваю вопрос: кто-нибудь проводил сравнение всех вариантов: deeppavlov,  yandex.томита парсер, syntaxnet от isanlp, etc... с целью установить, который из них является sota для русского языка с точки зрения pos-tagging и syntax dependency tree?
Пока что современного сравнения нет, но какие-то простенькие сравнения периодически бывают, например, Денис делал.
Стоит иметь в виду, что Bert даёт обычно лучшее качество и незаменим при небольшом числе примеров, но при этом жрёт в 10 раз больше времени, чем некоторые другие решения. Поэтому он не всегда применим.
источник

OS

Oleg Serikov in Natural Language Processing
Михаил
Поддерживаю и развиваю вопрос: кто-нибудь проводил сравнение всех вариантов: deeppavlov,  yandex.томита парсер, syntaxnet от isanlp, etc... с целью установить, который из них является sota для русского языка с точки зрения pos-tagging и syntax dependency tree?
я сравнивал внутри анализа существительных (ну и соотв их тегирования в тексте тоже)
там предсказуемо sota стал rnnmorph, вторым шол deeppavlov с небольшим отрывом
источник

w

wisam in Natural Language Processing
Please
источник

w

wisam in Natural Language Processing
I want to know what's the difference between text mining and Natural language processing
источник

DK

Denis Kirjanov in Natural Language Processing
Михаил
Поддерживаю и развиваю вопрос: кто-нибудь проводил сравнение всех вариантов: deeppavlov,  yandex.томита парсер, syntaxnet от isanlp, etc... с целью установить, который из них является sota для русского языка с точки зрения pos-tagging и syntax dependency tree?
У томиты и диппавлова синтаксиса нет
Вообще я голосую за удпайп
Слегка устаревшая статья — вот:
https://m.habr.com/company/sberbank/blog/418701/
источник

K

Kir in Natural Language Processing
wisam
I want to know what's the difference between text mining and Natural language processing
you can mine some data from text using NLP
theres a big article on TM at Wiki, try it!
источник

D(

David (ddale) Dale in Natural Language Processing
Всем доброго вечера!
Так получилось, что я 19 октября организую в московском офисе Яндекса тусу под названием Боткэмп.
Её основная задача - собраться вместе и покодить навыки для Алисы, чатботов, и прочие диалоговые поделки.
А вторая важная задача - поделиться знаниями в этой области. И я ищу спикеров.
Если вы готовы сделать рассказ минут на 20 на какую-нибудь NLP'шную тему, касающуюся диалогов (классификация интентов, выделение слотов в диалоге, кластеризация запросов из логов, генерация разнообразных ответов, и т.п.), пожалуйста, напишите мне в личку или сразу чат Боткэмпа @botcamp2019.  С нас - душевная атмосфера, благодарная аудитория, и интересные другие спикеры.
И да пребудет с вами  с̶и̶л̶а̶  низкая перплексия 🤗
источник

SZ

Sergey Zakharov in Natural Language Processing
David (ddale) Dale
Всем доброго вечера!
Так получилось, что я 19 октября организую в московском офисе Яндекса тусу под названием Боткэмп.
Её основная задача - собраться вместе и покодить навыки для Алисы, чатботов, и прочие диалоговые поделки.
А вторая важная задача - поделиться знаниями в этой области. И я ищу спикеров.
Если вы готовы сделать рассказ минут на 20 на какую-нибудь NLP'шную тему, касающуюся диалогов (классификация интентов, выделение слотов в диалоге, кластеризация запросов из логов, генерация разнообразных ответов, и т.п.), пожалуйста, напишите мне в личку или сразу чат Боткэмпа @botcamp2019.  С нас - душевная атмосфера, благодарная аудитория, и интересные другие спикеры.
И да пребудет с вами  с̶и̶л̶а̶  низкая перплексия 🤗
Только спикеры приглашаются или слушатели тоже?
источник

D(

David (ddale) Dale in Natural Language Processing
Sergey Zakharov
Только спикеры приглашаются или слушатели тоже?
Спикеры в приоритете 😄
Но и слушатели тоже, особенно если вы придёте не просто так, а со своим диалоговым pet project'ом или готовностью примкнуть к чужому)
источник
2019 October 04

QQ

Qwerty Qwerton in Natural Language Processing
Кто нибудь натыкался на анализ тональности текста на больше чем 3 эмоции? Чтобы там было всякое счасть, грусть и прочее? Не могу найти для русского такое
источник

YB

Yuri Baburov in Natural Language Processing
Qwerty Qwerton
Кто нибудь натыкался на анализ тональности текста на больше чем 3 эмоции? Чтобы там было всякое счасть, грусть и прочее? Не могу найти для русского такое
Есть датасет со смайлами из твиттера
источник