Size: a a a

Natural Language Processing

2019 November 05

SP

Sergey Parakhin in Natural Language Processing
я так понимаю ты имеешь ввиду кол-во сущностей в уже готовых моделях (например в spacy), ну в них не может быть все что тебе нужно для конкретно твоей задачи, для дополнительных сущностей ты обучаешь свои модельки
источник

Y

Yurii in Natural Language Processing
Sergey Parakhin
я так понимаю ты имеешь ввиду кол-во сущностей в уже готовых моделях (например в spacy), ну в них не может быть все что тебе нужно для конкретно твоей задачи, для дополнительных сущностей ты обучаешь свои модельки
Почему не может быть? Ну кроме долго и дорого?
источник

SP

Sergey Parakhin in Natural Language Processing
ну кроме долго/дорого (+ еще не все имеет смысл делать через ner иногда), еще
- как выше сказали - задач очень много - сущностей много, никто не может знать какие сущности будут в очередной задаче (но, если говорить про pre-trained модельки типа spacy - можно было бы больше распространненых сущностей добавить)
- на практике моделька обученная на одном корпусе, может очень плохо работать на твоем на тех же сущностях
- в разных задачах может быть разное понимание одной и той же сущности. Например в одной задаче может быть сущность "дата", а в другой задаче "дата_доставки" и "дата_отправления" которые тебе нужно уже получать сразу из ner модельки
источник

Y

Yurii in Natural Language Processing
Sergey Parakhin
ну кроме долго/дорого (+ еще не все имеет смысл делать через ner иногда), еще
- как выше сказали - задач очень много - сущностей много, никто не может знать какие сущности будут в очередной задаче (но, если говорить про pre-trained модельки типа spacy - можно было бы больше распространненых сущностей добавить)
- на практике моделька обученная на одном корпусе, может очень плохо работать на твоем на тех же сущностях
- в разных задачах может быть разное понимание одной и той же сущности. Например в одной задаче может быть сущность "дата", а в другой задаче "дата_доставки" и "дата_отправления" которые тебе нужно уже получать сразу из ner модельки
А дата доставки это не span? Создается ощущение некоего хаоса в nlp и каждый пишет свои велосипеды в тысячный раз под конкретную задачу. С таким подходом сильный ИИ не скоро будет.
источник

D(

David (ddale) Dale in Natural Language Processing
Yurii
А дата доставки это не span? Создается ощущение некоего хаоса в nlp и каждый пишет свои велосипеды в тысячный раз под конкретную задачу. С таким подходом сильный ИИ не скоро будет.
Да, хаос. Ты прав.
Но универсального извлекателя сущностей пока не изобрели)
И лучшие умы планеты в основном работают даже не над созданием универсального извлекателя (это пока нереально), а над созданием такой модельки, которую на очень небольшой выборке можно на любые сущности зафайнтюнить.
источник

Y

Yurii in Natural Language Processing
David (ddale) Dale
Да, хаос. Ты прав.
Но универсального извлекателя сущностей пока не изобрели)
И лучшие умы планеты в основном работают даже не над созданием универсального извлекателя (это пока нереально), а над созданием такой модельки, которую на очень небольшой выборке можно на любые сущности зафайнтюнить.
Ну да, сложно получить то над чем даже не работаешь. Да и все старания по пилению велосипедов объединить наверное тоже непросто.
источник

ES

Ekaterina Shchekina in Natural Language Processing
Привет!
Наткнулась на классный ридер (http://wit.istc.cnr.it/stlab-tools/fred/) с возможностью обработки текста на естественном языке.
Может кто-нибудь (совершенно случайно) знает о существовании хороших русских аналогов с тем же функционалом?
источник
2019 November 06

D

Dmitry in Natural Language Processing
Pullenti может граф строить примерно так для русских предложений
источник

D

Dmitry in Natural Language Processing
У них даже демка есть на сайте
источник

YB

Yuri Baburov in Natural Language Processing
Yurii
А дата доставки это не span? Создается ощущение некоего хаоса в nlp и каждый пишет свои велосипеды в тысячный раз под конкретную задачу. С таким подходом сильный ИИ не скоро будет.
Это в принципе проблема end2end подхода, когда мы решение файнтюним под задачу. Нейросети -- не модульные, потому что модульность снижает качество.
источник

YB

Yuri Baburov in Natural Language Processing
Yurii
Речь про все равианты, а не один. Похоже такого в spacy eng нету. В pymorphy2 есть считай по умолчанию, но видимо дело в различии русского и английского и авторы spacy этим не заморачивались.
Дело в том, что пайплайн в spacy немного не такой, как вы думаете.
Нейросеть умеет определять (предсказывать) наиболее правильный POS tag, он не берётся из списка возможных. Вероятности есть, но они закопаны внутри, в интерфейсе их нет
источник

YB

Yuri Baburov in Natural Language Processing
Vlad
Там есть отдельный класс Lemmatizer, но при этом нигде не упоминается, кто его дёргает. Или я не нашёл)
Лемматизация в spacy делается так:
Берётся слово, предсказывается POS тег и другие морфосинтаксические характеристики, после чего с помощью pymorphy2 предсказывается лемма для наиболее близкого к этим характеристикам варианта разбора.
источник
2019 November 07

AE

Anton Eryomin in Natural Language Processing
Коллеги добрый день, помогите разработать пайплайн решения.  Допустим есть куча текстов, пусть например это будут вакансии о работе, как бы ты стал решать задачу вида, автоматического создания токена по вакансии? т.е. допустим вакансия о работе повора, сканируем текст, и выплёываем токены/короткие вопросы - есть ли опыт варки супа? есть ли санитарная книжка ну итд?
источник

M

Maria in Natural Language Processing
Не совсем понятно использование слова токены, т.е. тут задача выделения аспектов связанных с той или иной специальностью или как?
источник

AZ

Andrey Zakharov in Natural Language Processing
насколько я понял, это нужно на основе резюме сгенерировать набор вопросов
источник

R

Roman in Natural Language Processing
В вакансии есть поля "Обязанности" и "Требования". Находим их и из каждого предложения формируем вопрос.
источник

AE

Anton Eryomin in Natural Language Processing
Andrey Zakharov
насколько я понял, это нужно на основе резюме сгенерировать набор вопросов
Да верно!
источник

AZ

Andrey Zakharov in Natural Language Processing
Anton Eryomin
Да верно!
да, как бейслайн можно вытащить сущности из вакансии  и на основе их создать шаблоны вопросов
источник

AE

Anton Eryomin in Natural Language Processing
Ну вот по алгоритмам, я делаю так.  Обучаю ворд2век, затем беру например обязанности, делю по предложениям каждо из них с помовщью w2v усредняю
источник

AE

Anton Eryomin in Natural Language Processing
потом к минсом нахожу кластера и уже для кластера создаю вопрос
источник