Телеграмм чат группы natural_language_processing страница 466

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Natural Language Processing

1279 membersпожаловаться на группу

2019 November 05

SP

Sergey Parakhin in Natural Language Processing

я так понимаю ты имеешь ввиду кол-во сущностей в уже готовых моделях (например в spacy), ну в них не может быть все что тебе нужно для конкретно твоей задачи, для дополнительных сущностей ты обучаешь свои модельки

источник

14:44пожаловаться #1

Y

Yurii in Natural Language Processing

Sergey Parakhin

я так понимаю ты имеешь ввиду кол-во сущностей в уже готовых моделях (например в spacy), ну в них не может быть все что тебе нужно для конкретно твоей задачи, для дополнительных сущностей ты обучаешь свои модельки

Почему не может быть? Ну кроме долго и дорого?

источник

14:44пожаловаться #2

SP

Sergey Parakhin in Natural Language Processing

ну кроме долго/дорого (+ еще не все имеет смысл делать через ner иногда), еще
- как выше сказали - задач очень много - сущностей много, никто не может знать какие сущности будут в очередной задаче (но, если говорить про pre-trained модельки типа spacy - можно было бы больше распространненых сущностей добавить)
- на практике моделька обученная на одном корпусе, может очень плохо работать на твоем на тех же сущностях
- в разных задачах может быть разное понимание одной и той же сущности. Например в одной задаче может быть сущность "дата", а в другой задаче "дата_доставки" и "дата_отправления" которые тебе нужно уже получать сразу из ner модельки

источник

14:50пожаловаться #3

Y

Yurii in Natural Language Processing

Sergey Parakhin

ну кроме долго/дорого (+ еще не все имеет смысл делать через ner иногда), еще
- как выше сказали - задач очень много - сущностей много, никто не может знать какие сущности будут в очередной задаче (но, если говорить про pre-trained модельки типа spacy - можно было бы больше распространненых сущностей добавить)
- на практике моделька обученная на одном корпусе, может очень плохо работать на твоем на тех же сущностях
- в разных задачах может быть разное понимание одной и той же сущности. Например в одной задаче может быть сущность "дата", а в другой задаче "дата_доставки" и "дата_отправления" которые тебе нужно уже получать сразу из ner модельки

А дата доставки это не span? Создается ощущение некоего хаоса в nlp и каждый пишет свои велосипеды в тысячный раз под конкретную задачу. С таким подходом сильный ИИ не скоро будет.

источник

14:56пожаловаться #4

D(

David (ddale) Dale in Natural Language Processing

Yurii

А дата доставки это не span? Создается ощущение некоего хаоса в nlp и каждый пишет свои велосипеды в тысячный раз под конкретную задачу. С таким подходом сильный ИИ не скоро будет.

Да, хаос. Ты прав.
Но универсального извлекателя сущностей пока не изобрели)
И лучшие умы планеты в основном работают даже не над созданием универсального извлекателя (это пока нереально), а над созданием такой модельки, которую на очень небольшой выборке можно на любые сущности зафайнтюнить.

источник

14:58пожаловаться #5

Y

Yurii in Natural Language Processing

David (ddale) Dale

Да, хаос. Ты прав.
Но универсального извлекателя сущностей пока не изобрели)
И лучшие умы планеты в основном работают даже не над созданием универсального извлекателя (это пока нереально), а над созданием такой модельки, которую на очень небольшой выборке можно на любые сущности зафайнтюнить.

Ну да, сложно получить то над чем даже не работаешь. Да и все старания по пилению велосипедов объединить наверное тоже непросто.

источник

15:02пожаловаться #6

ES

Ekaterina Shchekina in Natural Language Processing

Привет!
Наткнулась на классный ридер (http://wit.istc.cnr.it/stlab-tools/fred/) с возможностью обработки текста на естественном языке.
Может кто-нибудь (совершенно случайно) знает о существовании хороших русских аналогов с тем же функционалом?

источник

16:45пожаловаться #7

2019 November 06

D

Dmitry in Natural Language Processing

Pullenti может граф строить примерно так для русских предложений

источник

03:38пожаловаться #8

D

Dmitry in Natural Language Processing

У них даже демка есть на сайте

источник

03:39пожаловаться #9

YB

Yuri Baburov in Natural Language Processing

Yurii

А дата доставки это не span? Создается ощущение некоего хаоса в nlp и каждый пишет свои велосипеды в тысячный раз под конкретную задачу. С таким подходом сильный ИИ не скоро будет.

Это в принципе проблема end2end подхода, когда мы решение файнтюним под задачу. Нейросети -- не модульные, потому что модульность снижает качество.

источник

05:15пожаловаться #10

YB

Yuri Baburov in Natural Language Processing

Yurii

Речь про все равианты, а не один. Похоже такого в spacy eng нету. В pymorphy2 есть считай по умолчанию, но видимо дело в различии русского и английского и авторы spacy этим не заморачивались.

Дело в том, что пайплайн в spacy немного не такой, как вы думаете.
Нейросеть умеет определять (предсказывать) наиболее правильный POS tag, он не берётся из списка возможных. Вероятности есть, но они закопаны внутри, в интерфейсе их нет

источник

05:17пожаловаться #11

YB

Yuri Baburov in Natural Language Processing

Там есть отдельный класс Lemmatizer, но при этом нигде не упоминается, кто его дёргает. Или я не нашёл)

Лемматизация в spacy делается так:
Берётся слово, предсказывается POS тег и другие морфосинтаксические характеристики, после чего с помощью pymorphy2 предсказывается лемма для наиболее близкого к этим характеристикам варианта разбора.

источник

05:23пожаловаться #12

2019 November 07

AE

Anton Eryomin in Natural Language Processing

Коллеги добрый день, помогите разработать пайплайн решения. Допустим есть куча текстов, пусть например это будут вакансии о работе, как бы ты стал решать задачу вида, автоматического создания токена по вакансии? т.е. допустим вакансия о работе повора, сканируем текст, и выплёываем токены/короткие вопросы - есть ли опыт варки супа? есть ли санитарная книжка ну итд?

источник

16:27пожаловаться #13

M

Maria in Natural Language Processing

Не совсем понятно использование слова токены, т.е. тут задача выделения аспектов связанных с той или иной специальностью или как?

источник

16:38пожаловаться #14

AZ

Andrey Zakharov in Natural Language Processing

насколько я понял, это нужно на основе резюме сгенерировать набор вопросов

источник

16:39пожаловаться #15

R

Roman in Natural Language Processing

В вакансии есть поля "Обязанности" и "Требования". Находим их и из каждого предложения формируем вопрос.

источник

16:52пожаловаться #16

AE

Anton Eryomin in Natural Language Processing

Andrey Zakharov

насколько я понял, это нужно на основе резюме сгенерировать набор вопросов

Да верно!

источник

16:54пожаловаться #17

AZ

Andrey Zakharov in Natural Language Processing

Да верно!

да, как бейслайн можно вытащить сущности из вакансии и на основе их создать шаблоны вопросов

источник

16:56пожаловаться #18

AE

Anton Eryomin in Natural Language Processing

Ну вот по алгоритмам, я делаю так. Обучаю ворд2век, затем беру например обязанности, делю по предложениям каждо из них с помовщью w2v усредняю

источник

16:57пожаловаться #19

AE

Anton Eryomin in Natural Language Processing

потом к минсом нахожу кластера и уже для кластера создаю вопрос

источник

16:57пожаловаться #20