Size: a a a

Natural Language Processing

2021 May 24

Е

Егорка in Natural Language Processing
Добрый вечер. Не встречал кто-нибудь исследования применения композиций алгоритмов в разметке последовательностей ? Я имею ввиду не последовательный конвейер, типа: LSTM+CRF. А принятие решения на основе оценок нескольких моделей.
источник

K

Ksenia in Natural Language Processing
Model stacking погуглите
 
upd: простите, криво читаю — именно для этой задачи не похоже, что применяется
источник

FF

Futorio Franklin in Natural Language Processing
Будет вебинар по моделям второго уровня, возможно, то, что нужно https://karpov.courses/webinar?utm_source=gafarov&utm_medium=post&utm_campaign=webinar_may_gafarov&utm_content=anons
источник

K

Ksenia in Natural Language Processing
источник

Е

Егорка in Natural Language Processing
Да, я именно об этом. Большое спасибо.
источник
2021 May 25

А

Арсений in Natural Language Processing
Здравствуйте!

Интересует вопрос

Существует ли какой-либо открытый проект для менеджеринга разных библиотек для извлечения сущностей из текста?

Вот например, я хочу сгруппировать результаты работы StanfordNLP, и Tomita парсера

Хочу в результате указать, какие сущности имеют больший приоритет, или как-то объединять их.

И чтобы можно было бы задавать какие-то общие абстрактные правила для них обоих.

А еще желательно, чтобы можно было запускать их обоих в многопоточном режиме, то есть асинхронно.

Мне видится два варианта ответа:

Первый случай: такая библиотека для менеджеринга действительно есть. Тогда я был бы благодарен за ссылки, а также отзывы о их плюсах и минусах, краткое резюме по его использованию.

Второй случай:
Как вариант, можно использовать например следующую схему: в StanfordNLP добавить NLTK в качестве отдельного анализатора, и дальше использовать средства StanfordNLP для менеджеринга их обоих. Однако, в данном случае нету механизма разрешения приоритетов, то есть я не могу указать, чтобы сущности из StanfordNLP были большим приоритетом, а все остальные - меньшим, так как там не предусмотрено такого механизма.
Есть ли у вас опыт использования NLP библиотеки в качестве менеджера над несколькими разными библиотеками, и если есть, то скажите пожалуйста плюсы и минусы тех или иных

Вообще, было бы интересно посмотреть на реализацию подобного хотя-бы, чтобы понимать как лучше это организовывать

Спасибо за внимание
источник

Е

Егорка in Natural Language Processing
Мне все таки не очень понятно, что вы подразумеваете под "менеджерингом"
источник

AO

Alex Orgish in Natural Language Processing
Это не менеджеринг, а скорее ensemble / stacking. Фреймворков таких скорее всего, но идея не новая. Можно поискать что то типа emsemble nlp ner models
источник

Е

Егорка in Natural Language Processing
Тогда буквально в прошлом сообщении присылали статью с этой темой.
источник

СИ

Сергей Ильин... in Natural Language Processing
Может кто с NLP помочь?
Есть пара тысяч объектов, каждый из которых описывается своим текстом. Задача - разбить их на группы. Я понимаю, что задача решённая и не раз. Вопрос - как это делать правильно (в смысле - наиболее эффективно).

Правильно ли я понимаю, что мой путь по шагам примерно такой:

1/ токенизирую
2/ чищу от стоп-слов
3/?
Вот в третьем пункте уже проблема. TF-IDF? Word2vec? Или BERT? Я о том, получать ли эмбеддинги на предложениях или отдельно на словах? Как сейчас люди нормальные делают?
источник

K

Ksenia in Natural Language Processing
У вас уже есть примеры классов или надо без учителя выявить?
источник

СИ

Сергей Ильин... in Natural Language Processing
Идеально бы - без учителя, конечно. То есть, вытащить топики. (Напр., десяток ключевых слов). Потом уже сущностно посмотреть на них и самому проставить.
источник

K

Ksenia in Natural Language Processing
Topic modelling :)))
источник

A

Andrey in Natural Language Processing
есть даже такое на BERT
источник

K

Ksenia in Natural Language Processing
Я не помню, что там последнее хорошо работало, big artm кажется
источник

СИ

Сергей Ильин... in Natural Language Processing
Да, я понимаю. Я и спрашивал - как люди делают? Просто на каггле - куча разных решений.
источник

СИ

Сергей Ильин... in Natural Language Processing
Вот, кстати, о нем писали тоже
источник

K

Ksenia in Natural Language Processing
Сек
источник

AZ

Andrey Zakharov in Natural Language Processing
ну прежде, чем сразу делать какие-то решения, расскажите про сами данные? что за объекты, какие тексты ( длина, язык - один или несколько и тд)
источник

K

Ksenia in Natural Language Processing
вот тут соту можно посмотреть https://paperswithcode.com/task/topic-models
источник