Телеграмм чат группы natural_language_processing страница 1219

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Natural Language Processing

2759 membersпожаловаться на группу

2021 May 24

Е

Егорка in Natural Language Processing

Добрый вечер. Не встречал кто-нибудь исследования применения композиций алгоритмов в разметке последовательностей ? Я имею ввиду не последовательный конвейер, типа: LSTM+CRF. А принятие решения на основе оценок нескольких моделей.

источник

19:59пожаловаться #1

K

Ksenia in Natural Language Processing

Model stacking погуглите

upd: простите, криво читаю — именно для этой задачи не похоже, что применяется

источник

20:46пожаловаться #2

FF

Futorio Franklin in Natural Language Processing

Будет вебинар по моделям второго уровня, возможно, то, что нужно https://karpov.courses/webinar?utm_source=gafarov&utm_medium=post&utm_campaign=webinar_may_gafarov&utm_content=anons

Регистрация на вебинар

источник

20:47пожаловаться #3

K

Ksenia in Natural Language Processing

https://www.researchgate.net/publication/321016652_An_Ensemble_Algorithm_for_Sequential_Labelling_A_Case_Study_in_Chemical_Named_Entity_Recognition

источник

20:52пожаловаться #4

Е

Егорка in Natural Language Processing

Да, я именно об этом. Большое спасибо.

источник

20:55пожаловаться #5

2021 May 25

А

Арсений in Natural Language Processing

Здравствуйте!

Интересует вопрос

Существует ли какой-либо открытый проект для менеджеринга разных библиотек для извлечения сущностей из текста?

Вот например, я хочу сгруппировать результаты работы StanfordNLP, и Tomita парсера

Хочу в результате указать, какие сущности имеют больший приоритет, или как-то объединять их.

И чтобы можно было бы задавать какие-то общие абстрактные правила для них обоих.

А еще желательно, чтобы можно было запускать их обоих в многопоточном режиме, то есть асинхронно.

Мне видится два варианта ответа:

Первый случай: такая библиотека для менеджеринга действительно есть. Тогда я был бы благодарен за ссылки, а также отзывы о их плюсах и минусах, краткое резюме по его использованию.

Второй случай:
Как вариант, можно использовать например следующую схему: в StanfordNLP добавить NLTK в качестве отдельного анализатора, и дальше использовать средства StanfordNLP для менеджеринга их обоих. Однако, в данном случае нету механизма разрешения приоритетов, то есть я не могу указать, чтобы сущности из StanfordNLP были большим приоритетом, а все остальные - меньшим, так как там не предусмотрено такого механизма.
Есть ли у вас опыт использования NLP библиотеки в качестве менеджера над несколькими разными библиотеками, и если есть, то скажите пожалуйста плюсы и минусы тех или иных

Вообще, было бы интересно посмотреть на реализацию подобного хотя-бы, чтобы понимать как лучше это организовывать

Спасибо за внимание

источник

10:48пожаловаться #6

Е

Егорка in Natural Language Processing

Мне все таки не очень понятно, что вы подразумеваете под "менеджерингом"

источник

12:00пожаловаться #7

AO

Alex Orgish in Natural Language Processing

Это не менеджеринг, а скорее ensemble / stacking. Фреймворков таких скорее всего, но идея не новая. Можно поискать что то типа emsemble nlp ner models

источник

12:22пожаловаться #8

Е

Егорка in Natural Language Processing

Тогда буквально в прошлом сообщении присылали статью с этой темой.

источник

12:28пожаловаться #9

СИ

Сергей Ильин... in Natural Language Processing

Может кто с NLP помочь?
Есть пара тысяч объектов, каждый из которых описывается своим текстом. Задача - разбить их на группы. Я понимаю, что задача решённая и не раз. Вопрос - как это делать правильно (в смысле - наиболее эффективно).

Правильно ли я понимаю, что мой путь по шагам примерно такой:

1/ токенизирую
2/ чищу от стоп-слов
3/?
Вот в третьем пункте уже проблема. TF-IDF? Word2vec? Или BERT? Я о том, получать ли эмбеддинги на предложениях или отдельно на словах? Как сейчас люди нормальные делают?

источник

12:35пожаловаться #10

K

Ksenia in Natural Language Processing

У вас уже есть примеры классов или надо без учителя выявить?

источник

12:38пожаловаться #11

СИ

Сергей Ильин... in Natural Language Processing

Идеально бы - без учителя, конечно. То есть, вытащить топики. (Напр., десяток ключевых слов). Потом уже сущностно посмотреть на них и самому проставить.

источник

12:40пожаловаться #12

K

Ksenia in Natural Language Processing

Topic modelling :)))

источник

12:40пожаловаться #13

A

Andrey in Natural Language Processing

есть даже такое на BERT

источник

12:40пожаловаться #14

K

Ksenia in Natural Language Processing

Я не помню, что там последнее хорошо работало, big artm кажется

источник

12:41пожаловаться #15

СИ

Сергей Ильин... in Natural Language Processing

Да, я понимаю. Я и спрашивал - как люди делают? Просто на каггле - куча разных решений.

источник

12:41пожаловаться #16

СИ

Сергей Ильин... in Natural Language Processing

Вот, кстати, о нем писали тоже

источник

12:41пожаловаться #17

K

Ksenia in Natural Language Processing

Сек

источник

12:41пожаловаться #18

AZ

Andrey Zakharov in Natural Language Processing

ну прежде, чем сразу делать какие-то решения, расскажите про сами данные? что за объекты, какие тексты ( длина, язык - один или несколько и тд)

источник

12:42пожаловаться #19

K

Ksenia in Natural Language Processing

вот тут соту можно посмотреть https://paperswithcode.com/task/topic-models

Papers with Code - Topic Models

A topic model is a type of statistical model for discovering the abstract "topics" that occur in a collection of documents. Topic modeling is a frequently used text-mining tool for the discovery of hidden semantic structures in a text body.

источник

12:42пожаловаться #20