Телеграмм чат группы natural_language_processing страница 1098

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Natural Language Processing

2549 membersпожаловаться на группу

2021 March 10

VR

Vladimir R in Natural Language Processing

Приветствую всех, интересует лучшее готовое (или ближайшее к таковому) открытое решение (hard baseline), которое можно быстро кастомизировать или собрать "from scratch" или из понятных готовых компонентов (USE + annoy/faiss) под набор довольно тривиальных в настоящее время задач:

1. Семантический поиск (поиск фразы/словосочетаний по смыслу внутри некого текста или набора текстов) - интересует момент не кодирования предложения целиком, а именно поиск "подсмысла" (как поиск подстроки в тексте)
2. Тематического моделирования (для задач FAQ - если он, скажем, содержит больше 10000 страниц) - т.е. что-то вроде древовидной структуры или диаграммы зависимостей
3. Выделения терминов и условий (суть задачи №2 из этого списка) и отображение терминов в предметной области (визуализация, что-то еще)
4. Построение модели предметной области (т.е. парсинг запросов к предметной области как условий поискового запроса, выделение таких условий)
5. Моделирование диалогов (понимать, как развивается дерево общения в данной ситуации относительно предметной области, скажем перемещение внимания с одной части корпуса текстов на другое, определение темы в настоящий момент и определение переключения темы)
6. Какие-то более продвинутые методики и люди, которые этим умеют заниматься (в личку)

Тут писал

источник

18:19пожаловаться #1

DD

David Dale in Natural Language Processing

Приветствую всех, интересует лучшее готовое (или ближайшее к таковому) открытое решение (hard baseline), которое можно быстро кастомизировать или собрать "from scratch" или из понятных готовых компонентов (USE + annoy/faiss) под набор довольно тривиальных в настоящее время задач:

1. Семантический поиск (поиск фразы/словосочетаний по смыслу внутри некого текста или набора текстов) - интересует момент не кодирования предложения целиком, а именно поиск "подсмысла" (как поиск подстроки в тексте)
2. Тематического моделирования (для задач FAQ - если он, скажем, содержит больше 10000 страниц) - т.е. что-то вроде древовидной структуры или диаграммы зависимостей
3. Выделения терминов и условий (суть задачи №2 из этого списка) и отображение терминов в предметной области (визуализация, что-то еще)
4. Построение модели предметной области (т.е. парсинг запросов к предметной области как условий поискового запроса, выделение таких условий)
5. Моделирование диалогов (понимать, как развивается дерево общения в данной ситуации относительно предметной области, скажем перемещение внимания с одной части корпуса текстов на другое, определение темы в настоящий момент и определение переключения темы)
6. Какие-то более продвинутые методики и люди, которые этим умеют заниматься (в личку)

У тебя не один вопрос, а пять, и поставлены некоторые из них довольно размыто, так что на них даже начинать отвечать стрёмно)

источник

18:20пожаловаться #2

A

Andrei in Natural Language Processing

Приветствую всех, интересует лучшее готовое (или ближайшее к таковому) открытое решение (hard baseline), которое можно быстро кастомизировать или собрать "from scratch" или из понятных готовых компонентов (USE + annoy/faiss) под набор довольно тривиальных в настоящее время задач:

1. Семантический поиск (поиск фразы/словосочетаний по смыслу внутри некого текста или набора текстов) - интересует момент не кодирования предложения целиком, а именно поиск "подсмысла" (как поиск подстроки в тексте)
2. Тематического моделирования (для задач FAQ - если он, скажем, содержит больше 10000 страниц) - т.е. что-то вроде древовидной структуры или диаграммы зависимостей
3. Выделения терминов и условий (суть задачи №2 из этого списка) и отображение терминов в предметной области (визуализация, что-то еще)
4. Построение модели предметной области (т.е. парсинг запросов к предметной области как условий поискового запроса, выделение таких условий)
5. Моделирование диалогов (понимать, как развивается дерево общения в данной ситуации относительно предметной области, скажем перемещение внимания с одной части корпуса текстов на другое, определение темы в настоящий момент и определение переключения темы)
6. Какие-то более продвинутые методики и люди, которые этим умеют заниматься (в личку)

первый вопрос тоже интересует, про "поиск фразы по смыслу внутри текста"

источник

18:22пожаловаться #3

VR

Vladimir R in Natural Language Processing

Да, т.е. найти кусок текста который содержит смысл, выраженный поисковой фразой

источник

18:23пожаловаться #4

НК

Николай Карпенко... in Natural Language Processing

Да, т.е. найти кусок текста который содержит смысл, выраженный поисковой фразой

Пример в студию

источник

18:59пожаловаться #5

VR

Vladimir R in Natural Language Processing

если рассматривать поисковую фразу как объект например, найти все тексты, где упоминается "президент России", т.е. это инфинитив, глагол или существительное

источник

19:02пожаловаться #6

VR

Vladimir R in Natural Language Processing

По идее что должно происходить, берем набор текстов и парсим содержимое через дерево зависимости, далее выделяем структуры в предложении, которые часто появляются зависимыми друг от друга, как сочетание "друг от друга"

источник

19:03пожаловаться #7

VR

Vladimir R in Natural Language Processing

далее проходим по этому дереву и собираем "островки существительных" и загоняем их через USE в базу на faiss

источник

19:04пожаловаться #8

VR

Vladimir R in Natural Language Processing

типа такого решения хочется

источник

19:04пожаловаться #9

DD

David Dale in Natural Language Processing

первый вопрос тоже интересует, про "поиск фразы по смыслу внутри текста"

Я это делаю так. Беру текст, разрезаю на предложения. Потом каждое предложение разбираю парсером зависимостей, полученное дерево разрезаю на кустики (правила разрезания придумал эвристически). Далее каждый кустик (который просто подстрока) прогоняю через fasttext и усредняю по словам. Полученный вектор заталкиваю в искалку соседей. Работает.

источник

19:05пожаловаться #10

DD

David Dale in Natural Language Processing

типа такого решения хочется

Мы с тобой описали одинаковое почти)
Я это кодил сам на коленке.

источник

19:06пожаловаться #11

VR

Vladimir R in Natural Language Processing

Ну да, я делаю так же и придумать ничего лучше не смог, и подумал может есть решение которое можно сразу поставить, а не делать его из мелких компонентов....

источник

19:07пожаловаться #12

DD

David Dale in Natural Language Processing

Ну да, я делаю так же и придумать ничего лучше не смог, и подумал может есть решение которое можно сразу поставить, а не делать его из мелких компонентов....

Давай наши с тобой объединим и заопенсорсим)

источник

19:07пожаловаться #13

VR

Vladimir R in Natural Language Processing

О, было бы круто, я бы заплатил за это даже =)

источник

19:08пожаловаться #14

A

Andrei in Natural Language Processing

Я это делаю так. Беру текст, разрезаю на предложения. Потом каждое предложение разбираю парсером зависимостей, полученное дерево разрезаю на кустики (правила разрезания придумал эвристически). Далее каждый кустик (который просто подстрока) прогоняю через fasttext и усредняю по словам. Полученный вектор заталкиваю в искалку соседей. Работает.

звучит топово

источник

19:18пожаловаться #15

DD

David Dale in Natural Language Processing

звучит топово

Ну такой вот примерно рецепт усредненный, потому что вариаций масса.

источник

19:28пожаловаться #16

A

Andrei in Natural Language Processing

Ну такой вот примерно рецепт усредненный, потому что вариаций масса.

ну да, и звучит как много к чему может подойти, как такое общее решение

про разрезание на основе парсера зависимостей неожиданно было

источник

19:34пожаловаться #17

Е

Егорка in Natural Language Processing

Добрый вечер. Не могли бы вы, пожалуйста, подсказать в следующей задаче:
Есть несколько моделей для поиска именованных сущностей (например, только организаций). Есть одни модели с наилучшей прецизиозностью, а другие с наилучшей полнотой.
Отсюда вопрос: можно ли получить лучший результат (F-мера), если каким-то способом ансамблировать две модели (например с наилучшими precision и recall) ? Быть может просто пересечь их результаты.
Есть какие-то исследования, статьи или просто практический опыт по проверке такой методики ?

Прошу прощения: я ещё раз спрошу о том же.
Может быть, кто делал подобное, сейчас увидит мой вопрос :)

источник

19:49пожаловаться #18

BS

Bogdan Salyp in Natural Language Processing

Ребят, кто-нибудь может пояснить, почему ещё нет t5 на русском? Для суммаризации хотя бы
Датасет С4 на русском есть, код для обучения прям по шагам описан
В чём подвох?

источник

20:16пожаловаться #19

DD

David Dale in Natural Language Processing

Ребят, кто-нибудь может пояснить, почему ещё нет t5 на русском? Для суммаризации хотя бы
Датасет С4 на русском есть, код для обучения прям по шагам описан
В чём подвох?

Есть mt5, в котором русский поддержан, работает нормально.

источник

20:18пожаловаться #20