Телеграмм чат группы natural_language_processing страница 436

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Natural Language Processing

1279 membersпожаловаться на группу

2019 October 10

NC

Nikolay Chudinov in Natural Language Processing

изобретал свой велосипед в формате word segmentation. Скормил в него примерно 2,5млн слов на основе словарей русского языка. Все было хорошо, до момента очередного теста. На вход "гореотума" на выходе получил "горе о тума". Заглянул в словарь, там реально есть слово "тума". С учетом того, что я в настройках указал приоритет нахождения минимального числа слов, то у результата "горе о тума" будет приоритет выше чем "горе от ума" т.к. найдено 2 а не 3 вхождения. p.s. "тума", появилось в словаре после заливки в него списка населенных пунктов, и в данном случае это гео в России (( Это конечно частный случай, но думаю что таких "результатов", якобы корректных будет море... Как поступить?

источник

17:40пожаловаться #1

AY

Anastasia Yashch in Natural Language Processing

наверное, нужно усложнить приоритетность, дескать, есть устаревшие слова\собственные и другие, пусть они как-то понижают вес варианта...первое, что в голову пришло

источник

17:42пожаловаться #2

NC

Nikolay Chudinov in Natural Language Processing

Anastasia Yashch

наверное, нужно усложнить приоритетность, дескать, есть устаревшие слова\собственные и другие, пусть они как-то понижают вес варианта...первое, что в голову пришло

язык богатый и может быть масса фраз, комбинация слов в которых может порадовать. Я конечно думал, что можно слепить отдельную коллекцию устойчивых фраз и вырожений + Крылатые слова, но это будет частичное решение

источник

17:45пожаловаться #3

AZ

Andrey Zakharov in Natural Language Processing

Nikolay Chudinov

изобретал свой велосипед в формате word segmentation. Скормил в него примерно 2,5млн слов на основе словарей русского языка. Все было хорошо, до момента очередного теста. На вход "гореотума" на выходе получил "горе о тума". Заглянул в словарь, там реально есть слово "тума". С учетом того, что я в настройках указал приоритет нахождения минимального числа слов, то у результата "горе о тума" будет приоритет выше чем "горе от ума" т.к. найдено 2 а не 3 вхождения. p.s. "тума", появилось в словаре после заливки в него списка населенных пунктов, и в данном случае это гео в России (( Это конечно частный случай, но думаю что таких "результатов", якобы корректных будет море... Как поступить?

возможно стоит копнуть в сторону выражений - считать, горе от ума одним токеном, грубо говоря

источник

17:45пожаловаться #4

CT

Cookie Thief in Natural Language Processing

Мб взять большой корпус, посмотреть там частотность слов и от нее отталкиваться?

источник

17:46пожаловаться #5

NC

Nikolay Chudinov in Natural Language Processing

у меня "проект" под конкретную аудиторию, как правило это школьники. Пишут с ошибками, слитно и прочее... Вангую вариант "отумагоре" и это не спасет

источник

17:46пожаловаться #6

AY

Anastasia Yashch in Natural Language Processing

А в выражении "горе о тума", слово"тума" ведь имеет род какой-то, да? Т.е. правильно ли я понимаю, что если, например, думать о посёлке под названием "тума", то получится "думать о тумЕ"?) может быть, каким-то образом посмотреть на грамматику выражения, но если ошибки, то это, конечно, вряд ли поможет

источник

17:48пожаловаться #7

NC

Nikolay Chudinov in Natural Language Processing

как пример, посмотрел вариант как обработает запрос яндексспеллер - сравнил вот такой запрос "горе отума", получил "горе атум", что для яндекса не айс

источник

17:49пожаловаться #8

D(

David (ddale) Dale in Natural Language Processing

Nikolay Chudinov

изобретал свой велосипед в формате word segmentation. Скормил в него примерно 2,5млн слов на основе словарей русского языка. Все было хорошо, до момента очередного теста. На вход "гореотума" на выходе получил "горе о тума". Заглянул в словарь, там реально есть слово "тума". С учетом того, что я в настройках указал приоритет нахождения минимального числа слов, то у результата "горе о тума" будет приоритет выше чем "горе от ума" т.к. найдено 2 а не 3 вхождения. p.s. "тума", появилось в словаре после заливки в него списка населенных пунктов, и в данном случае это гео в России (( Это конечно частный случай, но думаю что таких "результатов", якобы корректных будет море... Как поступить?

Тебе точно нужно гипотезы ранжировать какой-нибудь языковой моделью; можно даже очень примитивной, но знающей, что "от ума" встречется чаще, чем "о тума".
Причём чаще по двум причинам: мало того, что Тума - редкое слово, так ещё и "о Тума" вряд ли скажут, а скажут "о Туме".

Я вот почти-сегментацию пробовал сделать на основе языковой модели на счётчиках буквенных n-gramm. И такое уже зашло: habr.com/ru/post/346578/ . А если модель нормальную сделать, знающую о словаре и о совместимости слов друг с другом, то точно всё будет хорошо.

источник

17:49пожаловаться #9

AY

Anastasia Yashch in Natural Language Processing

David (ddale) Dale

Тебе точно нужно гипотезы ранжировать какой-нибудь языковой моделью; можно даже очень примитивной, но знающей, что "от ума" встречется чаще, чем "о тума".
Причём чаще по двум причинам: мало того, что Тума - редкое слово, так ещё и "о Тума" вряд ли скажут, а скажут "о Туме".

Я вот почти-сегментацию пробовал сделать на основе языковой модели на счётчиках буквенных n-gramm. И такое уже зашло: habr.com/ru/post/346578/ . А если модель нормальную сделать, знающую о словаре и о совместимости слов друг с другом, то точно всё будет хорошо.

👍

источник

17:51пожаловаться #10

NC

Nikolay Chudinov in Natural Language Processing

где взять частотность слов?

источник

17:52пожаловаться #11

D(

David (ddale) Dale in Natural Language Processing

Nikolay Chudinov

где взять частотность слов?

В каком-нибудь большом корпусе, типа Тайги.
Плюс нужен какой-то костыль для слов, которых нет в словаре, но которые адекватно собираются из морфем (или просто n-грамм, как у меня).

источник

17:52пожаловаться #12

NC

Nikolay Chudinov in Natural Language Processing

как вариант, смотреть несколько результатов и в каждом из них складывать частоты слов, чтоб получить сумму = частота фразы. Далее сравнивать "частоты фраз", та что max будет результатом. Пока так я вижу...

источник

17:56пожаловаться #13

D(

David (ddale) Dale in Natural Language Processing

Nikolay Chudinov

как вариант, смотреть несколько результатов и в каждом из них складывать частоты слов, чтоб получить сумму = частота фразы. Далее сравнивать "частоты фраз", та что max будет результатом. Пока так я вижу...

Более правильный вариант - не сравнивать, а перемножать. И не абсолютные частоты, а доли (т.е. деленные на общее число слов в корпусе), возможно, как-нибудь сглаженные.
Почему это полезно: фраза, в которой все слова умеренно-частые, будет предпочтена фразе, где есть одно суперчастое слово, и одно несуществующ ее.
Почему это логично: получая вероятность фразы как произведение вероятностей слов, ты получаешь настоящую языковую модель - наивную (слова полагаются независимыми друг от друга), но таки обладающую всеми хорошими свойствами вероятностных моделей.

источник

18:00пожаловаться #14

NC

Nikolay Chudinov in Natural Language Processing

согласен

источник

18:01пожаловаться #15

I🍵

Iván 🍵 in Natural Language Processing

Nikolay Chudinov

согласен

А сама задача - проверка контрольных или чот такое?)

источник

18:02пожаловаться #16

NC

Nikolay Chudinov in Natural Language Processing

задача - понять что юзер хотел найти в большом книжном магазине

источник

18:03пожаловаться #17

I🍵

Iván 🍵 in Natural Language Processing

Nikolay Chudinov

задача - понять что юзер хотел найти в большом книжном магазине

а, сори

источник

18:04пожаловаться #18

VB

Vladimir Bougay in Natural Language Processing

Nikolay Chudinov

задача - понять что юзер хотел найти в большом книжном магазине

А точно сегментация нужна в принципе? Если задача найти книжку по названию, даже корявому, то может быть в разы эффективнее взять языковую модель, дообучить и сравнивать вектора запроса и книг

источник

18:19пожаловаться #19

АП

Алексей Пахомов in Natural Language Processing

В худшем случае можно искать по всем гипотезам

источник

18:21пожаловаться #20