Size: a a a

Natural Language Processing

2021 April 15

DS

Daria Samsonova in Natural Language Processing
конкретно для глаголов  типа гладит
источник

DS

Daria Samsonova in Natural Language Processing
а в общем случае мы говорим про лексическую сочетаемость
источник

DS

Daria Samsonova in Natural Language Processing
ну слушайте вспомогательнах глаголов в английском штук 10, можно написать доп правило проверки, что если у нас 2 глагола в предложении на расстоянии 4 слова друг от друга и одно из них - вспомогательный глагол, то мы его не заменяем
источник

DS

Daria Samsonova in Natural Language Processing
лучше дажа еще добавить, что одно из них вспомогательный глагол, а второе глагол не в личной форме
источник

N

Natalia in Natural Language Processing
начнём с того, что я вообще не верю, что с русскими данными в итоге тоже не выходит никакого "бреда" :)
источник

N

Natalia in Natural Language Processing
потому что задача замены любого слова на любое тупо по форме — это ну как бы эээ
источник

DS

Daria Samsonova in Natural Language Processing
+++
источник

VM

Victor Maslov in Natural Language Processing
да, у меня есть два подобных костыля к mystem-у, правда, там не на расстоянии 4, а про ближайшего соседа справа, но хочется такого избегать
источник

VM

Victor Maslov in Natural Language Processing
"хотите верьте, хотите нет" )
источник

VM

Victor Maslov in Natural Language Processing
помимо упомянутых двух правил-костылей я дохардкодил только такую таблицу
родительный: %w{ без вблизи вместо внутри для до из из-за от после против ради с со среди у },
    дательный: %w{ благодаря к ко  по                                                         },
  винительный: %w{ в во за на о об по      под про спустя через                               },
 творительный: %w{      за между над перед под                                   с со         },
  предложеный: %w{ в во    на о об по при                                                     },
и еще список пар-исключений предлогов, которые один на другой лучше не заменять
источник

DD

David Dale in Natural Language Processing
А какая задача вообще решается с помощью всех этих костылей?
Если нужно заменять слова в предложении так, чтобы оно звучало естественно, я бы посоветовал masked language model использовать (типа BERT), они РОВНО на эту задачу и обучались, и выполняют её очень хорошо.
источник

DS

Daria Samsonova in Natural Language Processing
ну вы сказали, что вы не лингвист, вам 2 лингвиста говорят, что это невозможно, привели аргументы почему и предложили пути решения. Тэггера, который вам без костылей  решит вашу задачу так, чтобы еще и лексическая сочетаемость была в природе не существует
источник

DS

Daria Samsonova in Natural Language Processing
но существует BERT, да)
источник

VM

Victor Maslov in Natural Language Processing
@cointegrated
изначально идея была генерить новостные заголовки
из заголовков Ленты.ру получалось такое
В Украине раскрыли жизнь дней умеренного порно
Лидеры нашли длинную стену из лидеров
Увеличилось нельзя о неизвестном приглашении женщин от российских десятков водителей
Крым оценил НАТО \"девушкой\" и отказался уговаривать украинскую часть
Соловьева заявила свою производительность
Белоруссия направит Украине вопрос
Детских боссов защитят
Раскрыты высокооплачиваемые убытки специалистов при отдыхе
В России встретят лидеров в компании провал-дыр
В рекордной испанской попытке Сибири заподозрили дополнительного мэра
Страна назвала обстоятельства о смерти российской любовницы от величия
Сергей Путин умер вновь
Россия сменила кандидатов в Брунее
Российские автомобили объяснили четыре главные гибели
Гимн высказался об океане убийств над НАТО и Ираном
Назван персонаж в миллиардеры Украины от дикарей
Россия укусила катастрофическое дело в Китае
а с англ. не очень
источник

YN

Yulia Nazarova in Natural Language Processing
А где могут использоваться заголовки такого качества?
источник

DD

David Dale in Natural Language Processing
А для этой задачи идеально подходят генеративные модели типа GPT-2.
Я файнтюнил на заголовках с nplus1 маленькую gpt, и она довольно быстро начала генерировать реалистичные заголовки. Вот в этом боте можно поглядеть на примеры: @science_or_crap_bot
источник

VM

Victor Maslov in Natural Language Processing
нихачу нейросети _--
источник

YN

Yulia Nazarova in Natural Language Processing
Ну и я не вижу принципиальной разницы с примерами из английского - грамматически ок, выглядит странно
источник

VM

Victor Maslov in Natural Language Processing
хачу вилисапед _--
источник

YN

Yulia Nazarova in Natural Language Processing
Нейросеть победила меня в эту игру 🙈
источник