Телеграмм чат группы natural_language

Size: a a a

Natural Language Processing

1279 membersпожаловаться на группу

2019 November 14

Brenoritvrezorkre in Natural Language Processing

А что это за rnn такая, которая это выдаёт? Самодельная или чья-то с названием?

источник

06:12пожаловаться #1

Yuri Baburov in Natural Language Processing

Dmitry

А сено вот опять мне краткое мироточат отимальному тасолтановна куда то, но красота, простите меня и девасобака да, а наливаете без такой, то он к попонина краем утрода е. Пояс не на тот не надо, но ты сейчас находил, а тритилодонтов те касались. Потому сигурда придает то воланда кронам и совестно, а при водоскат. А там то третье. Я сейчас бартоломео девка. Не оникове там надо на потакании раската автокада угнетается, порождает адепт, кто сам весна и лето не собой. Но давайте лучше толком часовое только до анода поставит. Под нановолокно по сво много поверится однородна буква е со счете, потом её понимание и за сайт говори, сраспасибо. До свидания!

1) у них большой оверфит на стандартные слова. То есть, LM слишком агрессивная.
Я ещё удивлялся, почему они так хорошо простые фразы распознают, а потом взял фразу посложнее — и сразу получил неправильно распознанные слова.
2) проверьте обязательно формат, частоту, итп. — может вы как-то не так звук им отправляете.
// я собственно тоже тут хотел их проверить в моём сравнении, но ещё не добрался.

источник

08:11пожаловаться #2

Aragaer in Natural Language Processing

Brenoritvrezorkre

А что это за rnn такая, которая это выдаёт? Самодельная или чья-то с названием?

самодельная

источник

08:25пожаловаться #3

Sergey Zakharov in Natural Language Processing

Коллеги тестили Тинькова, по качеству было сопоставимо с Яндексом

источник

08:44пожаловаться #4

Dmitry in Natural Language Processing

Sergey Zakharov

Коллеги тестили Тинькова, по качеству было сопоставимо с Яндексом

Почему у меня получилась такая дребедень? И кстати я сейчас спросил у своих коллег стартаперов - они тоже сказали, что фигня вышла.

источник

08:45пожаловаться #5

Sergey Zakharov in Natural Language Processing

Хз. Возможно и правда как-то не так передаёте. Или домен специфический. Может нам с версией повезло просто. Вариантов куча

источник

08:46пожаловаться #6

Egor Urvanov in Natural Language Processing

Привет. Подскажите, как бороться с проблемой.
Использую TF-IDF (BM-25) для текста (эластик). Есть документы (каждый документ — отдельная строка). По ним происходит поиск.
Для поиска в es отправляется запрос в виде текстовой строки.
Проблема
Если я расширяю выборку за счёт добавления к каждому документу ещё одной строки примерно такой же длины, которая отличается по набору токенов, но релеватна исходной строке, то оказывается, что метрики падают. Это происходит, видимо, из-за того, что при вычислении скалярного произведения между запросом и каждым из документов, происходит "размазывание" важных токенов и, как следствие, ухудшение качества выдачи.

Особенность данных. В них очень много уникальных токенов: названия, характеристики и т.п. Я их называю дельта-функциями, поскольку в виде эмбеддингов (w2v, bert не пробовал) они плохо представляются и выражаются за счёт того, что в них мало семантики

Вопрос
• Понятна ли моя проблема?
• Есть ли стандартные подходы, которые позволят избежать этой проблемы? Сейчас у меня есть 2 варианта:
• предварительная редукция строки и уменьшение её длины.
• введение нескольких индексов (но это породит проблемы иного характера)

источник

09:43пожаловаться #7

Petr Ermakov in Natural Language Processing

Karen Avetisyan

Привет! Ребят, подскажите пожалуйста, какие модели можно использовать для обучения распознаванию парафраз в русском языке. Я тут пару статей вроде как с лучшими результатами для английского языка нашел, но никакого кода к ним прикреплённого нет. https://arxiv.org/pdf/1712.02820.pdf
https://pdfs.semanticscholar.org/f4f0/721d0eea03ed531f603d98cf7bb3b9ed72b9.pdf

paraphraser.ru
была дорожка на диалоге (кажется) вот сделали разметку и можно скачать корпус

источник

10:04пожаловаться #8

Brenoritvrezorkre in Natural Language Processing

Мне знакомый сказал, что для распознавания английской речи гугл недавно выпустил recorder.

источник

11:26пожаловаться #9

2019 November 15

Юрий in Natural Language Processing

https://habr.com/ru/post/475480/

Хабр

Что ты такое? Как мы spoof от human отличали — да еще и победили

Недавно прошел ID R&D Voice Antispoofing Challenge, главной задачей которого было создать алгоритм, способный отличить человеческий голос (human) от синтезирован...

источник

11:58пожаловаться #10

Sergey Zakharov in Natural Language Processing

Как сделать speech to text большого файла на несколько часов (например, аудиокниги) при помощи какой-нибудь готовой предобученной модели оупенсорсной? Придётся ли разбивать на куски и на какие? Или можно запихнуть большой файл и всё будет ок?

источник

12:41пожаловаться #11

Vlad in Natural Language Processing

Подскажите пожалуйста, как правильно называется задача корректировки текста от распознавания речи? Или сразу библиотеку, которая это делает)
Т.е. вот например вместо "да" asr выдал "дам", и похожие ситуации.
Похоже на корректировку опечаток, но не думаю, что это именно то, что надо

источник

23:17пожаловаться #12

2019 November 16

Brenoritvrezorkre in Natural Language Processing

Теперь другой вопрос. Есть ли где-нибудь полный список кванторов в английском языке? Every там, any, even (numbers of) и прочие. Заранее спасибо.

источник

13:26пожаловаться #13

I🍵

Iván 🍵 in Natural Language Processing

Brenoritvrezorkre

Может посмотреть латеховские функции и убрать \?
https://oeis.org/wiki/List_of_LaTeX_mathematical_symbols

источник

13:44пожаловаться #14

Brenoritvrezorkre in Natural Language Processing

Нет, мне нужны кванторы в естественном языке. Есть их формализации в обобщённых кванторах (которые не ограничиваются этим), но всё равно список кванторов в естественном языке желательно знать.

источник

13:46пожаловаться #15

Brenoritvrezorkre in Natural Language Processing

Тем более что в латехе и обобщённых кванторов (как и специальной нотации обычно вне латеха) нет, ты их сам строишь из существующих с добавлением верхних / нижних индексов, либо пишешь буквой, либо пишешь словом.

источник

13:48пожаловаться #16

I🍵

Iván 🍵 in Natural Language Processing

Brenoritvrezorkre

Что за обобщенные кванторы?

источник

13:49пожаловаться #17

Brenoritvrezorkre in Natural Language Processing

https://plato.stanford.edu/entries/generalized-quantifiers/

источник

13:50пожаловаться #18

Brenoritvrezorkre in Natural Language Processing

Кванторы существования, уникальности и всеобщности сами по себе (особенно классические, т.е. неплюральные) описывают очень мало способов квантификации, и в естественном языке их намного больше.

источник

13:53пожаловаться #19

Brenoritvrezorkre in Natural Language Processing

Например:

У большинства из людей есть по две руки.

источник

13:55пожаловаться #20