Size: a a a

Natural Language Processing

2019 November 14

B

Brenoritvrezorkre in Natural Language Processing
А что это за rnn такая, которая это выдаёт? Самодельная или чья-то с названием?
источник

YB

Yuri Baburov in Natural Language Processing
Dmitry
А сено вот опять мне краткое мироточат отимальному тасолтановна куда то, но красота, простите меня и девасобака да, а наливаете без такой, то он к попонина краем утрода е. Пояс не на тот не надо, но ты сейчас находил, а тритилодонтов те касались. Потому сигурда придает то воланда кронам и совестно, а при водоскат. А там то третье. Я сейчас бартоломео девка. Не оникове там надо на потакании раската автокада угнетается, порождает адепт, кто сам весна и лето не собой. Но давайте лучше толком часовое только до анода поставит. Под нановолокно по сво много поверится однородна буква е со счете, потом её понимание и за сайт говори, сраспасибо. До свидания!
1) у них большой оверфит на стандартные слова. То есть, LM слишком агрессивная.
Я ещё удивлялся, почему они так хорошо простые фразы распознают, а потом взял фразу посложнее — и сразу получил неправильно распознанные слова.
2) проверьте обязательно формат, частоту, итп. — может вы как-то не так звук им отправляете.
// я собственно тоже тут хотел их проверить в моём сравнении, но ещё не добрался.
источник

A

Aragaer in Natural Language Processing
Brenoritvrezorkre
А что это за rnn такая, которая это выдаёт? Самодельная или чья-то с названием?
самодельная
источник

SZ

Sergey Zakharov in Natural Language Processing
Коллеги тестили Тинькова, по качеству было сопоставимо с Яндексом
источник

D

Dmitry in Natural Language Processing
Sergey Zakharov
Коллеги тестили Тинькова, по качеству было сопоставимо с Яндексом
Почему у меня получилась такая дребедень? И кстати я сейчас спросил у своих коллег стартаперов - они тоже сказали, что фигня вышла.
источник

SZ

Sergey Zakharov in Natural Language Processing
Хз. Возможно и правда как-то не так передаёте. Или домен специфический. Может нам с версией повезло просто. Вариантов куча
источник

EU

Egor Urvanov in Natural Language Processing
Привет. Подскажите, как бороться с проблемой.
Использую TF-IDF (BM-25) для текста (эластик). Есть документы (каждый документ — отдельная строка). По ним происходит поиск.
Для поиска в es отправляется запрос в виде текстовой строки.
Проблема
Если я расширяю выборку за счёт добавления к каждому документу ещё одной строки примерно такой же длины, которая отличается по набору токенов, но релеватна исходной строке, то оказывается, что метрики падают. Это происходит, видимо, из-за того, что при вычислении скалярного произведения между запросом и каждым из документов, происходит "размазывание" важных токенов и, как следствие, ухудшение качества выдачи.

Особенность данных. В них очень много уникальных токенов: названия, характеристики и т.п. Я их называю дельта-функциями, поскольку в виде эмбеддингов (w2v, bert не пробовал) они плохо представляются и выражаются за счёт того, что в них мало семантики

Вопрос
• Понятна ли моя проблема?
• Есть ли стандартные подходы, которые позволят избежать этой проблемы? Сейчас у меня есть 2 варианта:
  • предварительная редукция  строки и уменьшение её длины.
  • введение нескольких индексов (но это породит проблемы иного характера)
источник

PE

Petr Ermakov in Natural Language Processing
Karen Avetisyan
Привет! Ребят, подскажите пожалуйста, какие модели можно использовать для обучения распознаванию парафраз в русском языке. Я тут пару статей вроде как с лучшими результатами для английского языка нашел, но никакого кода к ним прикреплённого нет. https://arxiv.org/pdf/1712.02820.pdf
https://pdfs.semanticscholar.org/f4f0/721d0eea03ed531f603d98cf7bb3b9ed72b9.pdf
paraphraser.ru
была дорожка на диалоге (кажется) вот сделали разметку и можно скачать корпус
источник

B

Brenoritvrezorkre in Natural Language Processing
Мне знакомый сказал, что для распознавания английской речи гугл недавно выпустил recorder.
источник
2019 November 15

Ю

Юрий in Natural Language Processing
источник

SZ

Sergey Zakharov in Natural Language Processing
Как сделать speech to text большого файла на несколько часов (например, аудиокниги) при помощи какой-нибудь готовой предобученной модели оупенсорсной? Придётся ли разбивать на куски и на какие? Или можно запихнуть большой файл и всё будет ок?
источник

V

Vlad in Natural Language Processing
Подскажите пожалуйста, как правильно называется задача корректировки текста от распознавания речи? Или сразу библиотеку, которая это делает)
Т.е. вот например вместо "да" asr выдал "дам", и похожие ситуации.
Похоже на корректировку опечаток, но не думаю, что это именно то, что надо
источник
2019 November 16

B

Brenoritvrezorkre in Natural Language Processing
Теперь другой вопрос. Есть ли где-нибудь полный список кванторов в английском языке? Every там, any, even (numbers of) и прочие. Заранее спасибо.
источник

I🍵

Iván 🍵 in Natural Language Processing
Brenoritvrezorkre
Теперь другой вопрос. Есть ли где-нибудь полный список кванторов в английском языке? Every там, any, even (numbers of) и прочие. Заранее спасибо.
Может посмотреть латеховские функции и убрать \?
https://oeis.org/wiki/List_of_LaTeX_mathematical_symbols
источник

B

Brenoritvrezorkre in Natural Language Processing
Нет, мне нужны кванторы в естественном языке. Есть их формализации в обобщённых кванторах (которые не ограничиваются этим), но всё равно список кванторов в естественном языке желательно знать.
источник

B

Brenoritvrezorkre in Natural Language Processing
Тем более что в латехе и обобщённых кванторов (как и специальной нотации обычно вне латеха) нет, ты их сам строишь из существующих с добавлением верхних / нижних индексов, либо пишешь буквой, либо пишешь словом.
источник

I🍵

Iván 🍵 in Natural Language Processing
Brenoritvrezorkre
Тем более что в латехе и обобщённых кванторов (как и специальной нотации обычно вне латеха) нет, ты их сам строишь из существующих с добавлением верхних / нижних индексов, либо пишешь буквой, либо пишешь словом.
Что за обобщенные кванторы?
источник

B

Brenoritvrezorkre in Natural Language Processing
источник

B

Brenoritvrezorkre in Natural Language Processing
Кванторы существования, уникальности и всеобщности сами по себе (особенно классические, т.е. неплюральные) описывают очень мало способов квантификации, и в естественном языке их намного больше.
источник

B

Brenoritvrezorkre in Natural Language Processing
Например:

У большинства из людей есть по две руки.
источник