Size: a a a

Natural Language Processing

2021 October 06

Р

Родион in Natural Language Processing
То есть эта формула была бы верна только при полностью независимых случайных величинах?
источник

d

daniil in Natural Language Processing
Да, только при условии независимости.
источник

DD

David Dale in Natural Language Processing
Во-первых, непонятно, что значит "использовать две модели одновременно". Каким образом два ответа двух разных моделей превращаются в один ответ? Что происходит, когда модели друг другу противоречат?

Во-вторых, для вычисления желаемой вероятности в любом случае недостаточно знать вероятность ошибки каждой из отдельно взятых моделей, т.к. мы не знаем, в каком отношении события "модель 1 ошиблась" и "модель 2 ошиблась" находятся друг к другу. И, скорее всего, мы этого не узнаем, пока не прогоним две модели на одной и той же размеченной тестовой выборке.
источник

o

oldysty in Natural Language Processing
Если ответы расходятся, то какой мы выбираем?
источник

Р

Родион in Natural Language Processing
ой, спасибо всем большое :)
я довольно грубо упростил принципы работы моделей. Если быть более конкретным, то обе модели это бинарные классификаторы. Нам важно минимизировать количество False Positive ошибок. У модели №1 вероятность получить FP - 10%. У модели №2 - 15%.

И чтобы минимизировать % False Positive мы применяем обе модели одновременно, то есть результат будет true только если обе модели сказали true.

И было интересно, возможно ли как-то подсчитать вероятность возникновения False Positive при использовании обеих моделей вот таким образом. В качестве ответа вполне устроил бы диапазон значений, например от случая когда модели полностью независимые до случая, когда модели зависимые.
источник

FF

Futorio Franklin in Natural Language Processing
Можно просто блендинг сделать, если размер датасета позволяет
источник

DD

David Dale in Natural Language Processing
Тогда диапазон от 0% (если модели никогда не дают FP одновременно) до 10% (если при false positive ошибке первой модели вторая всегда тоже даёт false positive).
источник

Р

Родион in Natural Language Processing
аа, вот сейчас понятно каким образом тут независимость влияет :) Да, вы правы, необходимо их на одной выборке прогнать чтобы посмотреть как они себя ведут. Спасибо большое)
источник

AB

Andrey Buynovskiy in Natural Language Processing
Друзья, всем привет.
Нашел тут пару скриптов word2num  для перевода текста в цифры с помощью наташи + ярги. Но там используется старые версии natasha==0.10.0 yargy==0.12.0 и работает все прекрасно. У меня в проекте Наташа новее и требует при инициализации еще морф словарь. Вот с новой наташей не хочет работать.... Кто-нибудь сталкивался с такой ситуацией? Или я не тот словарь подаю, так вроде в доках не нашел другого
источник

VG

Vadim Gudkov in Natural Language Processing
Я бы решал с помощью knn на n граммах предложений из текстов документов на основе bpe для дополнительной точности
источник

YB

Yuri Baburov in Natural Language Processing
Если мы не знаем, какие оптимальные веса при объединении моделей, то можем получить любую ошибку вплоть до 25%, но наиболее вероятно число ближе к 10%. Если знаем и всегда выбираем более точную (веса 1 и 0) -- тогда 10% конечно.
источник

DD

David Dale in Natural Language Processing
Там не веса, там логическое "И", и нас интересуют только false positives. Согласно уточнению от автора. И вероятность FP у обеих моделей одновременно не может быть выше, чем вероятность FP у какой-то одной из этих моделей.
источник

YB

Yuri Baburov in Natural Language Processing
Да, тогда от 0 до 10%.
На практике всё конечно сложнее, потому что возникнет больше false negatives.
источник

YB

Yuri Baburov in Natural Language Processing
И взаимная зависимость может дать и 0% (когда ошибки всегда не совпадают) и 10% (когда ошибки всегда совпадают).
Взаимная независимость даст 1.5%, но на практике такого почти не бывает -- модели же обычно учатся на одинаковых данных и похожим образом. Что-то ближе к 7-8% на практике ожидается от ансамбля из двух моделей.
источник

SS

Sergey Shulga in Natural Language Processing
Вопрос, есть задача выявлять в коротких текстах гиперссылки на сайты. Формат текста - plaintext, но нужно ловить также варианты типа "точка мой сайт точка ру"... Так сказать, нужен фильтр на ссылки в явном или шифрованном виде.
источник

SS

Sergey Shulga in Natural Language Processing
Есть какие-то заготовки? Понятно, что история с http/www и так далее проверяется легко
источник

SS

Sergey Shulga in Natural Language Processing
То есть задача- запретить указание ссылок в любом виде в сообщении от пользователя
источник
2021 October 07

SS

Sergey Sikorskiy in Natural Language Processing
источник

B

Banof in Natural Language Processing
🔫 @zxcvvvNzzc кикнут — вернуть этого пользователя можно только разбаном в настройках чата.

Проголосовавшие за кик:
@LoneGeek, @Alf162, @daregod, @RedBeardedT, n 1994
При поддержке Золота Бородача
источник

DD

David Dale in Natural Language Processing
источник