Size: a a a

Machine learning

2021 June 18

I

Ilya in Machine learning
Стоит ли пихать везде pytorch-lighning?
источник

A

Alex in Machine learning
Друзья, прошу совета. Есть задача распознавания текста на сканах старых рукописных книг. Если изображение сегментировано по словам, то дообученный тессеракт сносно справляется, и сейчас задача - сегментировать отдельные слова. Желательно также классифицировать отдельно даты и имена собственные.
Буду благодарен за советы, какую модель лучше использовать, возможно есть какие то хорошие практики  для решения подобных задач.
Размеченных данных не так много, около 100 листов, но на каждом листе порядка 200 слов
В данный момент я пытаюсь обучить frcnn, но мне кажется данных для такого маловато
источник

SK

Sergey Kozlov in Machine learning
Лучшая практика была у гугла. Они такие слова добавляли вторым компонентом в капчу :)
источник

N

Nikita in Machine learning
У вас слова повторяются т.е. некторые слова проиндексированы несколько раз. Например: 0:'in' и 83: 'in'. Такого быть не должно.
Сделайте словарь в котором ключ - это слово, а значение-его уникальный индекс ( т.е. 'in':0, 'comparsion' :1 и т.д.). Слова повторяться не должны.
В конечно итоге мы должны составить матрицу, в которой строки- это предложения, а столбцы- слова ( количество столбцов должно будет равняться количеству УНИКАЛЬНЫХ слов)
P.s. сам выполнил на днях. На полную теоретическую правильность не претендую,но этот момент постарался объяснить так,как сам понимаю
источник

ВМ

Виталий Мурысев... in Machine learning
/
источник

В

Владимир in Machine learning
Спасибо большое, попробую
источник

V

Valery in Machine learning
Переслано от Valery
источник

V

Valery in Machine learning
Переслано от Valery
#кошачья задача
источник

ÐХ

Ðаниил Хрøмøв... in Machine learning
Всем привет
источник

ÐХ

Ðаниил Хрøмøв... in Machine learning
https://github.com/dan0nchik/SAP-HANA-AutoML
Представляю вам мой (и еще одного прекрасного разработчика) дипломный проект. Полностью Open-Source библиотека автоматического машинного обучения. Имеет простую и понятную документацию, интуитивное web-приложение, а также обгоняет по точности встроенное AutoML решение от компании SAP.
Вот график сравнения (оранжевая - наша) на датасетах из OpenML
источник

ÐХ

Ðаниил Хрøмøв... in Machine learning
источник

ÐХ

Ðаниил Хрøмøв... in Machine learning
источник

Da

DJ adidas in Machine learning
👍
источник

AR

Anton Rogozin in Machine learning
Лучше сберовского LAMA?
источник

ÐХ

Ðаниил Хрøмøв... in Machine learning
Пока сравнивали только со встроенным SAP HANA APL
источник

BB

Bauyrzhan B in Machine learning
Всем Привет)
Вопрос немного нубовый, но попробую задать.
У меня есть значения min и max где min (условно) = 120 и max = 220. Я хочу сэмплировать значения между этими границами. Сначала использовал равномерное распределение через  numpy: np.random.uniform(120, 220). Это выдает мне значение между min и max.
Вопрос: могу ли я также сделать с другими распределениями по типу np.lognormal, np.chisquare итд. так чтобы мне выдавалось одно значение между min и max? Для этого мне нужно задать mean и standard deviation. По колхозному будет: mean  =  (120 + 220)/2 и std = (220 - 120)/3. Есть как не по колхозному)?
источник

PS

Pavel Savin in Machine learning
У тех распределений, которые вы хотите, неограниченный носитель, так что между min и max их семплирвать не получится
источник

BB

Bauyrzhan B in Machine learning
Спасибо!
Не совсем понял про неограниченный носитель
Значит только между 0 и 1?
А какие есть другие распределения чтобы задать через min и max?
источник

PS

Pavel Savin in Machine learning
Из стандартных – бета
источник

PS

Pavel Savin in Machine learning
А про носитель – вам нужен отрезок, а у хи-квадрат и логнормального полупрямые
источник