Телеграмм чат группы datasciencecourse страница 5276

Size: a a a

Machine learning

7923 membersпожаловаться на группу

2021 June 18

Ilya in Machine learning

Стоит ли пихать везде pytorch-lighning?

источник

03:43пожаловаться #1

Alex in Machine learning

Друзья, прошу совета. Есть задача распознавания текста на сканах старых рукописных книг. Если изображение сегментировано по словам, то дообученный тессеракт сносно справляется, и сейчас задача - сегментировать отдельные слова. Желательно также классифицировать отдельно даты и имена собственные.
Буду благодарен за советы, какую модель лучше использовать, возможно есть какие то хорошие практики для решения подобных задач.
Размеченных данных не так много, около 100 листов, но на каждом листе порядка 200 слов
В данный момент я пытаюсь обучить frcnn, но мне кажется данных для такого маловато

источник

04:32пожаловаться #2

Sergey Kozlov in Machine learning

Лучшая практика была у гугла. Они такие слова добавляли вторым компонентом в капчу :)

источник

08:10пожаловаться #3

Nikita in Machine learning

У вас слова повторяются т.е. некторые слова проиндексированы несколько раз. Например: 0:'in' и 83: 'in'. Такого быть не должно.
Сделайте словарь в котором ключ - это слово, а значение-его уникальный индекс ( т.е. 'in':0, 'comparsion' :1 и т.д.). Слова повторяться не должны.
В конечно итоге мы должны составить матрицу, в которой строки- это предложения, а столбцы- слова ( количество столбцов должно будет равняться количеству УНИКАЛЬНЫХ слов)
P.s. сам выполнил на днях. На полную теоретическую правильность не претендую,но этот момент постарался объяснить так,как сам понимаю

источник

12:24пожаловаться #4

ВМ

Виталий Мурысев... in Machine learning

источник

12:35пожаловаться #5

Владимир in Machine learning

Спасибо большое, попробую

источник

12:49пожаловаться #6

Valery in Machine learning

Переслано от Valery

Valery in Machine learning

Переслано от Valery

#кошачья задача

источник

13:19пожаловаться #8

ÐХ

Ðаниил Хрøмøв... in Machine learning

Всем привет

источник

14:11пожаловаться #9

ÐХ

Ðаниил Хрøмøв... in Machine learning

https://github.com/dan0nchik/SAP-HANA-AutoML
Представляю вам мой (и еще одного прекрасного разработчика) дипломный проект. Полностью Open-Source библиотека автоматического машинного обучения. Имеет простую и понятную документацию, интуитивное web-приложение, а также обгоняет по точности встроенное AutoML решение от компании SAP.
Вот график сравнения (оранжевая - наша) на датасетах из OpenML

источник

14:11пожаловаться #10

ÐХ

Ðаниил Хрøмøв... in Machine learning

источник

14:11пожаловаться #11

ÐХ

Ðаниил Хрøмøв... in Machine learning

https://share.streamlit.io/dan0nchik/sap-hana-automl/main/web.py
веб-приложение

источник

14:13пожаловаться #12

DJ adidas in Machine learning

👍

источник

15:14пожаловаться #13

Anton Rogozin in Machine learning

Лучше сберовского LAMA?

источник

16:06пожаловаться #14

ÐХ

Ðаниил Хрøмøв... in Machine learning

Пока сравнивали только со встроенным SAP HANA APL

источник

16:12пожаловаться #15

Bauyrzhan B in Machine learning

Всем Привет)
Вопрос немного нубовый, но попробую задать.
У меня есть значения min и max где min (условно) = 120 и max = 220. Я хочу сэмплировать значения между этими границами. Сначала использовал равномерное распределение через numpy: np.random.uniform(120, 220). Это выдает мне значение между min и max.
Вопрос: могу ли я также сделать с другими распределениями по типу np.lognormal, np.chisquare итд. так чтобы мне выдавалось одно значение между min и max? Для этого мне нужно задать mean и standard deviation. По колхозному будет: mean = (120 + 220)/2 и std = (220 - 120)/3. Есть как не по колхозному)?

источник

17:50пожаловаться #16

Pavel Savin in Machine learning

У тех распределений, которые вы хотите, неограниченный носитель, так что между min и max их семплирвать не получится

источник

17:54пожаловаться #17

Bauyrzhan B in Machine learning

Спасибо!
Не совсем понял про неограниченный носитель
Значит только между 0 и 1?
А какие есть другие распределения чтобы задать через min и max?

источник

18:05пожаловаться #18

Pavel Savin in Machine learning

Из стандартных – бета

источник

18:07пожаловаться #19

Pavel Savin in Machine learning

А про носитель – вам нужен отрезок, а у хи-квадрат и логнормального полупрямые

источник

18:12пожаловаться #20