Size: a a a

Machine learning

2021 January 30

SS

Sergey Salnikov in Machine learning
SGDClassifier, X: 50K x 1K, y: ~100 classes
источник

DP

Dmitry Penzar in Machine learning
Дисперсия которая мерится зависит от дисперсии от обучения классификатора и от размера датасета, на котором оценивается его качество.

Мне кажется у такой простой модели дисперсия весов очень мала, а увеличивая размер обучения вы сокращаете автоматом размер теста, что сказывается намного сильнее, чем слабенькое уменьшение дисперсии весов

Или вы это и говорили, а я пропустил?
источник

SS

Sergey Salnikov in Machine learning
проблема была такая: есть датасет, нужно тестить на нём модели, для этого нужно выбрать схему кросс-валидации с минимальной дисперсией (чтобы была больше разрешающая способность схемы). я эмпирически использую repeated Nx2 (обычно 5x2), это потом я прочитал, что это вполне себе феншуйно. но когда экспериментировал с монте-карловской схемой, заметил, что дисперсию cv можно уменьшить, если уменьшать train-долю от всего датасета. так-то понятно, что скор будет изменяться как от размера tr, так и от размера va, но тут стоит конкретная задача - какую cv выбрать для оценки моделей
источник

DP

Dmitry Penzar in Machine learning
вопрос - буудет ли такое наблюдаться для какого-нибудь бустинга
источник

SS

Sergey Salnikov in Machine learning
это важно? могу прогнать
источник

DP

Dmitry Penzar in Machine learning
ну просто интересно, если не сложно
источник

DP

Danilo Podlesniy-Sub... in Machine learning
Ребята, а никто не думал как можно закрыть ленту рекоммендаций ютуба?
источник

SS

Sergey Salnikov in Machine learning
Dmitry Penzar
ну просто интересно, если не сложно
источник

SS

Sergey Salnikov in Machine learning
минимальная дисперсия в районе .5
источник

DP

Dmitry Penzar in Machine learning
прикольно, спасибо)
источник

ч

чеканая-монета... in Machine learning
Новая библиотека превосходит Pandas по производительности

Pandas возникла в 2008 году и на сегодняшний день является крайне популярной, если речь идёт о Data Science. Но ничто не вечно под луной и вот, появилась новая библиотека pypolars, которая уже сейчас может конкурировать с Pandas как минимум в плане производительности.

В этой статье провели сравнительные тесты скорости отработки одних и тех же действий с помощью этих двух библиотек и результаты заставляют задуматься:

https://tprg.ru/qvjG

#datascience #pandas
источник

АК

Алексей Кравчук... in Machine learning
igor
И для баланса курс статистика для медсестёр о и стэнфорда
Можете дать ссылку на курс?
источник

i

igor in Machine learning
источник

АК

Алексей Кравчук... in Machine learning
Спасибо!!!
источник

DP

Dmitry Penzar in Machine learning
Кстати, просьба дебильная, но вдруг. Есть у кого-то  датасет по задаче регрессии/классификации, чтобы на нем стекинг показывал преимущество по сравнению с правильно затюненными бустингами?
Просьба дебильная, ибо в датасете не должно быть слишком много объектов. Условно 50k - потолок
источник

DP

Dmitry Penzar in Machine learning
В примерах в инете в стэкинг херачат моднли с дефолтными параметрами и понятно, откуда там повышение качества. А мне хочется студентам показать нормпльную ситуацию
источник

K

K-S in Machine learning
Dmitry Penzar
Кстати, просьба дебильная, но вдруг. Есть у кого-то  датасет по задаче регрессии/классификации, чтобы на нем стекинг показывал преимущество по сравнению с правильно затюненными бустингами?
Просьба дебильная, ибо в датасете не должно быть слишком много объектов. Условно 50k - потолок
так просто найди любой датасет с данным ограничением на кол-во объектов. Стек в 90% случаев докинет
источник

K

K-S in Machine learning
и почему с дефолтными параметрами? Вполне себе вроде их подбирают. Либо оптимайзерами какими-то, либо руками
источник

DP

Dmitry Penzar in Machine learning
K-S
так просто найди любой датасет с данным ограничением на кол-во объектов. Стек в 90% случаев докинет
Ну вот пока не нашел хорошего. Потому и спрашиваю, может у кого есть)
источник

DP

Dmitry Penzar in Machine learning
K-S
и почему с дефолтными параметрами? Вполне себе вроде их подбирают. Либо оптимайзерами какими-то, либо руками
Я про инет и туториалы в нем
источник