Size: a a a

Data Science Kazakhstan (DS/ML kz)

2020 May 27

😌

😌 in Data Science Kazakhstan (DS/ML kz)
Alex Pak
Не соглашусь, если есть метод оптимизации у модели, то уже ML )
говорят, что просто applied statistics 😂
источник

AP

Alex Pak in Data Science Kazakhstan (DS/ML kz)
😌
говорят, что просто applied statistics 😂
Тогда applied stats круче чем весь этот ML) по такой логике ML это подраздел AS😁
источник

VY

Vitaliy Yevtushenko in Data Science Kazakhstan (DS/ML kz)
Alex Pak
Hi all. Need tips. Обучаю модель lightgbm на 74 примерах размерности 36. После обучения строю дерево предикатов в нем только одна переменная. А диаграмме feature importance 23 переменные. В чем дело почему такая разница?
а) featured importance plot по умолчанию не показывает признаки с нулевым значением по критерию (по умолчанию количество в split, а не sum of gain), есть параметр ignore_zero (bool, optional (default=True)) который это отменяет, плюс есть ограничение количества признаков, тоже по умолчанию стоит б) про картинку дерева не знаю, но может быть это наилучшее дерево для достаточного качества разбиения, или он обрезает дерево, или критерий остановки был. Ну и да, бустить на 100 наблюдениях — это (может быть) слишком сложное решение, но зависит от задачи и нужного качества
Дополнительно, можно ещё установить eli5, там из коробки строит красивую табличку вместо диаграммы, или shap, там мне понравился js дешборд по вкладу каждого признака в прогноз по наблюдениям и разные агрегации

Upd: б) а если изучить сами объекты деревьев, вдруг строит ошибочно
источник

I

Iv in Data Science Kazakhstan (DS/ML kz)
Alex Pak
Тогда applied stats круче чем весь этот ML) по такой логике ML это подраздел AS😁
ML и прикладная статистика очень четко разделяются по целевому назначению: цель статистики объяснить взаимосвязь между переменными, цель машобчика - получить наиболее точную предсказывающую модель. Соответственно, ML не может быть подразделом AS, но может включать некоторые результаты AS.
источник

AP

Alex Pak in Data Science Kazakhstan (DS/ML kz)
Vitaliy Yevtushenko
а) featured importance plot по умолчанию не показывает признаки с нулевым значением по критерию (по умолчанию количество в split, а не sum of gain), есть параметр ignore_zero (bool, optional (default=True)) который это отменяет, плюс есть ограничение количества признаков, тоже по умолчанию стоит б) про картинку дерева не знаю, но может быть это наилучшее дерево для достаточного качества разбиения, или он обрезает дерево, или критерий остановки был. Ну и да, бустить на 100 наблюдениях — это (может быть) слишком сложное решение, но зависит от задачи и нужного качества
Дополнительно, можно ещё установить eli5, там из коробки строит красивую табличку вместо диаграммы, или shap, там мне понравился js дешборд по вкладу каждого признака в прогноз по наблюдениям и разные агрегации

Upd: б) а если изучить сами объекты деревьев, вдруг строит ошибочно
Спасибо. Да вытащить объекты хорошая идея
источник

AP

Alex Pak in Data Science Kazakhstan (DS/ML kz)
Iv
ML и прикладная статистика очень четко разделяются по целевому назначению: цель статистики объяснить взаимосвязь между переменными, цель машобчика - получить наиболее точную предсказывающую модель. Соответственно, ML не может быть подразделом AS, но может включать некоторые результаты AS.
Улыбнуло) вы правы, скорее тогда DS подраздел AS, а DS в свою очередь использует модели из ML. Меня больше интересует нюанс с lightgbm
источник
2020 May 28

S

Sagimbayev Zhuldyzzh... in Data Science Kazakhstan (DS/ML kz)
https://habr.com/ru/company/skillfactory/blog/503510/
Сегодня в одс наткнулся, к месту вчерашнего разговора про вкатывание
источник

S

Sneddy in Data Science Kazakhstan (DS/ML kz)
все правильно пишет)
источник

S

Sneddy in Data Science Kazakhstan (DS/ML kz)
А в хорошие места, где дс прям ресерч, очередь из phd-шников
источник

S

Sneddy in Data Science Kazakhstan (DS/ML kz)
Ну типа все будет готово к дс, но тогда разумнее туда взять опытного ресерчера, либо будь добр быть на несколько ролей
источник

S

Sneddy in Data Science Kazakhstan (DS/ML kz)
Еще мне кажется опытный дс со временем скорее углубляется в инженерные или бизнесовые вещи, чем в какие-то там модели. То есть со временем твоя работа все равно будет ближе к работе разраба/продукта
источник

S

Sneddy in Data Science Kazakhstan (DS/ML kz)
А раз итог один, то зачем учить больше)
источник

S

Sagimbayev Zhuldyzzh... in Data Science Kazakhstan (DS/ML kz)
источник

S

Sneddy in Data Science Kazakhstan (DS/ML kz)
Конечно будет здорово иметь бэкграунд дата саентиста в прошлом. Но кажется это здорово, только потому что предпологает понимание базовой математики и статистики.
источник

S

Sneddy in Data Science Kazakhstan (DS/ML kz)
Надеюсь не слишком пессимистично выглядит)
источник

S

Sneddy in Data Science Kazakhstan (DS/ML kz)
Дс - по прежнему отличный вариант для математика/cs-ника/экономиста, просто нужно все риски понимать)
источник

RA

Renat Alimbekov in Data Science Kazakhstan (DS/ML kz)
Да ладно, sql, power bi и в аналитики, можно норм бабки зашибать
источник

S

Sneddy in Data Science Kazakhstan (DS/ML kz)
Ну просто у меня в голове как-то четко дата саентист и дата аналитик разделяются и я забываю про это направление)
источник

S

Sneddy in Data Science Kazakhstan (DS/ML kz)
мб я зря так
источник

S

Sneddy in Data Science Kazakhstan (DS/ML kz)
Ну прост будто бы там совсем другой скилсет
источник