Size: a a a

ML Boot Camp Official

2021 June 02

SS

Sergey Star in ML Boot Camp Official
Используй генераторы
источник

AC

Anton Chikin in ML Boot Camp Official
обучать алгоритмами, которым не нужно чтобы весь трейн был в памяти. Например взять нейронные сети, и обучать, либо взять подвыборку из большого датафрейма и обучать случайный лес
источник

AT

Alexey Tikhonov in ML Boot Camp Official
строить по одному дереву, запоминать результать, а потом самому взвешивать
источник

JS

Jury Sergeev in ML Boot Camp Official
еще вариант - юзать Spark MLlib на нескольких компах
источник

JS

Jury Sergeev in ML Boot Camp Official
но лучше сэмплить и потом голосование
источник

IC

Igor Chepelev in ML Boot Camp Official
rxDForest
хоть терабайты
правда памяти будет требовать - которое необходимо для минимальной порции (как определить минимальную порцию - незнаю :) )
но укладывается в 64 гига
https://docs.microsoft.com/en-us/machine-learning-server/r-reference/revoscaler/rxdforest
источник

IC

Igor Chepelev in ML Boot Camp Official
Но это правда для тех у кого Виндовс
источник

IG

Ivan Glebov in ML Boot Camp Official
spark, dask?
источник

RY

Ruslan515 Y in ML Boot Camp Official
буду юзать catboost. можно обучить на части данных, сохранить. затем новая часть данных и дообучить модель и т.д.
источник

IC

Igor Chepelev in ML Boot Camp Official
ну вот тогда в тему
https://www.youtube.com/watch?v=ei-ZCAafr7s
YouTube
Анонс воркшопа трека BigData "Как запихнуть в CatBoost терабайты данных используя Apache Spark"
Data Fest Online 2021
Dig Data track

3 июня в 19:00 приглашаем вас посмотреть воркшоп по использованию CatBoost на Apache Spark. Сразу после воркшопа команда CatBoost ответит на все вопросы по использованию, деталям реализации и дальнейшему развитию CatBoost для Apache Spark и не только.

→ Присоединяйтесь к мероприятию в Spatial chat https://live.ods.ai/, комната BigData. Пароль от Spatial Chat доступен зарегистрированным участникам на странице феста в разделе Нетворкинг: https://ods.ai/events/datafest2021

→ Смотрите трансляцию на YouTube, на нашем канале

Спикеры:
Андрей Хропов, старший разработчик, Яндекс

Приходите общаться с командой CatBoost'a и поделиться своим опытом использования библиотеки!

Посмотреть эфир и список треков и организаторов: https://datafest.ru/2021/
Зарегистрироваться на фест и получить доступ к трекам: https://ods.ai/events/datafest2021
Вступить в сообщество: https://ods.ai/

Соцсети Data Fest:
https://t.me/datafest
https://vk.com/datafest
источник

AD

Alexander Dudin in ML Boot Camp Official
Оказывается Apache Spark написан на Java. Однако, я думал для основы ML что-то менее тормозное выбирают 🤔
источник

JS

Jury Sergeev in ML Boot Camp Official
о, catbust который в clickhouse встроен, попробуй
источник

OC

Oleg Cheremisin in ML Boot Camp Official
Java не тормозит
источник

JS

Jury Sergeev in ML Boot Camp Official
+
источник

JS

Jury Sergeev in ML Boot Camp Official
xgboost - тормозит, хотя на C написан
источник

JS

Jury Sergeev in ML Boot Camp Official
и не на жава, а на scala
источник

SD

Stanislav Demchenko in ML Boot Camp Official
Ооо … свидетели тормозов на Джаве подтянулись
источник

JS

Jury Sergeev in ML Boot Camp Official
я частенько пентаху гоняю, она на жаве - так легко гигабайты данных пережевывает и от OOM не падает
источник

JS

Jury Sergeev in ML Boot Camp Official
но она и написана правильно, все много-поточно и оптимально... ну и как джоб или трансформацию напишешь
источник
2021 June 03

IC

Igor Chepelev in ML Boot Camp Official
источник