Size: a a a

2020 February 18

S

Serg Slipushenko in Data Engineers
Будет в 30 раз быстрее? Или в 10?
источник

AZ

Anton Zadorozhniy in Data Engineers
Serg Slipushenko
Сравнение тренировки на одной машине с одной видяхой против тренировки той же сети на тех же данных но на 30 таких же машинах
это наверное не про kubeflow а в целом про распределенный тренинг tf, нет?
источник

UD

Uncel Duk in Data Engineers
источник

S

Serg Slipushenko in Data Engineers
Anton Zadorozhniy
это наверное не про kubeflow а в целом про распределенный тренинг tf, нет?
ну да) про него
источник

AZ

Anton Zadorozhniy in Data Engineers
Serg Slipushenko
ну да) про него
если данных мало и все помещается в память одной машины - распределенный не даст линейного прироста, если данных очень много - распределенное обучение будет выгоднее
источник

S

Serg Slipushenko in Data Engineers
линейного не даст, это понятно) я как раз за эту просадку и хотел узнать, насколько там далеко от линейного прироста
источник

S

Serg Slipushenko in Data Engineers
но да, данные помещаються в память пода, то есть датасет небольшой
источник

AZ

Anton Zadorozhniy in Data Engineers
хоровод обещает близкое к линейному скейлингу, эстиматоры там https://towardsdatascience.com/distributed-tensorflow-using-horovod-6d572f8790c4
источник

AZ

Anton Zadorozhniy in Data Engineers
(сам хоровод не использовал)
источник

S

Serg Slipushenko in Data Engineers
спасибо за линк 👍 то шо нада
источник

S

Serg Slipushenko in Data Engineers
источник
2020 February 19

V

Vasiliy in Data Engineers
KrivdaTheTriewe
у меня есть ярая идея люто бешено наделать мелких таблиц и каждую партицию спарковскую туда сливать
Если вы не единственный пользователь комплекса, а его нагрузка близка к максимуму допустимого - эта идея самая правильная
источник

V

Vasiliy in Data Engineers
А если есть две-три терадаты)))
источник

V

Vasiliy in Data Engineers
Лить в менее загруженую, джойнить на второй
источник

V

Vasiliy in Data Engineers
Разумеется с tdqg между
источник

OT

Olesya Tyukaeva in Data Engineers
Всем привет! 27 февраля в Москве будет митап по DE, можно ли кидать в этом чате ссылки и будет ли вам интересна эта инфа?
источник

K

KrivdaTheTriewe in Data Engineers
Кидайте
источник

OT

Olesya Tyukaeva in Data Engineers
https://newprolab.timepad.ru/event/1261579/

Там ещё трансляцию обещают.
источник

AZ

Anton Zadorozhniy in Data Engineers
Vasiliy
Если вы не единственный пользователь комплекса, а его нагрузка близка к максимуму допустимого - эта идея самая правильная
это в смысле что фастлоад сессий может нехватать?
источник

V

Vasiliy in Data Engineers
В смысле что надо контролировать нагрузку на комплекс. Когда он большую часть времени нагружен на 90+ в гипотетической системе.

Это ж не виртуальная сферическая инсталляция в вакууме
источник