Size: a a a

2021 March 05

AZ

Anton Zadorozhniy in Data Engineers
Nikita Blagodarnyy
Макс число контейнеров на машине = 2*число физических дисков. Исходя из этого и объема памяти считается минимальное выделение.
У меня под рукой нету этого гайдлайна, но я могу нагуглить. Это еще у хортона в статье про ярн сайзинг было.
Правда,  забыл что мы должны ограничивать число контейнеров на ноду
источник

AZ

Anton Zadorozhniy in Data Engineers
Заржавел, извините
источник

N

Nikita Blagodarnyy in Data Engineers
Andrey Smirnov
Шпендели это про диски, они при чем при расчете контейнеров?
Ну если вы запустите 100500 тредов и все они упрутся в io, эффективно не будет.
источник

P

Pavel in Data Engineers
1 шпиндель === 1 hdd
источник

AZ

Anton Zadorozhniy in Data Engineers
я помню мы убирали это ограничение через SSD под workdir, потом лейблами как-то компьют нагрузку прибирали в другие места
источник

AZ

Anton Zadorozhniy in Data Engineers
короче да, это вторая после мелких файлов проблема, смотришь на все это богатство которое в самые горячие времена еле-еле 70% утилизации достает - и ничего сделать не можешь
источник

AZ

Anton Zadorozhniy in Data Engineers
Nikita Blagodarnyy
Я тут полез вчера разбираться с этим. Выяснилось, что когда YARN думает, что занято 13 Тб, по факту суммарный объем всех хипов во всех очередях где-то 2,8-3. Получается, оверкоммит можно раза в 3 минимум сделать.
взвешивая два риска - 1) вы сделаете memory overcommit и будете ловить OOM и 2) вы уменьшите контейнер и будете ловить тормоза на IO - с позиции опса я бы выбрал второе, особенно если кластер под пайплайны, а не ад-хок
источник

N

Nikita Blagodarnyy in Data Engineers
Anton Zadorozhniy
взвешивая два риска - 1) вы сделаете memory overcommit и будете ловить OOM и 2) вы уменьшите контейнер и будете ловить тормоза на IO - с позиции опса я бы выбрал второе, особенно если кластер под пайплайны, а не ад-хок
Кластер один на всех. В одной очереди пайплайны, в другой адхок. Файр шедулер их там преемптит яростно по очереди.
источник

N

Nikita Blagodarnyy in Data Engineers
И я контейнер не всегда могу уменьшить, на какой-нибудь исторической загрузке в 256 гигов только пролазит.
источник

AS

Andrey Smirnov in Data Engineers
Nikita Blagodarnyy
И я контейнер не всегда могу уменьшить, на какой-нибудь исторической загрузке в 256 гигов только пролазит.
а такие задачи в отдельную очередь нельзя распределить, т.е. перед запуском понятно что памяти надо много?
источник

AZ

Anton Zadorozhniy in Data Engineers
я про минимальный контейнер, пусть пользователи себе просят большие контейнеры когда знают что это нужно
источник

AS

Andrey Smirnov in Data Engineers
Anton Zadorozhniy
я про минимальный контейнер, пусть пользователи себе просят большие контейнеры когда знают что это нужно
я тоже про это
источник
2021 March 06

ОА

Олег Александров... in Data Engineers
Сорри за возможный оффтоп: Кто свитчился со скала девелопера на биг дата девелопера (скала), что у вас поменялось в работе и какие впечатления от такого перехода в целом?
источник

A

Alex in Data Engineers
А если на бигдате но остался джавистом, то можно сказать что ничего не поменялось?
источник

A

Alex in Data Engineers
А вообще можно сказать что в этом случае ты как скалист должен забыть о свежей скале
источник

A

Alex in Data Engineers
Спарк основная масса везде 2.11, хотя у @erzentd  вообще 2.10 есть :) 2.12 только недавно подвезли в спарк
источник

K

KrivdaTheTriewe in Data Engineers
Pavel
Коллеги, а кто как пишет из кафки на, например, S3 или (вдруг до сих пор!) на hdfs?
Флюм и кафку коннект не предлагать🙂
спарком пишем, есть пример записи
источник

K

KrivdaTheTriewe in Data Engineers
Pavel
Коллеги, а кто как пишет из кафки на, например, S3 или (вдруг до сих пор!) на hdfs?
Флюм и кафку коннект не предлагать🙂
https://github.com/ReiReiRei/spark_easy_datalake , нечто похожее , ток уже раз 20 переработаное
источник

K

KrivdaTheTriewe in Data Engineers
Anton Zadorozhniy
(это очень удобно для жиденьких потоков в облаке, запускаете AWS Batch раз в сутки, он кладёт все что набежало в S3 и помирает)
спарк батчевой может быть без проблем
источник

GP

Grigory Pomadchin in Data Engineers
Alex
А вообще можно сказать что в этом случае ты как скалист должен забыть о свежей скале
я у нас чёт агрессивный) как ток 2.13 выйдет я 2.11 дропну
источник