Телеграмм чат группы hadoopusers страница 3330

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Data Engineers

2342 membersпожаловаться на группу

2021 March 05

AZ

Anton Zadorozhniy in Data Engineers

Nikita Blagodarnyy

Макс число контейнеров на машине = 2*число физических дисков. Исходя из этого и объема памяти считается минимальное выделение.
У меня под рукой нету этого гайдлайна, но я могу нагуглить. Это еще у хортона в статье про ярн сайзинг было.

Правда, забыл что мы должны ограничивать число контейнеров на ноду

источник

19:08пожаловаться #1

AZ

Anton Zadorozhniy in Data Engineers

Заржавел, извините

источник

19:08пожаловаться #2

N

Nikita Blagodarnyy in Data Engineers

Шпендели это про диски, они при чем при расчете контейнеров?

Ну если вы запустите 100500 тредов и все они упрутся в io, эффективно не будет.

источник

19:13пожаловаться #3

P

Pavel in Data Engineers

1 шпиндель === 1 hdd

источник

19:15пожаловаться #4

AZ

Anton Zadorozhniy in Data Engineers

я помню мы убирали это ограничение через SSD под workdir, потом лейблами как-то компьют нагрузку прибирали в другие места

источник

19:20пожаловаться #5

AZ

Anton Zadorozhniy in Data Engineers

короче да, это вторая после мелких файлов проблема, смотришь на все это богатство которое в самые горячие времена еле-еле 70% утилизации достает - и ничего сделать не можешь

источник

19:25пожаловаться #6

AZ

Anton Zadorozhniy in Data Engineers

Nikita Blagodarnyy

Я тут полез вчера разбираться с этим. Выяснилось, что когда YARN думает, что занято 13 Тб, по факту суммарный объем всех хипов во всех очередях где-то 2,8-3. Получается, оверкоммит можно раза в 3 минимум сделать.

взвешивая два риска - 1) вы сделаете memory overcommit и будете ловить OOM и 2) вы уменьшите контейнер и будете ловить тормоза на IO - с позиции опса я бы выбрал второе, особенно если кластер под пайплайны, а не ад-хок

источник

19:30пожаловаться #7

N

Nikita Blagodarnyy in Data Engineers

Anton Zadorozhniy

взвешивая два риска - 1) вы сделаете memory overcommit и будете ловить OOM и 2) вы уменьшите контейнер и будете ловить тормоза на IO - с позиции опса я бы выбрал второе, особенно если кластер под пайплайны, а не ад-хок

Кластер один на всех. В одной очереди пайплайны, в другой адхок. Файр шедулер их там преемптит яростно по очереди.

источник

19:33пожаловаться #8

N

Nikita Blagodarnyy in Data Engineers

И я контейнер не всегда могу уменьшить, на какой-нибудь исторической загрузке в 256 гигов только пролазит.

источник

19:35пожаловаться #9

AS

Andrey Smirnov in Data Engineers

Nikita Blagodarnyy

И я контейнер не всегда могу уменьшить, на какой-нибудь исторической загрузке в 256 гигов только пролазит.

а такие задачи в отдельную очередь нельзя распределить, т.е. перед запуском понятно что памяти надо много?

источник

19:52пожаловаться #10

AZ

Anton Zadorozhniy in Data Engineers

я про минимальный контейнер, пусть пользователи себе просят большие контейнеры когда знают что это нужно

источник

19:52пожаловаться #11

AS

Andrey Smirnov in Data Engineers

Anton Zadorozhniy

я про минимальный контейнер, пусть пользователи себе просят большие контейнеры когда знают что это нужно

я тоже про это

источник

19:53пожаловаться #12

2021 March 06

ОА

Олег Александров... in Data Engineers

Сорри за возможный оффтоп: Кто свитчился со скала девелопера на биг дата девелопера (скала), что у вас поменялось в работе и какие впечатления от такого перехода в целом?

источник

15:48пожаловаться #13

A

Alex in Data Engineers

А если на бигдате но остался джавистом, то можно сказать что ничего не поменялось?

источник

15:49пожаловаться #14

A

Alex in Data Engineers

А вообще можно сказать что в этом случае ты как скалист должен забыть о свежей скале

источник

15:50пожаловаться #15

A

Alex in Data Engineers

Спарк основная масса везде 2.11, хотя у @erzentd вообще 2.10 есть :) 2.12 только недавно подвезли в спарк

источник

15:51пожаловаться #16

K

KrivdaTheTriewe in Data Engineers

Коллеги, а кто как пишет из кафки на, например, S3 или (вдруг до сих пор!) на hdfs?
Флюм и кафку коннект не предлагать🙂

спарком пишем, есть пример записи

источник

16:48пожаловаться #17

K

KrivdaTheTriewe in Data Engineers

Коллеги, а кто как пишет из кафки на, например, S3 или (вдруг до сих пор!) на hdfs?
Флюм и кафку коннект не предлагать🙂

https://github.com/ReiReiRei/spark_easy_datalake , нечто похожее , ток уже раз 20 переработаное

ReiReiRei/spark_easy_datalake

Contribute to ReiReiRei/spark_easy_datalake development by creating an account on GitHub.

источник

16:48пожаловаться #18

K

KrivdaTheTriewe in Data Engineers

Anton Zadorozhniy

(это очень удобно для жиденьких потоков в облаке, запускаете AWS Batch раз в сутки, он кладёт все что набежало в S3 и помирает)

спарк батчевой может быть без проблем

источник

16:49пожаловаться #19

GP

Grigory Pomadchin in Data Engineers

А вообще можно сказать что в этом случае ты как скалист должен забыть о свежей скале

я у нас чёт агрессивный) как ток 2.13 выйдет я 2.11 дропну

источник

16:51пожаловаться #20