Size: a a a

2021 October 12

ЕГ

Евгений Глотов... in Data Engineers
в общем чёт новенькое есть, ну плюс багфиксы
источник
2021 October 13

NN

No Name in Data Engineers
А толку?
В пандас перегоняют же обычно, чтобы в итоге локально обучать модель. А с распределенным что делать?
источник

ЕГ

Евгений Глотов... in Data Engineers
Тут скорее наоборот, пытаются с пандасов загнать в спарк максимально простыми способами)
источник

NN

No Name in Data Engineers
А коалас всё?
источник

ЕГ

Евгений Глотов... in Data Engineers
Ну может куски его сюда впилили как раз
источник

KS

K S in Data Engineers
Какие стратегии бранчинга используют в вашей компании?
Анонимный опрос
26%
Github Flow
19%
Gitlab Flow
16%
Git Flow
13%
Release Flow
26%
Другое
Проголосовало: 62
источник

D

Dmitry in Data Engineers
Подскажите, чем можно ограничить место пожиремое ролью hdfs на конкретном узле ? левому софту нужно почти все доступное место на узле, при этом ему нужно что бы у узла была роль hdfs. dfs.datanode.du.reserved тут поможет?
источник

A

Alex in Data Engineers
почему пидманул?

всё правильно, стандартная практика, вешать теги rc
если ничего не нашлось критического в этом кандидате то повесить тег релиза
источник

A

Alex in Data Engineers
тег v3.2.0 в гите появился
источник

A

Alex in Data Engineers
если я правильно помню их процесс:

ставим версию какую нужно релизить (условно 3.2.0)
комит
ставим тег rcXXX
собираем и паблишим на стейджинг сервера
ставим следующую версию (условно 3.2.1-SNAPSHOT)


повторяем множество раз пока не решим что всё ок
если ок то со стейдж мейвена артефакты перекидываются в публичный мейвейн

поэтому версии jar в мейвене обычно имеют таймстамп сборки сколько-то дней в прошлом
а в репозитории много комитов вида

Preparing Spark release v2.4.8-rc3

-  <version>2.4.9-SNAPSHOT</version>
+  <version>2.4.8</version>

тег и следом

Preparing development version 2.4.9-SNAPSHOT
-  <version>2.4.8</version>
+  <version>2.4.9-SNAPSHOT</version>


в какой-то момент это заканчивается очередным

Preparing Spark release v2.4.8-rc4
-    <version>2.4.9-SNAPSHOT</version>
+    <version>2.4.8</version>

на который уже вешается и тег v2.4.8

на этом комите по итогу
tags: v2.4.8-rc4 v2.4.8
источник

A

Alex in Data Engineers
hadoop/spark/flink следуют этому подходу в мэйвене
источник

МК

Михаил Кулаков... in Data Engineers
Коллеги, а кто может подсказать курсы для улучшенной подготовки к dp203 сертификации от эйжура?
источник

AZ

Anton Zadorozhniy in Data Engineers
так вы сделайте на LVM нужные тома для HDFS, и нужные для левого софта
источник

D

Dmitry in Data Engineers
так и сделали, но включение роли тогда забивает hdfs том через край и сыпит ошибками что на ноде место кончилось
источник

AZ

Anton Zadorozhniy in Data Engineers
балансировщик давно запускали?
источник

D

Dmitry in Data Engineers
балансировщик чего ?
источник

AZ

Anton Zadorozhniy in Data Engineers
данных по HDFS датанодам
источник

D

Dmitry in Data Engineers
источник

AZ

Anton Zadorozhniy in Data Engineers
я не знаю какой у вас дистрибутив, это часть ванильного хадупа https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-hdfs/HDFSCommands.html#balancer
источник

D

Dmitry in Data Engineers
ну а оно разве не попробует распределить на эту хитрую ноду столько же данных, сколько поместилось на обычные дата ноды ?
источник