Size: a a a

2021 March 19

DP

Dmitriy Pavlov in Data Engineers
И ещё разок (последний) напомню про опрос. Спасибо проголосовавшим!
источник

DP

Dmitriy Pavlov in Data Engineers
Переслано от Dmitriy Pavlov
Какой дистрибутив Hadoop используется у вас в компании (доступен мультивыбор)?
Анонимный опрос
32%
Cloudera
17%
Hortonworks
11%
Собрали сами (Bigtop или нет)
14%
AWS (Elastic MapReduce) [Cloud]
2%
Azure HDInsight [Cloud]
7%
Google Cloud Platform (Dataproc) [Cloud]
1%
Яндекс.Облако (Dataproc) [Cloud]
7%
Arenadata Hadoop (ADH)
0%
Mail Cloud Solutions (Big Data) [Cloud]
8%
Другой дистрибутив (напишу в чат)
Проголосовало: 98
источник

DP

Dmitriy Pavlov in Data Engineers
Переслано от Dmitriy Pavlov
Если вы собираетесь мигрировать, то на какой дистрибутив?
Анонимный опрос
9%
На Cloudera
5%
На Hortonworks (шта?)
22%
На свою сборку (Bigtop или нет)
11%
На AWS (Elastic MapReduce) [Cloud]
0%
На Azure HDInsight [Cloud]
14%
На Google Cloud Platform (Dataproc) [Cloud]
8%
На Яндекс.Облако (Dataproc) [Cloud]
12%
На Arenadata Hadoop (ADH)
0%
На Mail Cloud Solutions (Big Data) [Cloud]
20%
Не на Hadoop, другое решение (напишу в чат)
Проголосовало: 65
источник

DP

Dmitriy Pavlov in Data Engineers
Переслано от Dmitriy Pavlov
Сколько нод Hadoop (включая NN) используется у вас в компании?
Анонимный опрос
5%
2-4
4%
4-8
12%
8-6
17%
16-40
17%
40-100
45%
Больше 100
Проголосовало: 76
источник

DP

Dmitriy Pavlov in Data Engineers
Переслано от Dmitriy Pavlov
Что ещё, помимо Hadoop, вы используете для аналитики у себя в компании (доступен мультивыбор)?
Анонимный опрос
13%
Spark, но без Hadoop
15%
S3
14%
Clickhouse
1%
Amazon Redshift
8%
Google BigQuery
1%
Snowflake
7%
Greenplum
21%
Одну из: Teradata, Oracle, Vertica, Exasol
19%
Одну из: PostgreSQL, MySQL
1%
Другое (напишите, пожалуйста, в чат ответом на опрос)
Проголосовало: 107
источник

АР

Андрей Романов... in Data Engineers
ребзята, смотрите, на скале появились оптики для датафреймов

https://github.com/hablapps/sparkOptics
источник

АР

Андрей Романов... in Data Engineers
это очень упрощает изменения данных вложенных структур
источник

АР

Андрей Романов... in Data Engineers
@fall_out_bug @essbase @krivdathetriewe @asm0dey вам может понравится
источник

AZ

Anton Zadorozhniy in Data Engineers
Найс!
источник

ПФ

Паша Финкельштейн... in Data Engineers
Андрей Романов
это очень упрощает изменения данных вложенных структур
Прикольная игрушка, да :) Я правда поставлю под сомнение необходимость наличия сильно вложенных структур. Но если надо  то надо
источник

AZ

Anton Zadorozhniy in Data Engineers
Ну денормализация это реалии опенсорс стека, джоины везде тормозят; а если тулинг улучшается то уж лучше выбрать вложенность, чем плоские структуры с жонглированием колонками (особенно когда данные сильно разряжены)
источник

KS

K S in Data Engineers
Классно, как раз для моего проекта. Нужна вложенность на несколько уровней, но для большого количества записей - до 7 млн за батч.
источник
2021 March 20

C

Combot in Data Engineers
Бинур Ахронова has been banned! Reason: CAS ban.
источник
2021 March 21

P

Pavel in Data Engineers
источник

E

El-Yaz in Data Engineers
Ребяшки, а есть ли в маке какая тула, которая позволит мне сохранить сейчас новый настроенный мак (типо создать снепшот всех программ, настроек, изменений), чтоб можно было в будущем, на условный другой мак накатить в один клик - вжух и все готово?
источник

T

T in Data Engineers
El-Yaz
Ребяшки, а есть ли в маке какая тула, которая позволит мне сохранить сейчас новый настроенный мак (типо создать снепшот всех программ, настроек, изменений), чтоб можно было в будущем, на условный другой мак накатить в один клик - вжух и все готово?
Time machine?
источник

RV

Roman Vasilevich in Data Engineers
T
Time machine?
+
источник

N

Nikita Blagodarnyy in Data Engineers
El-Yaz
Ребяшки, а есть ли в маке какая тула, которая позволит мне сохранить сейчас новый настроенный мак (типо создать снепшот всех программ, настроек, изменений), чтоб можно было в будущем, на условный другой мак накатить в один клик - вжух и все готово?
Ассистент миграции
источник

E

El-Yaz in Data Engineers
Спасибо, парни!)
источник

N

Nikita Blagodarnyy in Data Engineers
De facto new data quality measuring tool is coming to the core @ApacheSpark

#dq #monitoring #dataquality

http://apache-spark-developers-list.1001551.n3.nabble.com/Observable-Metrics-on-Spark-Datasets-td30953.html
источник