Size: a a a

2019 June 05

ЕГ

Евгений Глотов in Data Engineers
Несколько
источник

ЕГ

Евгений Глотов in Data Engineers
Поджойнить их и собрать агрегат
источник

ЕГ

Евгений Глотов in Data Engineers
Как получится - можно идти устраиваться работать датаинженером, для вас будет конкурс три вакансии на одного человека😆
источник

AZ

Anton Zadorozhniy in Data Engineers
ну вот tpc-h например: обновлять набор гистграмм клиентов по ордерам
источник

AZ

Anton Zadorozhniy in Data Engineers
генератор прилагается, хоть петабайт нагенерите себе если есть куда
источник

AZ

Anton Zadorozhniy in Data Engineers
я пользуюсь этой версией, она делает перекошенные данные, так интереснее :) https://github.com/gunaprsd/SkewedDataGenerator
источник

m

mel kaye in Data Engineers
а алгоритм какой можно на основе сгенеренных данных писать?
источник

R

Renarde in Data Engineers
Евгений Глотов
Как получится - можно идти устраиваться работать датаинженером, для вас будет конкурс три вакансии на одного человека😆
true story
если при этом еще и есть знание чем отличается SortMerge от BroadcastHash -> можно сразу синьором идти 😂
источник

AZ

Anton Zadorozhniy in Data Engineers
mel kaye
а алгоритм какой можно на основе сгенеренных данных писать?
там части, поставщики, заказы, клиенты - все что хотите, для начала простую дескриптивную статистику, потом можно какие-нибудь кластера регрессии
источник

AZ

Anton Zadorozhniy in Data Engineers
данные синтетические конечно, поэтому никаких красивых корреляций не будет, но потренироваться в самый раз
источник

m

mel kaye in Data Engineers
Anton Zadorozhniy
там части, поставщики, заказы, клиенты - все что хотите, для начала простую дескриптивную статистику, потом можно какие-нибудь кластера регрессии
ок, чичас потыкаю
источник

ЕГ

Евгений Глотов in Data Engineers
Таблицы фактов - типа набить каких-нибудь покупок в рандомное время, потом над этим агрегат на покупателя за день собрать
источник

ЕГ

Евгений Глотов in Data Engineers
Количество, сумма и всё такое
источник

K

KrivdaTheTriewe in Data Engineers
как  сдать CDO
источник

ЕГ

Евгений Глотов in Data Engineers
А, это легко, нужно 5 лет опыта работы CDO
источник

AK

Aleksey Kashin in Data Engineers
Привет, при попытке прочитать табличку в hbase из спарк2 получаю ошибку - WARN TaskSetManager: Lost task 0.0 in stage 0.0 (TID 0, ds02.example, executor 1): java.io.InvalidClassException: org.apache.spark.sql.execution.datasources.hbase.HBaseRelation; local class incompatible: stream classdesc serialVersionUID = -6790729522370401940, local class serialVersionUID = 2396170511103034301
источник

AK

Aleksey Kashin in Data Engineers
Никто не сталкивался?
источник

AK

Aleksey Kashin in Data Engineers
hbase-site.xml подпихивал через spark-shell --files путь_до_конфига, не помогает
источник

A

Alex in Data Engineers
В класпасе на драйвере и воркере разные версии hbase
источник

A

Alex in Data Engineers
Хотя стоп, spark hbase разный
источник