Телеграмм чат группы hadoopusers страница 2971

Size: a a a

Data Engineers

2051 membersпожаловаться на группу

2020 November 19

Алексей in Data Engineers

стоит вообще изучать mdx, насколько распространен сейчас этот язык запросов?

источник

11:14пожаловаться #1

Yuriy Vasilyevskiy in Data Engineers

Vitaly Pismarev

Читайте классику (Инмон, Кимбалл,Дэн Линстедт (Data Vault))

На хабре был краткий обзор подходов к проектированию + можно посмотреть видео с конференций. Например, по DV были хорошие доклады от Avito и X5.

В авито Anchor Modeling. Нет у них по DV ничего. Только сравнение моделей и обоснование почему выбрали AM

источник

11:41пожаловаться #2

Vitaly Pismarev in Data Engineers

Yuriy Vasilyevskiy

В авито Anchor Modeling. Нет у них по DV ничего. Только сравнение моделей и обоснование почему выбрали AM

AM и DV очень похожи, не думаю что по началу важно понимать различие между ними. И вот это "Только сравнение моделей и обоснование почему выбрали AM" и есть самое ценное в подобных докладах от тех кто эти подходы внедрял.

источник

12:05пожаловаться #3

Konstantin Orzhekhov... in Data Engineers

Алексей

стоит вообще изучать mdx, насколько распространен сейчас этот язык запросов?

не использовал и никого не знаю кому бы он понадобился

источник

12:09пожаловаться #4

Алексей in Data Engineers

Konstantin Orzhekhovsky

не использовал и никого не знаю кому бы он понадобился

в mssql olap кубах знаю используется, больше нигде активного использования не видел

источник

12:10пожаловаться #5

Konstantin Orzhekhov... in Data Engineers

лет 5 назад Cognos отлично справлялся с трансформацией логики drag and drop в mdx запрос

источник

12:10пожаловаться #6

Konstantin Orzhekhov... in Data Engineers

по этому без всякого занния mdx строил достаточно сложные кубы, но после того проекта - ни разу не возвращался к этому

источник

12:11пожаловаться #7

Anton Zadorozhniy in Data Engineers

Алексей

стоит вообще изучать mdx, насколько распространен сейчас этот язык запросов?

нет, лучше изучите продвинутый SQL и попрактикуйтесь как следует (window functions, recursive queries, temporal, geospatial)

источник

12:23пожаловаться #8

Anton Zadorozhniy in Data Engineers

voenkom

Привет. Какие посоветуете книги по реляционной алгебре?

C. J. Date

источник

12:23пожаловаться #9

voenkom in Data Engineers

Anton Zadorozhniy

C. J. Date

Спасибо)

источник

12:28пожаловаться #10

Rodion in Data Engineers

Всем привет! а как подружить tez и orc с bloom filter, пишу спарком, при добалении .option("orc.bloom.filter.columns", "id") в тезе начинают сыпаться ошибки Failed to output to file. java.io.IOException: java.lang.RuntimeException: java.lang.IllegalArgumentException

источник

13:54пожаловаться #11

Алексей in Data Engineers

Rodion

я указывал в ддл таблицы

stored as orc
tblproperties ("orc.bloom.filter.columns"="material,rt_promo,/bic/client,/bic/card12,", "orc.bloom.filter.fpp"="0.05")

но тогда и писать в таблицу нужно хайвом

источник

14:10пожаловаться #12

Alexander in Data Engineers

А существует ли способ сконкатить большие CSV файлы прямо на S3 и запаковать в gz? Без лямбды*

источник

14:21пожаловаться #13

Mikhail Epikhin in Data Engineers

Alexander

А существует ли способ сконкатить большие CSV файлы прямо на S3 и запаковать в gz? Без лямбды*

spark.read.csv, spark.write?

источник

14:23пожаловаться #14

Anton Zadorozhniy in Data Engineers

Alexander

А существует ли способ сконкатить большие CSV файлы прямо на S3 и запаковать в gz? Без лямбды*

нет, вам нужен компьют какой-то, спарк, афина, просто контейнер с процессом

источник

14:24пожаловаться #15

Anton Zadorozhniy in Data Engineers

встроенный компьют в S3 ограничен S3 SELECT, и всякими инвентори/аналитиками и батч операциями (они в основном метаданные правят), все манипуляции делаются через отдельный компьют

источник

14:26пожаловаться #16

Alexander in Data Engineers

Принял, спасибо 👍

источник

14:26пожаловаться #17

Ruslan515 Y in Data Engineers

Всем добрый день. Кто-нибудь использовал ownCloud для обмена файлами(загрузка, формирование письмо со ссылкой на файл) и при этом использовал python? Если да, то какую либу юзали?

источник

14:39пожаловаться #18

Sergey in Data Engineers

Ruslan515 Y

Юзал owncloud в java. У них достаточно простой рест апи.

источник

16:52пожаловаться #19

Sergey Sheremeta in Data Engineers

дяденьки, здравствуйте!
подскажите, как быть в такой ситуации:
- есть Спарк-джоба, вычитывающая перекошенные данные
- по завершению вычитки нужно подсчитать общее кол-во строк и записать в HDFS
- при этом хочется отпустить ресурсы для уже отработавших экзекуторов, но они не могут де-аллоцироваться - так как в них закешированы данные датафрейма

нечо вроде:
val skewedDF = spark.read.format("пыщь-пыщь").load()
skewedDF.persist()
val cnt = skewedDF.count()
skewedDF.write.parquet("фьють-фьють")
skewedDF.unpersist()

как-то иначе count считать? аккумулятором каким-нибудь?

источник

17:27пожаловаться #20