Size: a a a

2020 November 19

А

Алексей in Data Engineers
стоит вообще изучать mdx, насколько распространен сейчас этот язык запросов?
источник

YV

Yuriy Vasilyevskiy in Data Engineers
Vitaly Pismarev
Читайте классику (Инмон, Кимбалл,Дэн Линстедт (Data Vault))

На хабре был краткий обзор подходов к проектированию + можно посмотреть видео с конференций. Например, по DV были хорошие доклады от Avito и X5.
В авито Anchor Modeling. Нет у них по DV ничего. Только сравнение моделей и обоснование почему выбрали AM
источник

VP

Vitaly Pismarev in Data Engineers
Yuriy Vasilyevskiy
В авито Anchor Modeling. Нет у них по DV ничего. Только сравнение моделей и обоснование почему выбрали AM
AM и  DV очень похожи, не думаю что по началу важно понимать различие между ними. И вот это "Только сравнение моделей и обоснование почему выбрали AM" и есть самое ценное в подобных докладах от тех кто эти подходы внедрял.
источник

KO

Konstantin Orzhekhov... in Data Engineers
Алексей
стоит вообще изучать mdx, насколько распространен сейчас этот язык запросов?
не использовал и никого не знаю кому бы он понадобился
источник

А

Алексей in Data Engineers
Konstantin Orzhekhovsky
не использовал и никого не знаю кому бы он понадобился
в mssql olap кубах знаю используется, больше нигде активного использования не видел
источник

KO

Konstantin Orzhekhov... in Data Engineers
лет 5 назад Cognos отлично справлялся с трансформацией логики drag and drop в mdx запрос
источник

KO

Konstantin Orzhekhov... in Data Engineers
по этому без всякого занния mdx строил достаточно сложные кубы, но после того проекта - ни разу не возвращался к этому
источник

AZ

Anton Zadorozhniy in Data Engineers
Алексей
стоит вообще изучать mdx, насколько распространен сейчас этот язык запросов?
нет, лучше изучите продвинутый SQL и попрактикуйтесь как следует (window functions, recursive queries, temporal, geospatial)
источник

AZ

Anton Zadorozhniy in Data Engineers
voenkom
Привет. Какие посоветуете книги по реляционной алгебре?
C. J. Date
источник

v

voenkom in Data Engineers
Спасибо)
источник

R

Rodion in Data Engineers
Всем привет! а как подружить tez и orc с  bloom filter, пишу спарком, при добалении .option("orc.bloom.filter.columns", "id") в тезе начинают сыпаться ошибки Failed to output to file. java.io.IOException: java.lang.RuntimeException: java.lang.IllegalArgumentException
источник

А

Алексей in Data Engineers
Rodion
Всем привет! а как подружить tez и orc с  bloom filter, пишу спарком, при добалении .option("orc.bloom.filter.columns", "id") в тезе начинают сыпаться ошибки Failed to output to file. java.io.IOException: java.lang.RuntimeException: java.lang.IllegalArgumentException
я указывал в ддл таблицы
stored as orc
tblproperties ("orc.bloom.filter.columns"="material,rt_promo,/bic/client,/bic/card12,", "orc.bloom.filter.fpp"="0.05")

но тогда и писать в таблицу нужно хайвом
источник

A

Alexander in Data Engineers
А существует ли способ сконкатить большие CSV файлы прямо на S3 и запаковать в gz? Без лямбды*
источник

ME

Mikhail Epikhin in Data Engineers
Alexander
А существует ли способ сконкатить большие CSV файлы прямо на S3 и запаковать в gz? Без лямбды*
spark.read.csv, spark.write?
источник

AZ

Anton Zadorozhniy in Data Engineers
Alexander
А существует ли способ сконкатить большие CSV файлы прямо на S3 и запаковать в gz? Без лямбды*
нет, вам нужен компьют какой-то, спарк, афина, просто контейнер с процессом
источник

AZ

Anton Zadorozhniy in Data Engineers
встроенный компьют в S3 ограничен S3 SELECT, и всякими инвентори/аналитиками и батч операциями (они в основном метаданные правят), все манипуляции делаются через отдельный компьют
источник

A

Alexander in Data Engineers
Принял, спасибо 👍
источник

RY

Ruslan515 Y in Data Engineers
Всем добрый день. Кто-нибудь использовал ownCloud для обмена файлами(загрузка, формирование письмо со ссылкой на файл) и при этом использовал python? Если да, то какую либу юзали?
источник

S

Sergey in Data Engineers
Ruslan515 Y
Всем добрый день. Кто-нибудь использовал ownCloud для обмена файлами(загрузка, формирование письмо со ссылкой на файл) и при этом использовал python? Если да, то какую либу юзали?
Юзал owncloud в java. У них достаточно простой рест апи.
источник

SS

Sergey Sheremeta in Data Engineers
дяденьки, здравствуйте!
подскажите, как быть в такой ситуации:
- есть Спарк-джоба, вычитывающая перекошенные данные
- по завершению вычитки нужно подсчитать общее кол-во строк и записать в HDFS
- при этом хочется отпустить ресурсы для уже отработавших экзекуторов, но они не могут де-аллоцироваться - так как в них закешированы данные датафрейма

нечо вроде:
val skewedDF = spark.read.format("пыщь-пыщь").load()
skewedDF.persist()
val cnt = skewedDF.count()
skewedDF.write.parquet("фьють-фьють")
skewedDF.unpersist()

как-то иначе count считать? аккумулятором каким-нибудь?
источник