Size: a a a

2019 July 02

K

KrivdaTheTriewe in Data Engineers
Alex
Сразу джобы которые требуют только текущие данные, потом те которые требуют немного исторических, по мере миграции переедет всё
Вы не dbs случайно ?
источник

A

Alex in Data Engineers
Agoda :)
источник

A

Alex in Data Engineers
@krivdathetriewe тоже данных хватает :)
источник

SB

Sergey Bilenko in Data Engineers
Nata
Ну у нас тоже, я все хочу спарк под кубер загнать
Вроде это экспериментальная ещё фича. Или уже нет?
источник

A

Alex in Data Engineers
2.4 вроде уже норм гоняется в кубике
источник

N

Nata in Data Engineers
Уже не экспериментальная
источник

SB

Sergey Bilenko in Data Engineers
Nata
Уже не экспериментальная
Они сами пишут в документации на Spark 2.4.3. - "The Kubernetes scheduler is currently experimental. In future versions, there may be behavioral changes around configuration, container images and entrypoints."

https://spark.apache.org/docs/latest/running-on-kubernetes.html
источник

AK

Andrew Kochen in Data Engineers
источник

AK

Andrew Kochen in Data Engineers
Подскажите, а что делать с backticks (`) в спарке? Все имена столбцов DataFrame обернуты в них, и ничего с ними не могу сделать
источник

AK

Andrew Kochen in Data Engineers
df("dt") и df("`dt`") не работают
источник

IR

Igor Ruff in Data Engineers
Получить список колонок без кавычек и сделать df=df.toDF(*columns)
источник

A

Alexey in Data Engineers
например так:
val newNames = df.columns.map( x => if (x.startsWith("`") && x.endsWith("`")) x.tail.init else x)
val dfRenamed = df.toDF(newNames:_*)
источник

AK

Andrew Kochen in Data Engineers
Спасибо!
источник

AK

Andrew Kochen in Data Engineers
Еще вопрос вдогонку) У меня Spark при записи в паркет почему-то какое-то из float-колонок(или даже не одно поле) начинает писать в словарь. Из-за этого запись в паркет растягивается на 3 часа вместо 10-ти минут. Отключение словаря sqlContext.setConf("parquet.enable.dictionary", "false") решает проблему, однако хочется , чтобы для остальных колонок механизм отрабатывал, когда надо. Можно отрубить dictionary только на определенные поля?
источник

AS

Adlet Sarsembaev in Data Engineers
всем привет, кто нибудь может подсказать, а hive(version 2.3.5) может работать с openx serde?
источник

CM

Carp-Bezverhnii Maxim in Data Engineers
Ребята всем привет, такая просьба может ктото скинуть пару примеров как делать quality check идеально в Python, буду очень благодарен! Заранее спасибо!
источник
2019 July 03

VE

Vladimir Elfimov in Data Engineers
Ребят, а кто нибудь знает какие то расширения на апишку airflow? Я посмотрел с этой доки ( https://airflow.apache.org/api.html ), там как то функционал не завезли, может есть какие то кастомные плагины/доделки?
источник

GG

George Gaál in Data Engineers
Vladimir Elfimov
Ребят, а кто нибудь знает какие то расширения на апишку airflow? Я посмотрел с этой доки ( https://airflow.apache.org/api.html ), там как то функционал не завезли, может есть какие то кастомные плагины/доделки?
Привет :-) не видел, иначе бы уже внедрили, правда? По идее там есть cli, который реализует определенный функционал, ну, и не проблема придумать способ его вызывать через http :-)
источник

PI

Pavel Ivanovsky in Data Engineers
Ребята, какую CDC заюзать, нужны логи дб в кафке....Attunity Replicate? Debezium? есть какой-то опыт?
источник

PG

Paul Golubev in Data Engineers
Какая бд
источник