Телеграмм чат группы hadoopusers страница 1420

Они сами пишут в документации на Spark 2.4.3. - "The Kubernetes scheduler is currently experimental. In future versions, there may be behavioral changes around configuration, container images and entrypoints."

https://spark.apache.org/docs/latest/running-on-kubernetes.html

источник

11:55пожаловаться #7

Andrew Kochen in Data Engineers

источник

12:52пожаловаться #8

Andrew Kochen in Data Engineers

Подскажите, а что делать с backticks (`) в спарке? Все имена столбцов DataFrame обернуты в них, и ничего с ними не могу сделать

источник

12:52пожаловаться #9

Andrew Kochen in Data Engineers

df("dt") и df("`dt`") не работают

источник

12:52пожаловаться #10

Igor Ruff in Data Engineers

Получить список колонок без кавычек и сделать df=df.toDF(*columns)

источник

13:29пожаловаться #11

Alexey in Data Engineers

например так:

val newNames = df.columns.map( x => if (x.startsWith("`") && x.endsWith("`")) x.tail.init else x)
val dfRenamed = df.toDF(newNames:_*)

источник

13:29пожаловаться #12

Andrew Kochen in Data Engineers

Спасибо!

источник

13:32пожаловаться #13

Andrew Kochen in Data Engineers

Еще вопрос вдогонку) У меня Spark при записи в паркет почему-то какое-то из float-колонок(или даже не одно поле) начинает писать в словарь. Из-за этого запись в паркет растягивается на 3 часа вместо 10-ти минут. Отключение словаря sqlContext.setConf("parquet.enable.dictionary", "false") решает проблему, однако хочется , чтобы для остальных колонок механизм отрабатывал, когда надо. Можно отрубить dictionary только на определенные поля?

источник

14:23пожаловаться #14

Adlet Sarsembaev in Data Engineers

всем привет, кто нибудь может подсказать, а hive(version 2.3.5) может работать с openx serde?

источник

20:32пожаловаться #15

Carp-Bezverhnii Maxim in Data Engineers

Ребята всем привет, такая просьба может ктото скинуть пару примеров как делать quality check идеально в Python, буду очень благодарен! Заранее спасибо!

источник

21:49пожаловаться #16

2019 July 03

Vladimir Elfimov in Data Engineers

Ребят, а кто нибудь знает какие то расширения на апишку airflow? Я посмотрел с этой доки ( https://airflow.apache.org/api.html ), там как то функционал не завезли, может есть какие то кастомные плагины/доделки?

источник

00:14пожаловаться #17

George Gaál in Data Engineers

Vladimir Elfimov

Привет :-) не видел, иначе бы уже внедрили, правда? По идее там есть cli, который реализует определенный функционал, ну, и не проблема придумать способ его вызывать через http :-)

источник

04:54пожаловаться #18

Pavel Ivanovsky in Data Engineers

Ребята, какую CDC заюзать, нужны логи дб в кафке....Attunity Replicate? Debezium? есть какой-то опыт?

источник

09:26пожаловаться #19

Paul Golubev in Data Engineers

Какая бд

источник

10:06пожаловаться #20