Size: a a a

2019 July 03

GP

Grigory Pomadchin in Moscow Spark
Vladislav
Добрый день! У кого-нибудь есть книга "Эффективный Spark" Холдена Карау?
поддержи автора лучше
источник

V

Vladislav in Moscow Spark
Ок
источник

ZM

ZLoyer Matveev in Moscow Spark
Grigory Pomadchin
поддержи автора лучше
Это да. Если нравится книга, то поддержка автора работает как мотивация продолжать.
источник

O

Oleg in Moscow Spark
А как часто проводятся митапы?
источник

PK

Pavel Klemenkov in Moscow Spark
По статистике 3 раза в год
источник
2019 July 05

OP

O. Petr in Moscow Spark
А есть ли способ перехватить sigterm в драйвере или каким либо чудом выгрузить куда нибудь бродкаст переменные при прерывании StreamingContext? Или после awaitTermination еще есть доступ к sc и его бродкаст переменным ?)
источник

DG

Denis Gabaydulin in Moscow Spark
Думаю, да. Это же jvm app. SignalHandler должен помочь.
источник

DG

Denis Gabaydulin in Moscow Spark
Но возможно в самом спарке есть listner для этого (там их до черта, в API).
источник

G

Gev in Moscow Spark
Народ. Образовалась такая проблема:
1. Читаю данные из AVRO файла dataframe
2. Делаю Cast преобразование для поля Long в timestamp
3. Пишу полученый dataframe в формате orc в другую папку.
4. Сравниваю timestamp в исходном dataframe и в полученном и они расходятся на доли секунд (в полученом на доли секунд больше
источник

G

Gev in Moscow Spark
val df_avro = spark.read.format("com.databricks.spark.avro").load("/data")
val df_avro1 = df_avro.withColumn("UPDATE_DT", (df_avro("UPDATE_DT") / 1000).cast("timestamp"))
df_avro1.repartition(1).write.mode("overwrite").format("orc").option("compression", "snappy").save("/data/tmp")
val df_orc = spark.read.format("orc").load("/data/tmp")

df_avro.withColumn("UPDATE_DT", (df_avro("UPDATE_DT") / 1000).cast("timestamp")).select("*").where ("ID=1").show(10,false)
df_orc.select("*").where ("ID=1").show(10,false)
+--------+-----------------------+
|ID      |      UPDATE_DT        |
+--------+-----------------------+
|1       |2017-01-07 21:35:24.538|
+--------+-----------------------+

+--------+-----------------------+
|ID      |      UPDATE_DT        |
+--------+-----------------------+
|1       |2017-01-07 21:35:25.076|
+--------+-----------------------+
источник

PK

Pavel Klemenkov in Moscow Spark
Забавно
источник

GP

Grigory Pomadchin in Moscow Spark
Даже не знаю что сказать) что-то не сходится)
источник

GP

Grigory Pomadchin in Moscow Spark
если воспроизводимый пример будет, то можно будет посмотреть в чем дело
источник

G

Gev in Moscow Spark
Исходное значение: 1483814124538
источник

G

Gev in Moscow Spark
т.е. первый результат корректный. Что происходит когда я этот dataframe записываю - загадка
источник

JD

John Doe in Moscow Spark
Похоже из-за каста во флоат
источник

G

Gev in Moscow Spark
John Doe
Похоже из-за каста во флоат
Было бы так ладно но каст то уже сделан и я просто его записываю.
источник

K

KrivdaTheTriewe in Moscow Spark
может план посмотреть?
источник

G

Gev in Moscow Spark
KrivdaTheTriewe
может план посмотреть?
А что, можно посмотреть план запси ?
источник

K

KrivdaTheTriewe in Moscow Spark
explain(true)
источник