Size: a a a

2021 December 22

ЕГ

Евгений Глотов... in Moscow Spark
Spark.read.fornat("kafka").load(), и там параметры вроде есть сколько читать, но надо уточнить
источник

АА

Артем Анистратов... in Moscow Spark
Да вот не хотелось бы. Ранее пробовал с офсетами приближенными к последним, и подобное поведение устраивало. Но под батчи не хотелось бы переделывать
источник

ЕГ

Евгений Глотов... in Moscow Spark
Можно убивать стрим по таймауту😆
источник

ЕГ

Евгений Глотов... in Moscow Spark
Жёска)
источник
2021 December 23

ДД

Джон Дориан... in Moscow Spark
Коллеги, всем привет!

Вопрос

Есть папка в HDFS, в ней лежат паркеты. Паркеты имеют одну из двух схем:

- либо col_1, col_2, col_3

- либо col_1, col_2, col_4, col_5

Все колонки в обоих схемах являются nullable

Если я читаю спарком всю папку целиком и не указываю mergeSchema - то получившийся датафрейм имеет первый вариант схемы:

col_1, col_2, col_3

Кто-нибудь может объяснить почему это работает именно так?
Спасибо заранее
источник

PL

Pavel Lu in Moscow Spark
вероятно потому, что в паркете есть схема
источник

PL

Pavel Lu in Moscow Spark
или вопрос, почему не вторая схема?
источник

ЕГ

Евгений Глотов... in Moscow Spark
Он первый файл читает, берёт оттуда схему и ему норм
источник

ДД

Джон Дориан... in Moscow Spark
О, спасибо. Предполагал что так, но пруфов не нашел :/
источник

PL

Pavel Lu in Moscow Spark
а, тут без Хайва, тогда да
источник

ДД

Джон Дориан... in Moscow Spark
Да, вопрос именно в логике, почему именно этот набор колонок, а не второй, например
источник

B

BadRat in Moscow Spark
When we read multiple Parquet files using Apache Spark, we may end up with a problem caused by schema differences. When Spark gets a list of files to read, it picks the schema from either the Parquet summary file or a randomly chosen input file
источник

ДД

Джон Дориан... in Moscow Spark
Нашел, спасибо большое
источник

ИК

Иван Калининский... in Moscow Spark
Есть возможность записи файлов с приоритетной схемой (_metadata, _common_metadata). Но эти файлы deprecated, так что пользоваться ими не совсем правильно. А всё потому что дополнительные файлы предоставляют ещё один вариант выстрела в ногу, но не решают проблемы в реализации schema evolution
источник

k

kvadratura in Moscow Spark
схема эволюшн.. полностью эту проблему в случае любых схем не решает, наверное, ничто
источник

ДД

Джон Дориан... in Moscow Spark
Почитаю, спасибо
источник

R

R in Moscow Spark
Всем привет. Кто нибудь знает как заменить значения типа Long в колонке (без udf и конструирования огромного case when)? na.replace тип Long не поддерживает :(
источник

PL

Pavel Lu in Moscow Spark
заменить на что?
источник

R

R in Moscow Spark
@pal548 , есть объект Map[Long, Long]
источник

R

R in Moscow Spark
заменить key -> value, как в na.replace только для Long колонки
источник