Телеграмм чат группы moscowspark страница 947

Коллеги, всем привет!

Вопрос

Есть папка в HDFS, в ней лежат паркеты. Паркеты имеют одну из двух схем:

- либо col_1, col_2, col_3

- либо col_1, col_2, col_4, col_5

Все колонки в обоих схемах являются nullable

Если я читаю спарком всю папку целиком и не указываю mergeSchema - то получившийся датафрейм имеет первый вариант схемы:

col_1, col_2, col_3

Кто-нибудь может объяснить почему это работает именно так?
Спасибо заранее

источник

12:46пожаловаться #5

Pavel Lu in Moscow Spark

вероятно потому, что в паркете есть схема

источник

12:57пожаловаться #6

Pavel Lu in Moscow Spark

или вопрос, почему не вторая схема?

источник

12:58пожаловаться #7

ЕГ

Евгений Глотов... in Moscow Spark

Он первый файл читает, берёт оттуда схему и ему норм

источник

12:58пожаловаться #8

ДД

Джон Дориан... in Moscow Spark

О, спасибо. Предполагал что так, но пруфов не нашел :/

источник

12:59пожаловаться #9

Pavel Lu in Moscow Spark

а, тут без Хайва, тогда да

источник

12:59пожаловаться #10

ДД

Джон Дориан... in Moscow Spark

Да, вопрос именно в логике, почему именно этот набор колонок, а не второй, например

источник

12:59пожаловаться #11

BadRat in Moscow Spark

When we read multiple Parquet files using Apache Spark, we may end up with a problem caused by schema differences. When Spark gets a list of files to read, it picks the schema from either the Parquet summary file or a randomly chosen input file

источник

13:03пожаловаться #12

ДД

Джон Дориан... in Moscow Spark

Нашел, спасибо большое

источник

13:07пожаловаться #13

ИК

Иван Калининский... in Moscow Spark

Есть возможность записи файлов с приоритетной схемой (_metadata, _common_metadata). Но эти файлы deprecated, так что пользоваться ими не совсем правильно. А всё потому что дополнительные файлы предоставляют ещё один вариант выстрела в ногу, но не решают проблемы в реализации schema evolution

источник

13:08пожаловаться #14

kvadratura in Moscow Spark

схема эволюшн.. полностью эту проблему в случае любых схем не решает, наверное, ничто

источник

13:16пожаловаться #15

ДД

Джон Дориан... in Moscow Spark

Почитаю, спасибо

источник

13:18пожаловаться #16

R in Moscow Spark

Всем привет. Кто нибудь знает как заменить значения типа Long в колонке (без udf и конструирования огромного case when)? na.replace тип Long не поддерживает :(

источник

20:36пожаловаться #17

Pavel Lu in Moscow Spark

заменить на что?

источник

20:46пожаловаться #18

R in Moscow Spark

@pal548 , есть объект Map[Long, Long]

источник

20:46пожаловаться #19

R in Moscow Spark

заменить key -> value, как в na.replace только для Long колонки

источник

20:47пожаловаться #20