Size: a a a

2021 September 24

ИК

Иван Калининский... in Moscow Spark
Отличный вариант! Ещё бы не сканил весь RDD до этого, иногда может быть накладно
источник

ИК

Иван Калининский... in Moscow Spark
У меня похожая задача, в каждой строке большой бинарный объект и немного метаданных, поэтому было бы отлично, если бы spark читал сразу по одной строке в партицию RDD. Если делать по уму, то нужно записывать по одной строке в row group паркета (не знаю, как это сделать), а потом читать отдельные row group (это знаю, как сделать)
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Ура
источник

Д

Дмитрий in Moscow Spark
Проходил примерно такую задачу, запихать в партицию данные только для одного файла, а затем записать этот файл. Пишу на экзекуторах, данные подсолил, обработал, затем убрал соль и записал, каждый екзекутор пишет свой файл из своей партиции.
источник
2021 September 25

AP

Anton Pilipenko in Moscow Spark
привет, кто-то помнит как называется параметр - количество строк которые берется для инференса схемы json? Сорри что -то вообще не могу найти
источник

ЕГ

Евгений Глотов... in Moscow Spark
.option("inferSchema", "true")
источник

AP

Anton Pilipenko in Moscow Spark
не не - это то понятно, но оно ж берет типа первые 200 или около того строк для вывода схемы.
источник

ЕГ

Евгений Глотов... in Moscow Spark
А, блиииин, где-то было
источник

AP

Anton Pilipenko in Moscow Spark
воооот , я вот не могу найти как оно -)
источник

ЕГ

Евгений Глотов... in Moscow Spark
источник

ЕГ

Евгений Глотов... in Moscow Spark
Там внизу чёт есть
источник

AP

Anton Pilipenko in Moscow Spark
спасибо, вроде похоже. Но чет мне память говорить что там был какой-то прям параметр, хотя я могу ошибаться
источник

AS

Andrey Smirnov in Moscow Spark
val samplingRatio =
   parameters.get("samplingRatio").map(_.toDouble).getOrElse(1.0)
источник

AS

Andrey Smirnov in Moscow Spark
а там дальше
   // In each RDD partition, perform schema inference on each row and merge afterwards.
   val typeMerger = JsonInferSchema.compatibleRootType(columnNameOfCorruptRecord, parseMode)
т.е. про 200 строк информация неверная/устаревшая
источник

AP

Anton Pilipenko in Moscow Spark
понял, спасибо, видимо это флешбеки версий 1.6
источник
2021 September 27

VI

Vladimir Ilyushkin in Moscow Spark
Скопировал табличку с помощью distcp в паркете. Как ее можно прикупить ? Create table не получается, создаётся пустая табличка. Msk repair не помогает.
источник

VI

Vladimir Ilyushkin in Moscow Spark
Кто нить сталкивался ?
источник

PK

Pavel Klemenkov in Moscow Spark
Она external с location?
источник

VI

Vladimir Ilyushkin in Moscow Spark
Да
источник

VI

Vladimir Ilyushkin in Moscow Spark
/user/hive/warehouse/.....
источник