Телеграмм чат группы moscowspark страница 812

Size: a a a

Moscow Spark

1176 membersпожаловаться на группу

2021 September 24

ИК

Иван Калининский... in Moscow Spark

Отличный вариант! Ещё бы не сканил весь RDD до этого, иногда может быть накладно

источник

10:13пожаловаться #1

ИК

Иван Калининский... in Moscow Spark

У меня похожая задача, в каждой строке большой бинарный объект и немного метаданных, поэтому было бы отлично, если бы spark читал сразу по одной строке в партицию RDD. Если делать по уму, то нужно записывать по одной строке в row group паркета (не знаю, как это сделать), а потом читать отдельные row group (это знаю, как сделать)

источник

10:20пожаловаться #2

ПФ

Паша Финкельштейн... in Moscow Spark

Ура

источник

19:52пожаловаться #3

Дмитрий in Moscow Spark

Проходил примерно такую задачу, запихать в партицию данные только для одного файла, а затем записать этот файл. Пишу на экзекуторах, данные подсолил, обработал, затем убрал соль и записал, каждый екзекутор пишет свой файл из своей партиции.

источник

22:06пожаловаться #4

2021 September 25

Anton Pilipenko in Moscow Spark

привет, кто-то помнит как называется параметр - количество строк которые берется для инференса схемы json? Сорри что -то вообще не могу найти

источник

17:06пожаловаться #5

ЕГ

Евгений Глотов... in Moscow Spark

.option("inferSchema", "true")

источник

17:08пожаловаться #6

Anton Pilipenko in Moscow Spark

не не - это то понятно, но оно ж берет типа первые 200 или около того строк для вывода схемы.

источник

17:09пожаловаться #7

ЕГ

Евгений Глотов... in Moscow Spark

А, блиииин, где-то было

источник

17:09пожаловаться #8

Anton Pilipenko in Moscow Spark

воооот , я вот не могу найти как оно -)

источник

17:10пожаловаться #9

ЕГ

Евгений Глотов... in Moscow Spark

https://stackoverflow.com/questions/56566342/spark-sampling-options-in-json-reader-ignored

Stack Overflow

Spark sampling options in JSON reader ignored?

In the following two examples, the number of tasks run and the corresponding run time imply that the sampling options have no effect, as they are similar to jobs run without any sampling options:

...

источник

17:11пожаловаться #10

ЕГ

Евгений Глотов... in Moscow Spark

Там внизу чёт есть

источник

17:12пожаловаться #11

Anton Pilipenko in Moscow Spark

спасибо, вроде похоже. Но чет мне память говорить что там был какой-то прям параметр, хотя я могу ошибаться

источник

17:14пожаловаться #12

Andrey Smirnov in Moscow Spark

val samplingRatio =
parameters.get("samplingRatio").map(_.toDouble).getOrElse(1.0)

источник

17:20пожаловаться #13

Andrey Smirnov in Moscow Spark

а там дальше
// In each RDD partition, perform schema inference on each row and merge afterwards.
val typeMerger = JsonInferSchema.compatibleRootType(columnNameOfCorruptRecord, parseMode)
т.е. про 200 строк информация неверная/устаревшая

источник

17:22пожаловаться #14

Anton Pilipenko in Moscow Spark

понял, спасибо, видимо это флешбеки версий 1.6

источник

19:15пожаловаться #15

2021 September 27

Vladimir Ilyushkin in Moscow Spark

Скопировал табличку с помощью distcp в паркете. Как ее можно прикупить ? Create table не получается, создаётся пустая табличка. Msk repair не помогает.

источник

13:23пожаловаться #16

Vladimir Ilyushkin in Moscow Spark

Кто нить сталкивался ?

источник

13:24пожаловаться #17

Pavel Klemenkov in Moscow Spark

Она external с location?

источник

13:34пожаловаться #18

Vladimir Ilyushkin in Moscow Spark

Да

источник

13:34пожаловаться #19

Vladimir Ilyushkin in Moscow Spark

/user/hive/warehouse/.....

источник

13:35пожаловаться #20