Телеграмм чат группы moscowspark страница 846

Последние варианты: таблица не в бакетах? Если бакетированная, то их всегда будет одинаковое количество при чтении с помощью .table

Можно прочитать из hdfs, table properties при этом игнорируются.

Или ещё опции чтения hive, spark.sql.hive.convertmetastoreparquet проверить.

Больше ничего предложить не могу, советую работать с тем, что есть.

источник

13:40пожаловаться #5

☭S

☭ ⤳ λ Shinkevich... in Moscow Spark

+ :)

источник

13:44пожаловаться #6

Vladimir Ilyushkin in Moscow Spark

Своими словами табличка разбита на каталоги но она не партицирована. Hive не читает ее если не применить параметр рукурсивно

источник

13:45пожаловаться #7

☭S

☭ ⤳ λ Shinkevich... in Moscow Spark

@zuynew хороший доклад, спасибо

источник

13:45пожаловаться #8

Dmitry Zuev in Moscow Spark

Буду рад что-то обсудить. И послушать замечания

источник

13:46пожаловаться #9

☭S

☭ ⤳ λ Shinkevich... in Moscow Spark

Надо сначала переварить, попробовать, потом уже, если что .... дистагу я еще в спарк не затаскивал

источник

13:48пожаловаться #10

Dmitry Zuev in Moscow Spark

Ты на гите посмотри. Справедливости ради, compile time check в примере нет. Там надо через launcher

источник

13:49пожаловаться #11

ИК

Иван Калининский... in Moscow Spark

Тогда она не конвертируется при чтении в HadoopFSRelation, хайв читает по отдельным файлам. Никакие maxPartitionBytes там не проверяются и не играют роли

источник

13:51пожаловаться #12

☭S

☭ ⤳ λ Shinkevich... in Moscow Spark

Да, да... обязательно... я еще только что доклад посмотрел

источник

13:52пожаловаться #13

Vladimir Ilyushkin in Moscow Spark

Спасибо. 😔

источник

13:52пожаловаться #14

2021 October 13

Sergey Ivanychev in Moscow Spark

Ребят, а не знаете, можно ли в спарке делать кастомные User Defined Table Functions? Хочется на лету в SQL функцией получать датафрейм, который как-то нетривиально строится.

источник

10:57пожаловаться #15

Sergey Ivanychev in Moscow Spark

Хайв не вполне подходит тут

источник

10:58пожаловаться #16

ЕГ

Евгений Глотов... in Moscow Spark

Я когда-то искал, не нашёл

источник

11:19пожаловаться #17

Nikita Blagodarnyy in Moscow Spark

А можешь пример в псевдокоде нарисовать? Может эту задачу можно по другому решить. Так-то проект опенсурсный, пиши что хочешь в рамках стандартных апи.

источник

11:29пожаловаться #18

Sergey Ivanychev in Moscow Spark

на псевдокоде не могу, но в зависимости от параметров нужно правильно читать данные с диска, чтобы чтение было эффективным

источник

11:30пожаловаться #19

Sergey Ivanychev in Moscow Spark

+ в зависимости от параметра аугментировать данные используя логику в скале

источник

11:30пожаловаться #20