Size: a a a

2021 October 12

VI

Vladimir Ilyushkin in Moscow Spark
Не помогло
источник

ИК

Иван Калининский... in Moscow Spark
Поставь 300 мб!
источник

VI

Vladimir Ilyushkin in Moscow Spark
Где то читал, что если есть shuffle, то он работать не будет
источник

VI

Vladimir Ilyushkin in Moscow Spark
Без изменений
источник

ИК

Иван Калининский... in Moscow Spark
Последние варианты: таблица не в бакетах? Если бакетированная, то их всегда будет одинаковое количество при чтении с помощью .table

Можно прочитать из hdfs, table properties при этом игнорируются.

Или ещё опции чтения hive, spark.sql.hive.convertmetastoreparquet проверить.

Больше ничего предложить не могу, советую работать с тем, что есть.
источник

☭S

☭ ⤳ λ Shinkevich... in Moscow Spark
+ :)
источник

VI

Vladimir Ilyushkin in Moscow Spark
Своими словами табличка разбита на каталоги но она не партицирована.  Hive не читает ее если не применить параметр рукурсивно
источник

☭S

☭ ⤳ λ Shinkevich... in Moscow Spark
@zuynew хороший доклад, спасибо
источник

DZ

Dmitry Zuev in Moscow Spark
Буду рад что-то обсудить. И послушать замечания
источник

☭S

☭ ⤳ λ Shinkevich... in Moscow Spark
Надо сначала переварить, попробовать, потом уже, если что .... дистагу я еще в спарк не затаскивал
источник

DZ

Dmitry Zuev in Moscow Spark
Ты на гите посмотри. Справедливости ради, compile time check в примере нет. Там надо через launcher
источник

ИК

Иван Калининский... in Moscow Spark
Тогда она не конвертируется при чтении в HadoopFSRelation, хайв читает по отдельным файлам. Никакие maxPartitionBytes там не проверяются и не играют роли
источник

☭S

☭ ⤳ λ Shinkevich... in Moscow Spark
Да, да... обязательно... я еще только что доклад посмотрел
источник

VI

Vladimir Ilyushkin in Moscow Spark
Спасибо. 😔
источник
2021 October 13

SI

Sergey Ivanychev in Moscow Spark
Ребят, а не знаете, можно ли в спарке делать кастомные User Defined Table Functions? Хочется на лету в SQL функцией получать датафрейм, который как-то нетривиально строится.
источник

SI

Sergey Ivanychev in Moscow Spark
Хайв не вполне подходит тут
источник

ЕГ

Евгений Глотов... in Moscow Spark
Я когда-то искал, не нашёл
источник

N

Nikita Blagodarnyy in Moscow Spark
А можешь пример в псевдокоде нарисовать? Может эту задачу можно по другому решить. Так-то проект опенсурсный, пиши что хочешь в рамках стандартных апи.
источник

SI

Sergey Ivanychev in Moscow Spark
на псевдокоде не могу, но в зависимости от параметров нужно правильно читать данные с диска, чтобы чтение было эффективным
источник

SI

Sergey Ivanychev in Moscow Spark
+ в зависимости от параметра аугментировать данные используя логику в скале
источник