Size: a a a

2021 September 08

ПФ

Паша Финкельштейн... in Moscow Spark
+ к вопросу про excel.
источник

KR

Kagermanov Ramazan in Moscow Spark
Его легче перевести в таблицу без потери типов
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Легче сделать .write.jdbc без поетри типов
источник

ММ

Максим Мартынов... in Moscow Spark
Нужно больше удаления гланд через ж.
источник

Y

Yurgen in Moscow Spark
Доброго дня!  
Пытаюсь вытащить из Hbase определенную строку по ключу, в hsbase shell все работает но через спарк ничего не выводится. При этом в физ плане запроса присутствует  PushedFilters: *EqualTo(id, 12345...  
Если делаю после load  persist, тогда работает но очень долго сохраняет на диск, таблица весит терабайты.
Конектор hortonworks, в доке написано что должен поддерживать partition pruning, predicate pushdown, Scanning and BulkGet, etc.
источник

N

Nikita Blagodarnyy in Moscow Spark
покажи код
источник

N

Nikita Blagodarnyy in Moscow Spark
в hbase нет партиций.
источник

ЕГ

Евгений Глотов... in Moscow Spark
Не надо делать персист на терабайты, надо сохранять напрямую в хдфс и потом читать оттуда
источник

ЕГ

Евгений Глотов... in Moscow Spark
Это будет в большинстве случаев в разы быстрее
источник

ПБ

Повелитель Бури... in Moscow Spark
А чес персист отличает от схранения в hdfs? Это не одно и тоже?

https://sparkbyexamples.com/spark/spark-difference-between-cache-and-persist/
источник

N

Nikita Blagodarnyy in Moscow Spark
Конехтор видимо делает не гет по ключу, а тащит все внутрь и там пытается фильтровать.
источник

ЕГ

Евгений Глотов... in Moscow Spark
Объёмом. Персист - это распакованный в память, а потом сериализованный дф
Сохранение - это качественно сжатый паркет/орк
источник

ЕГ

Евгений Глотов... in Moscow Spark
Плюс для персиста спарку нужно поддерживать структуры, чтоб его можно было считать, где что лежит, и т д
источник

ЕГ

Евгений Глотов... in Moscow Spark
А, понял, две проблемы по цене одной)
источник

N

Nikita Blagodarnyy in Moscow Spark
Тем, что это разные вещи. Персист будет пытаться удержать это в памяти и спилить на диск, если не влезет. Хдфс там, насколько я понимаю, вообще не задействован.
источник

N

Nikita Blagodarnyy in Moscow Spark
Персист нужен для исключения пересчётов, а сохранение-для длительного хранения.
источник

A

Alex in Moscow Spark
пока да
но после ухода в кубик всякие кеши/шафлы предлагается сбрасывать на не диск а в hdfs/s3/другой распределённый сторейдж
источник

A

Alex in Moscow Spark
но пока работа ещё в процессе
источник

ЕГ

Евгений Глотов... in Moscow Spark
Да он и так скидывается на хдфс диски роллом
источник

ЕГ

Евгений Глотов... in Moscow Spark
Если не выделены отдельно темп диски под шафл
источник