Size: a a a

2019 March 14

ЕГ

Евгений Глотов... in Moscow Spark
Он должен быть одинаковый на локальной машине и на нодах кластера
источник

ЕГ

Евгений Глотов... in Moscow Spark
Путь к спарк хоум
источник

ЕГ

Евгений Глотов... in Moscow Spark
Да прост включите ноут в кластер эджнодой, чё уж там😆👌
источник

R

Rogoley in Moscow Spark
Евгений Глотов
Да прост включите ноут в кластер эджнодой, чё уж там😆👌
а что, вариант 🙂
источник
2019 March 15

НК

Николай Крупий... in Moscow Spark
источник
2019 March 18

K

KrivdaTheTriewe in Moscow Spark
Переслано от KrivdaTheTriewe
источник

K

KrivdaTheTriewe in Moscow Spark
Переслано от KrivdaTheTriewe
Supports Spark 2.3 and up.
   Enables declarative application specification and management of applications through custom resources.
   Automatically runs spark-submit on behalf of users for each SparkApplication eligible for submission.
   Provides native cron support for running scheduled applications.
   Supports customization of Spark pods beyond what Spark natively is able to do through the mutating admission webhook, e.g., mounting ConfigMaps and volumes, and setting pod affinity/anti-affinity.
   Supports automatic application re-submission for updated SparkAppliation objects with updated specification.
   Supports automatic application restart with a configurable restart policy.
   Supports automatic retries of failed submissions with optional linear back-off.
   Supports mounting local Hadoop configuration as a Kubernetes ConfigMap automatically via sparkctl.
   Supports automatically staging local application dependencies to Google Cloud Storage (GCS) via sparkctl.
   Supports collecting and exporting application-level metrics and driver/executor metrics to Prometheus.
источник
2019 March 20

N

Nikolay in Moscow Spark
Вот скажите известный проект tungsten . Он в какой момент работает?  Вот я задумался, что может он работает только тогда, когда что то щакешированно
источник

N

Nikolay in Moscow Spark
Понял так, что hashMap они свой сделали.  В этом и есть смысл основной .
источник

PK

Pavel Klemenkov in Moscow Spark
Я вообще всегда считал, что Tungsten - это про оптимизацию представления данных, т.е. правильно хранение и передача типов, и в моей голове это работает только при типизации, т.е. в датасетах
источник

N

Nikolay in Moscow Spark
Когда строится джойн или агрегация происходит. Нужна как раз ,hashMap
источник

PK

Pavel Klemenkov in Moscow Spark
Однако написано, что Tungsten - это еще и Whole-Stage Code Generation. А whole stage code gen - это любое вычисление на Spark SQL
источник

PK

Pavel Klemenkov in Moscow Spark
Nikolay
Когда строится джойн или агрегация происходит. Нужна как раз ,hashMap
Это если broadcasthashjoin используется. А алгоритм слияния по-умолчанию в спарке - SortMergeJoin
источник

ЕГ

Евгений Глотов... in Moscow Spark
А что, тунгстен до сих пор существует? Он разве не превратился в каталист?
источник

N

Nikolay in Moscow Spark
Есть ещё shuffle hash join ( это который не broadcadt)
источник

ЕГ

Евгений Глотов... in Moscow Spark
Это и есть сортмёрдж
источник

N

Nikolay in Moscow Spark
Не. Это третий способ , который как раз дефоултный. Всего их 3. Broadcast, sort merge, shuffle hash join
источник

PK

Pavel Klemenkov in Moscow Spark
Ещё nested loop join есть)
источник

DG

Denis Gabaydulin in Moscow Spark
Tungsten сильно спецплен с кодогенерацией. По сути кодогенерация "ходит" именно в этот бинарный формат за данными.
источник

N

Nikolay in Moscow Spark
Нестед луп ест в базах. Обычно в нем используется индекс.
источник