Size: a a a

2019 July 23

DG

Denis Gabaydulin in Moscow Spark
Вроде во втором случае будет получше потому что формат более gc friendly. Но я не замерял если что.
источник
2019 July 24

ТС

Тимофей Смирнов... in Moscow Spark
Привет, а кто нибудь запускал уже python spark на Kubernetes ?
источник

KS

Kostya Shchetkin in Moscow Spark
источник

ТС

Тимофей Смирнов... in Moscow Spark
Нет, ща зайду
источник

GP

Grigory Pomadchin in Moscow Spark
Тимофей Смирнов
Привет, а кто нибудь запускал уже python spark на Kubernetes ?
пай спарк конкретно - нет
обычный с 2.2 в проде (когда он еще был отдельным форком)
источник

GP

Grigory Pomadchin in Moscow Spark
в текущей версии нету шафл сервиса и нет дайнемик алокейшена
нет возможнсти файлы с локалки запихивать в ресурс сервис (его потому что нет)
источник

GP

Grigory Pomadchin in Moscow Spark
но, к слову в 2.2. это все было и было удобно
источник

GP

Grigory Pomadchin in Moscow Spark
источник

ТС

Тимофей Смирнов... in Moscow Spark
а подержка kubernetes разве не в 2.3 появилась ?
источник

GP

Grigory Pomadchin in Moscow Spark
Тимофей Смирнов
а подержка kubernetes разве не в 2.3 появилась ?
был форк https://apache-spark-on-k8s.github.io/userdocs/running-on-kubernetes.html который потом затакивать стали в основной спарк
источник

GP

Grigory Pomadchin in Moscow Spark
он фактически частично и вмерджен в мастер и его можно наблюдать в 2.3 и 2.4
источник

ТС

Тимофей Смирнов... in Moscow Spark
а в чем может быть проблема ?
driver зависает и ничего не делает, висит в статусе Running, а executor в статусе Pending
когда захожу в historical server там висит одна таска которую вызывает этот код:
SQL_CONTEXT.read.csv(
       path,
       inferSchema=True,
       header=True
   )
источник

ТС

Тимофей Смирнов... in Moscow Spark
путь на файлик который закачен в образ
источник

С

Сюткин in Moscow Spark
Господа, а использовать sha/hash в hive/spark по колонкам для создания уникального ключа нормальная практика или можете предложить что-то ещё?
источник

С

Сюткин in Moscow Spark
Hash вроде 32 бита возвращает, есть что побольше?)))
источник

K

KrivdaTheTriewe in Moscow Spark
Сюткин
Hash вроде 32 бита возвращает, есть что побольше?)))
Хеш не является уникальным числом
источник

DN

Dmitrii Nosov in Moscow Spark
Monotonically increasing id не подходит для этой цели?
источник

С

Сюткин in Moscow Spark
Dmitrii Nosov
Monotonically increasing id не подходит для этой цели?
Сейчас погуглю, спасибо
источник

DN

Dmitrii Nosov in Moscow Spark
pyspark.sql.functions.monotonically_increasing_id
источник
2019 July 26

N

Nikolay in Moscow Spark
Подскажите как работает pyspark.  Так я понял , что через py4j создаётся jvm со Спарк контекстом и соответственно устанавливает с ней связь через через gateway. Этот gateway - по факту обертака и канал над запуском spark-submit.вопрос сообствено про экзекьюторы.  В моем понимании никаких питоновских экзекьюторов не будет. Т.е питон передаст вызов action в jvm и заберёт себе результаты.
источник