Size: a a a

2021 October 08

I

Ivan in Data Engineers
а если есть jar файл нужного интерпретатора? его через консоль ноды ставить где крутиться сам zeppelin?просто понять суть процесса
источник

ЕГ

Евгений Глотов... in Data Engineers
Хз, так не делал
источник

АШ

Арсен Шакирзянов... in Data Engineers
jar на самом деле не нужен. артефакт подтянется из maven central
источник

I

Ivan in Data Engineers
но эту процедуру же тоже над делать через консоль? не через веб zeppellin?
источник

ЕГ

Евгений Глотов... in Data Engineers
Это если есть инэт/нексус на кластере😆
источник

АШ

Арсен Шакирзянов... in Data Engineers
Да, через консоль.
Если веб, то можно попробовать поставить через helium. Правда, я так никогда не делал. Но в гелиуме есть список интерпритаторов, может сработает)
источник

OI

Oleg Ilinsky in Data Engineers
@tenKe @pomadchin небольшой апдейт по проблеме: коллега нашла вот такую историю

https://issues.apache.org/jira/browse/SPARK-36476?page=com.atlassian.jira.plugin.system.issuetabpanels%3Acomment-tabpanel&focusedCommentId=17397126#comment-17397126

https://github.com/cloudpipe/cloudpickle/issues/393

И предложила сделать так:
import dill
dill.extend(False)
from pyspark.sql import DataFrame, SparkSession
from pyspark.sql import functions as f
from pyspark.sql.types import LongType, StringType, StructField, StructType
dill.extend(True)


и оно работает. Катить такое в прод я не готов, но выглядит так, что как-будто это какой-то баг в зависимостях.
Попробую собрать с питоном 3.8 (где-то там написано, что для него работает) или spark 3.1.2 на java 8
источник

GP

Grigory Pomadchin in Data Engineers
а разве спарк 3.1.2 не с 3.8 петоном?
источник

OI

Oleg Ilinsky in Data Engineers
ну у них в докерфайле вообще красиво
RUN apt-get update && \
   apt install -y python3 python3-pip
источник

OI

Oleg Ilinsky in Data Engineers
но там же с каким питоном соберёшь, с таким и будет?
источник

GP

Grigory Pomadchin in Data Engineers
я думал петон хоста использует)
источник

GP

Grigory Pomadchin in Data Engineers
что ему дадут то и будет
источник

OI

Oleg Ilinsky in Data Engineers
ну по идее да
я 3.7 давал)
источник

GP

Grigory Pomadchin in Data Engineers
а ну да
источник

GP

Grigory Pomadchin in Data Engineers
если собирать значит собрать докер имеж то норм
источник

GP

Grigory Pomadchin in Data Engineers
)))
источник

GP

Grigory Pomadchin in Data Engineers
ну и оставь ждк 11
источник

GP

Grigory Pomadchin in Data Engineers
для эксперимента
источник

OI

Oleg Ilinsky in Data Engineers
источник

P

Pavel in Data Engineers
Всем привет! Подскажите, есть ли какие-нибудь опен сорс сборки со всеми сервисами? HDFS, Impala, Hive, Kafka ?
cloudera раньше предлагала VM, но сейчас уже нет, а в докере QuickStart обновлялся 5 лет назад :(

лень устанавливать и настраивать, но хочется начать изучать..
что можете порекомендовать?
Может есть iso-шка где-нибудь магическая ?)
источник