Телеграмм чат группы hadoopusers страница 4313

Да, через консоль.
Если веб, то можно попробовать поставить через helium. Правда, я так никогда не делал. Но в гелиуме есть список интерпритаторов, может сработает)

источник

15:51пожаловаться #6

Oleg Ilinsky in Data Engineers

@tenKe @pomadchin небольшой апдейт по проблеме: коллега нашла вот такую историю

https://issues.apache.org/jira/browse/SPARK-36476?page=com.atlassian.jira.plugin.system.issuetabpanels%3Acomment-tabpanel&focusedCommentId=17397126#comment-17397126

https://github.com/cloudpipe/cloudpickle/issues/393

И предложила сделать так:

import dill
dill.extend(False)
from pyspark.sql import DataFrame, SparkSession
from pyspark.sql import functions as f
from pyspark.sql.types import LongType, StringType, StructField, StructType
dill.extend(True)

и оно работает. Катить такое в прод я не готов, но выглядит так, что как-будто это какой-то баг в зависимостях.
Попробую собрать с питоном 3.8 (где-то там написано, что для него работает) или spark 3.1.2 на java 8

GitHub

Dill breaks cloudpickle > 1.3.0 on inner functions with closure · Issue #393 · cloudpipe/cloudpickle

Cloudpickle 1.5.0, dill 0.3.2 or 0.3.1.1: import dill import cloudpickle class Foo: def bar(self, param: int): hello = "Hello" def baz() -> None: print(hello, param) cloudp...

источник

17:37пожаловаться #7

Grigory Pomadchin in Data Engineers

а разве спарк 3.1.2 не с 3.8 петоном?

источник

17:38пожаловаться #8

Oleg Ilinsky in Data Engineers

ну у них в докерфайле вообще красиво

RUN apt-get update && \
    apt install -y python3 python3-pip

источник

17:39пожаловаться #9

Oleg Ilinsky in Data Engineers

но там же с каким питоном соберёшь, с таким и будет?

источник

17:39пожаловаться #10

Grigory Pomadchin in Data Engineers

я думал петон хоста использует)

источник

17:39пожаловаться #11

Grigory Pomadchin in Data Engineers

что ему дадут то и будет

источник

17:39пожаловаться #12

Oleg Ilinsky in Data Engineers

ну по идее да
я 3.7 давал)

источник

17:40пожаловаться #13

Grigory Pomadchin in Data Engineers

а ну да

источник

17:40пожаловаться #14

Grigory Pomadchin in Data Engineers

если собирать значит собрать докер имеж то норм

источник

17:40пожаловаться #15

Grigory Pomadchin in Data Engineers

)))

источник

17:40пожаловаться #16

Grigory Pomadchin in Data Engineers

ну и оставь ждк 11

источник

17:41пожаловаться #17

Grigory Pomadchin in Data Engineers

для эксперимента

источник

17:41пожаловаться #18

Oleg Ilinsky in Data Engineers

AnimatedSticker.tgs

(23.15 Кб)

источник

17:42пожаловаться #19

Pavel in Data Engineers

Всем привет! Подскажите, есть ли какие-нибудь опен сорс сборки со всеми сервисами? HDFS, Impala, Hive, Kafka ?
cloudera раньше предлагала VM, но сейчас уже нет, а в докере QuickStart обновлялся 5 лет назад :(

лень устанавливать и настраивать, но хочется начать изучать..
что можете порекомендовать?
Может есть iso-шка где-нибудь магическая ?)

источник

19:28пожаловаться #20