Телеграмм чат группы hadoopusers страница 4201

Size: a a a

Data Engineers

2021 September 14

у меня была удф которая ссылалась на функцию внутри класса, такое падало - он не мог десериалиловать сералилованную функцию

источник

16:02пожаловаться #1

Grigory Pomadchin in Data Engineers

Вылечилось тем что я сунул в компаньон ее

источник

16:02пожаловаться #2

Grigory Pomadchin in Data Engineers

Может у него проблемы какие-то, кепчурит по другому теперь

источник

16:02пожаловаться #3

T in Data Engineers

`
spark.udf.register("TEST_UDF", udf((str: String) => {
// val decode = java.util.Base64.getDecoder
if (str.startsWith("b:")) {
//blah
Array.empty[Int]
} else {
str.split(",").map(r => r.trim.toInt)
}
}))
`

источник

16:03пожаловаться #4

T in Data Engineers

Я вот тоже сначала на это грешил по этому вытащил ее в лямбду но не помогло

источник

16:03пожаловаться #5

T in Data Engineers

Я правда раню в ноутбуке и мне кажется из за этого у него крыша едет

источник

16:04пожаловаться #6

Grigory Pomadchin in Data Engineers

Я не пойму

источник

16:05пожаловаться #7

Grigory Pomadchin in Data Engineers

Где тут Function3

источник

16:05пожаловаться #8

T in Data Engineers

вот и я не пойму

источник

16:06пожаловаться #9

Grigory Pomadchin in Data Engineers

sticker.webp

(46.44 Кб)

источник

16:06пожаловаться #10

T in Data Engineers

В общем заверну в джарку подсуну в ноутбук и посмотрю

источник

16:07пожаловаться #11

Grigory Pomadchin in Data Engineers

Ну пока какбудто не в удф проблема) может след функция ожидает чето другое или падает на десериалилации результата?

источник

16:18пожаловаться #12

Grigory Pomadchin in Data Engineers

там наверное длинее ошибка

источник

16:19пожаловаться #13

Grigory Pomadchin in Data Engineers

посмотри может в другие части стек трейса еще

источник

16:19пожаловаться #14

T in Data Engineers

А там тоже самое

источник

16:20пожаловаться #15

T in Data Engineers

https://pastebin.com/zWhjwzf1 вот полный стектрейс

Pastebin

org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in sta - Pastebin.com

Pastebin.com is the number one paste tool since 2002. Pastebin is a website where you can store text online for a set period of time.

источник

16:21пожаловаться #16

T in Data Engineers

я все же подозреваю что он, ноутбук, не правильно прокидывает мою udf

источник

16:21пожаловаться #17

KrivdaTheTriewe in Data Engineers

Там пляски с кубером начнутс

источник

17:14пожаловаться #18

Ivan Kizimenko in Data Engineers

может кто нибудь встречал презентации или схемы, кто как организовывал свои подобия CDP. На базе snowplow, amplitude или чего то подобного ? как то не густо в сети на этот счет

источник

17:47пожаловаться #19

El-Yaz in Data Engineers

подскажите, пожалуйста, как правильно писать на pyspark чтоб не было вот такого неочень осмысленного полотна?
```python

if is_target_partitioned:
    anonymized_source_df \
        .coalesce(20) \
        .write \
        .format('delta') \
        .mode("overwrite") \
        .partitionBy("load_date") \
        .save(target_s3_path)
else:
    anonymized_source_df \
        .coalesce(20) \
        .write \
        .format('delta') \
        .mode("overwrite") \
        .save(target_s3_path)

```
из-за одного условия (партиций) нужно дублировать код
очень похоже на паттерн Builder, но в данном случае не понятно возвращается ли какой-то обьект обратно и если да, то какой.
ссылки на гугл тоже приветствуются)

источник

18:48пожаловаться #20