Size: a a a

2021 September 14

GP

Grigory Pomadchin in Data Engineers
у меня была удф которая ссылалась на функцию внутри класса, такое падало - он не мог десериалиловать сералилованную функцию
источник

GP

Grigory Pomadchin in Data Engineers
Вылечилось тем что я сунул в компаньон ее
источник

GP

Grigory Pomadchin in Data Engineers
Может у него проблемы какие-то, кепчурит по другому теперь
источник

T

T in Data Engineers
`
spark.udf.register("TEST_UDF", udf((str: String) => {
//    val decode = java.util.Base64.getDecoder
   if (str.startsWith("b:")) {
     //blah
     Array.empty[Int]
   } else {
     str.split(",").map(r => r.trim.toInt)
   }
}))
`
источник

T

T in Data Engineers
Я вот тоже сначала на это грешил по этому вытащил ее в лямбду но не помогло
источник

T

T in Data Engineers
Я правда раню в ноутбуке и мне кажется из за этого у него крыша едет
источник

GP

Grigory Pomadchin in Data Engineers
Я не пойму
источник

GP

Grigory Pomadchin in Data Engineers
Где тут Function3
источник

T

T in Data Engineers
вот и я не пойму
источник

GP

Grigory Pomadchin in Data Engineers
источник

T

T in Data Engineers
В общем заверну в джарку подсуну в ноутбук и посмотрю
источник

GP

Grigory Pomadchin in Data Engineers
Ну пока какбудто не в удф проблема) может след функция ожидает чето другое или падает на десериалилации результата?
источник

GP

Grigory Pomadchin in Data Engineers
там наверное длинее ошибка
источник

GP

Grigory Pomadchin in Data Engineers
посмотри может в другие части стек трейса еще
источник

T

T in Data Engineers
А там тоже самое
источник

T

T in Data Engineers
https://pastebin.com/zWhjwzf1 вот полный стектрейс
источник

T

T in Data Engineers
я все же подозреваю что он, ноутбук, не правильно прокидывает мою udf
источник

K

KrivdaTheTriewe in Data Engineers
Там пляски с кубером начнутс
источник

IK

Ivan Kizimenko in Data Engineers
может кто нибудь встречал презентации или схемы, кто как организовывал свои подобия CDP.  На базе snowplow, amplitude или чего то подобного ? как то не густо в сети на этот счет
источник

E

El-Yaz in Data Engineers
подскажите, пожалуйста, как правильно писать на pyspark чтоб не было вот такого неочень осмысленного полотна?
```python
if is_target_partitioned:
   anonymized_source_df \
       .coalesce(20) \
       .write \
       .format('delta') \
       .mode("overwrite") \
       .partitionBy("load_date") \
       .save(target_s3_path)
else:
   anonymized_source_df \
       .coalesce(20) \
       .write \
       .format('delta') \
       .mode("overwrite") \
       .save(target_s3_path)

```
из-за одного условия (партиций) нужно дублировать код
очень похоже на паттерн Builder, но в данном случае не понятно возвращается ли какой-то обьект обратно и если да, то какой.
ссылки на гугл тоже приветствуются)
источник