Size: a a a

2021 May 18

GP

Grigory Pomadchin in Data Engineers
ну я к тому что почему то не надо было в кодоген лазить
источник

GP

Grigory Pomadchin in Data Engineers
мне кажется ты имеешь ввиду какието более сложные случаи
источник

GP

Grigory Pomadchin in Data Engineers
я могу понять как тебе такое бы помогло для твоего котлен интеропа в свое время
источник

GP

Grigory Pomadchin in Data Engineers
обычно хватает инфы во время падения
но конечно хорошая фича, удобно что можно кодоген посмотреть
источник

t

tenKe in Data Engineers
мне кажется тоже речь про какие то более мудреные случаи:
scala> spark.range(1).select(lit(null).alias("foo")).as[Foo].show
+----+
| foo|
+----+
|null|
+----+


scala> spark.range(1).select(lit(null).alias("foo")).as[Foo].collect
java.lang.NullPointerException: Null value appeared in non-nullable field:
- field (class: "scala.Int", name: "foo")
- root class: "Foo"
If the schema is inferred from a Scala tuple/case class, or a Java bean, please try to use scala.Option[_] or other nullable types (e.g. java.lang.Integer instead of int/scala.Int).
источник

GP

Grigory Pomadchin in Data Engineers
да, согласен
источник

ПФ

Паша Финкельштейн... in Data Engineers
Да, конечно
источник

ПФ

Паша Финкельштейн... in Data Engineers
Не, я-то просто печатал сгенерированный код, мне бы дебаг особо не помог, исправить можно было что-то только пристально разглядывать и думать почему так криво сгенерировалось
источник

ПФ

Паша Финкельштейн... in Data Engineers
А вот когда я джобы писал я постоянно плакал что Спарк не печатает где случилась херня
источник

ПФ

Паша Финкельштейн... in Data Engineers
Пайплайн на сотни строк и где-то что-то пошло не так
источник

t

tenKe in Data Engineers
покеш пример какой нить, интересно ж
источник

ПФ

Паша Финкельштейн... in Data Engineers
Ну упрощённо это как раз выглядело как read-join-aggregate-write
источник

GP

Grigory Pomadchin in Data Engineers
мне кажется что ты там делал Some(null)
источник

GP

Grigory Pomadchin in Data Engineers
или что-то такое
источник

GP

Grigory Pomadchin in Data Engineers
или использовал тупелевельные датасеты
источник

GP

Grigory Pomadchin in Data Engineers
))))
источник

ME

Max Efremov in Data Engineers
Вроде как раз пишет, когда падает где-то. Только в кластере сложнее это найти в логах
источник

ME

Max Efremov in Data Engineers
Ну или на выходе ноль строк, да...
источник

ПФ

Паша Финкельштейн... in Data Engineers
Что-то такое было, да. Но возникло сильно больше одного раза в разных ситуациях,я просто научился глазами разбирать сгенерированный код со временем
источник

A

Anton in Data Engineers
Кто-нибудь на windows server решал вопрос автоматизации конвейеров данных? По типу работы Apache airflow.. Поделитесь опытом, плз.

Вообще, как на винде решается задача запуска и мониторинга отработки скриптов по времени?
источник