Size: a a a

2021 June 06

AZ

Anton Zadorozhniy in Data Engineers
Вы держите свои форки ASF проектов с нетривиальными изменениями?
источник

NN

No Name in Data Engineers
Нет, а что?
источник

AZ

Anton Zadorozhniy in Data Engineers
Ну там чтобы нормально в продакшене заработало кое что надо дописать
источник

UD

Uncel Duk in Data Engineers
+++
источник

AZ

Anton Zadorozhniy in Data Engineers
Если ресурсы есть - конечно берите, мб что-то полезное для остальных обратно в проект законтрибьютите
источник

NN

No Name in Data Engineers
А, понял. Считайте, что мы вот только в самом-самом начале пути. При необходимости, если появится понимание, что это то, что нужно, и нужно это как-то адаптировать и продвинуть, то ресурсы на это есть.
источник

AZ

Anton Zadorozhniy in Data Engineers
источник

Р

Рахимов in Data Engineers
😂😂😂
источник

Д

Дмитрий in Data Engineers
Подскажите как перехватить ошибку выполнения таска и продолжить выполнение дальше. Ошибка при мерже схем паркетов в партиции. Использую spark/scala. Try/cath не помогает на моем уровне понимания.
источник

Д

Дмитрий in Data Engineers
Ошибка возникает при использовании опции
источник

Д

Дмитрий in Data Engineers
источник

Д

Дмитрий in Data Engineers
Есть расхождение типов в одном поле, тип может бвть string, int, bigint.
источник

NN

No Name in Data Engineers
О, Дженкинс
источник

ИК

Иван Калининский... in Data Engineers
Какое сообщение у возникающего исключения? И хотя бы пару строк из стека исключений
источник

Д

Дмитрий in Data Engineers
источник

Д

Дмитрий in Data Engineers
Но, я уже решил проблему. Вернее обошел ее. Но вопрос  поймать падение таска и продолжить выполнение остался.
источник

SK

Sergey Kaurov in Data Engineers
%spark

  val start = Integer.parseInt(z.input("Старт даты", "20210301").toString) // вводим дату и переводим её в целое число для дальнейших операций

  val end = Integer.parseInt(z.input("Конец даты", "20210531").toString) // с интервалом времени

  val XRange = Range( start, end, 1 )

  // val predict = udf((edata: Double) => if (Range(20210301, 20210531, 1 ).contains(edata)) true else false) // Пользовательская функция подсчёта попадания в интервал дат

   val predict = udf{ edata: String => if (XRange.contains(edata)) true else false}

  val out = b2c_users_table

….

  .withColumn("datetime", from_unixtime($"timestamp", "yyyMMdd")) //Урезали шаблон вывода времени по датам (больше для поиска и не надо нам)

  .withColumn("Date", predict($"datetime"))  // Делаем запрос к UDF функции и тут же называем новое поле "Date"

  .filter(!$"Date".contains(false))

  //.select($"uid", $"Date")

 .groupBy($"uid")

  .agg(count("*").as("count"))

  .filter($"count" >= 3)   // фильтруем тех пользователей, которые аутентифцировались от трёх раз

  .select($"uid")

  //.show(100, false)

  .count()
источник
2021 June 07

dz

dimka ztheshek in Data Engineers
Всем привет. Подскажите плиз, можно ли в airflow посмотреть DAGи, которые выгружают больше всего данных, то есть как-то понять, в какую базу летит больше всего данных? Например, в логах? Но в логах я не нашел.
источник

PA

Panchenko Andrey in Data Engineers
Вам сюда.https://t.me/ruairflow
источник

ИК

Иван Калининский... in Data Engineers
Большому коду - большой разбор))
Ответил в личку
источник