Size: a a a

2019 September 06

ЕГ

Евгений Глотов in Data Engineers
O. Petr
в 1 колонке 1 row удалить во второй последний
Это называется lag
источник

ЕГ

Евгений Глотов in Data Engineers
Оконная функция. Но если просто в спарке применить лаг на весь датафрейм, то будет в один поток, медленно и может упасть по памяти
источник

OP

O. Petr in Data Engineers
Оно, спасибо
источник

OP

O. Petr in Data Engineers
Это называется lag
источник

OP

O. Petr in Data Engineers
Оконная функция. Но если просто в спарке применить лаг на весь датафрейм, то будет в один поток, медленно и может упасть по памяти
источник

ЕГ

Евгений Глотов in Data Engineers
Так что есть варик получше - построить полный индекс этого дф из одной колонки, датафрейм продублировать, в одном из датафреймов-дублей этот индекс уменьшить на 1
источник

ЕГ

Евгений Глотов in Data Engineers
И поджойнить по индексу
источник

ЕГ

Евгений Глотов in Data Engineers
источник

OP

O. Petr in Data Engineers
Круто, ещё раз спасибо
источник

ЕГ

Евгений Глотов in Data Engineers
🤝
источник
2019 September 07

C

Combot in Data Engineers
Cyber Ghost morty has been banned! Reason: CAS ban.
источник
2019 September 09

C

Combot in Data Engineers
Giveaway . has been banned! Reason: CAS ban.
источник

RI

Rustam Iksanov in Data Engineers
Инженеры! Ситуация такая. Есть csv с локальной датой. Конвертирую ее в зеппелине в UTC. Написал udf простую. Но 1 csv нормально проживала, а вторую не смогла. ошибка
Failed to execute user defined function($anonfun$1: (timestamp, int) => timestamp)
, а ниже по трейсу ошибка NPE
код udf: val toUtc = udf{(time: Timestamp, hours: Int) => new Timestamp(time.getTime + hours*60*60*1000)}
источник

ЕГ

Евгений Глотов in Data Engineers
А нафига для простого суммирования делать udf?
источник

RI

Rustam Iksanov in Data Engineers
Евгений Глотов
А нафига для простого суммирования делать udf?
подскажите иной вариант. Фактически у меня есть колонка Timestamp и колонка с диффом часов от UTC
источник

ЕГ

Евгений Глотов in Data Engineers
Датафреймы же?
источник

RI

Rustam Iksanov in Data Engineers
да
источник

ЕГ

Евгений Глотов in Data Engineers
Просто df.withColumn("time", from_unixtime(unix_timestamp(col("time"))+col("diff")))
источник

ЕГ

Евгений Глотов in Data Engineers
А то может и попроще можно, но щас с ходу не вспомню
источник

RI

Rustam Iksanov in Data Engineers
Евгений Глотов
Просто df.withColumn("time", from_unixtime(unix_timestamp(col("time"))+col("diff")))
Спс
источник