Size: a a a

2021 November 24

VI

Vladimir Ilyushkin in Moscow Spark
👍 дошло
источник

ЕГ

Евгений Глотов... in Moscow Spark
В анси есть кейс вен
источник

VI

Vladimir Ilyushkin in Moscow Spark
Перегруженная функция
источник

VI

Vladimir Ilyushkin in Moscow Spark
Завтра проверю спасибо
источник
2021 November 25

D

Dmitry in Moscow Spark
Спасибо!
источник

CO

Chern Oleksander in Moscow Spark
Всем привет, не подскажите, что не так

df = (
   df
   .withColumn('reason',  F.when(F.col('reason')=="", None))
   .withColumn('sys_updated_by', F.lit(args['JOB_NAME']))
   .withColumn('sys_updated_time', F.from_utc_timestamp(F.current_timestamp(),"Europe/Kiev"))
 )
print(df.groupBy('reason').agg({'id':'count'}).show(truncate=False))

+------+---------+
|reason|count(id)|
+------+---------+
|null  |3382809  |
+------+---------+

По факту, там много разного текста и есть пусто, есть пробел и есть нулл, а мне по этому полю нужно партию сделать.

Локально делаю на маленьком тестовом df всё отлично работает, а тут хрен там ((

Спасибо за помощь
источник

ЕГ

Евгений Глотов... in Moscow Spark
Партиция по пробелу - так себе идея
источник

CO

Chern Oleksander in Moscow Spark
Вот по этому я хочу убрать пробелы и пусто и null и заменить на 'empty'
После пред действия хочу вот это сделать
df_not_null = df.na.fill(value='empty',subset=['reason'])
источник

ЕГ

Евгений Глотов... in Moscow Spark
Стоп а где значение когда не равно пустой строке?
источник

ЕГ

Евгений Глотов... in Moscow Spark
Это не так работает немножко)
источник

ЕГ

Евгений Глотов... in Moscow Spark
Сейчас примерно значение колонки равно: если колонка пустая строка, то нулл
источник

ЕГ

Евгений Глотов... in Moscow Spark
А если не пустая, то тоже нулл😆
источник

CO

Chern Oleksander in Moscow Spark
йок макарек  (((
источник

CO

Chern Oleksander in Moscow Spark
owervrise
источник

CO

Chern Oleksander in Moscow Spark
блииин
источник

CO

Chern Oleksander in Moscow Spark
Спасибо большое ))
источник

ЕГ

Евгений Глотов... in Moscow Spark
источник

CO

Chern Oleksander in Moscow Spark
а не подскажите как spark.sql
получить инкремент

мне нужно пронумеровать строки от 1-до их колво
row_number() over()

ругается что нужно добавить партию, а мне она не нужна (
источник

CO

Chern Oleksander in Moscow Spark
ааа просто любой поле добавить нужно, спасибо
источник

AN

Aleksey Nikolaev in Moscow Spark
Ты так спарк в однопоточную систему превратишь. Есть monotonically_increasing_id() она работает параллельно но айдишники будут с разрывами (непрерывность не гарантируется)
источник