Size: a a a

2021 November 16

М

Михаил in Moscow Spark
протестирую, если что то наковыряю, отпишу тогда
источник

A

Alex in Moscow Spark
источник

A

Alex in Moscow Spark
вот тут как минимум что-то пытались делать
источник

М

Михаил in Moscow Spark
Ага, спасибо!
источник
2021 November 17

R

R in Moscow Spark
Привет, за календарем могу посоветовать сходить вот сюда

https://github.com/zubtsov/spark-commons/blob/master/src/main/scala/com/epam/bdcc/spark/data/DateDimension.scala
источник

SS

Sergey Sheremeta in Moscow Spark
я такой код использую для генерации календаря через Spark/Scala
источник

R

R in Moscow Spark
Прикольно, надо будет глянуть, что стырить, но перформанс у этого варианта будет хуже, хотя для небольшого date дименшена это пожалуй не важно
источник

CO

Chern Oleksander in Moscow Spark
та не в календаре вопрос, но спасибо )
источник
2021 November 18

rG

rpuropuu Greeg'O'Rii... in Moscow Spark
df.select(dt.datetime(f.col('tpep_pickup_datetime'))).isocalendar()[1].show()

как получить номер недели для этой колонки? подскажите пожалуйста..
источник

rG

rpuropuu Greeg'O'Rii... in Moscow Spark
ругается на то что не инт
источник

rG

rpuropuu Greeg'O'Rii... in Moscow Spark
а потом ругается на то, что к колонке нельзя применить
источник

rG

rpuropuu Greeg'O'Rii... in Moscow Spark
from pyspark.sql.functions import to_date, date_format

df = spark.createDataFrame([(1, "01/JAN/2017"), (2, "15/FEB/2017")], ("id", "date"))

df.withColumn("week", date_format(to_date("date", "dd/MMM/yyyy"), "W")).show()

есть такой пример на кодроад, но там тоже ругается на таймстемп...
источник

VS

Vladimir Strelnikov in Moscow Spark
Как вариант: df.select(f.weekofyear('tpep_pickup_datetime')).show()

Есть встроенная функция: https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.sql.functions.weekofyear.html
источник

rG

rpuropuu Greeg'O'Rii... in Moscow Spark
да ладнО_о
источник

rG

rpuropuu Greeg'O'Rii... in Moscow Spark
Спасибо большое) неплохой пример чтоб влюбиться в спарк)
источник

rG

rpuropuu Greeg'O'Rii... in Moscow Spark
снова здравствуйте, я дописал джобу, работает как надо, а настроить коннект не получается.. верна ли моя догадка в конце мессаги?

PostgreSQL 9.4.24 (Greenplum Database 6.17.1 build dev) on x86_64-unknown-linux-gnu, compiled by gcc (GCC) 4.8.5 20150623 (Red Hat 4.8.5-44), 64-bit compiled on Aug 22 2021 23:55:44

но как к нему коннектиться - не понятно. я пробовал джарочкой 9.4.1207 .. не получается.
Там после 9.4.12 у спарка сразу 42.0.0 начинается коннектор. Джарочка из кода подгружается, проверяли целым чатом.
по прежнему вылетает ошибка:

py4j.protocol.Py4JJavaError: An error occurred while calling o136.save.
: java.sql.SQLException: No suitable driver
 at java.sql/java.sql.DriverManager.getDriver(DriverManager.java:298)

подозреваю что нужно на сервере прописать:
./bin/spark-shell --driver-class-path postgresql-9.4.1207.jar --jars postgresql-9.4.1207.jar
источник

rG

rpuropuu Greeg'O'Rii... in Moscow Spark
доступ к базе есть на запись, лабу про рики и морти буквально вчера позавчера заканчивал туда, аирфлоу коннектится нормально, а спарк совсем не хочет %(
источник

DZ

Dmitry Zuev in Moscow Spark
Class.for?
источник

DZ

Dmitry Zuev in Moscow Spark
jdbc string покажи
источник

ПФ

Паша Финкельштейн... in Moscow Spark
а если найду?
источник