Size: a a a

2021 October 26

S

Sebastian in Data Engineers
питоновская либа pyspark общается с явовской прилой?
источник

GP

Grigory Pomadchin in Data Engineers
у нее под капотом жава рантайм, пиклом из петона тащит данные в жвм
источник

ЕГ

Евгений Глотов... in Data Engineers
Ничё оно не тащит, пока тупандас не сделаешь, просто методы вызывает через py4j)
источник

GP

Grigory Pomadchin in Data Engineers
источник

A

Alex in Data Engineers
источник

A

Alex in Data Engineers
ну и там не совсем пикл, а скопированный себе
https://github.com/cloudpipe/cloudpickle

который не привязывается к путям на диске
источник

ЕГ

Евгений Глотов... in Data Engineers
А то потом рассказывают, что пайспарк долго работает, и не потому, что кто-то хреново запрос написал
источник

ЕГ

Евгений Глотов... in Data Engineers
источник

GP

Grigory Pomadchin in Data Engineers
да нет, мапы флетмапы пиклить будет
источник

GP

Grigory Pomadchin in Data Engineers
соре
источник

ЕГ

Евгений Глотов... in Data Engineers
Dataframe api
источник

ЕГ

Евгений Глотов... in Data Engineers
И нет проблем
источник

GP

Grigory Pomadchin in Data Engineers
тс
источник

AK

Alex K in Data Engineers
Народ, а в pyspark df не надо из памяти удалять?

df1 = read_parquet
df2 = df1
df2.shiw()
То df1 будет висеть?
источник

ЕГ

Евгений Глотов... in Data Engineers
Нет такого понятия, как датафрейм в памяти
источник

ИК

Иван Калининский... in Data Engineers
сделал .persist, поработал, сделай .unpersist()
источник

ЕГ

Евгений Глотов... in Data Engineers
Если только не кеш, да
источник

ИК

Иван Калининский... in Data Engineers
других удалений из памяти не нужно
источник

ЕГ

Евгений Глотов... in Data Engineers
Датафрейм это просто кусок плана запроса
источник

GP

Grigory Pomadchin in Data Engineers
аст!
источник