Size: a a a

2021 July 15

ПФ

Паша Финкельштейн... in Moscow Spark
Но засыпание в 8 звучит в целом хорошо и удобно для родителей
источник

Р

Рамик in Moscow Spark
spark.read.table(“db.mutable”).filter(‘partitioncol=“15-07-2021”)

Применив метод .explain ты можешь увидеть план запроса
источник

CO

Chern Oleksander in Moscow Spark
Спасибо, завтра уже буду пробовать
источник

ПФ

Паша Финкельштейн... in Moscow Spark
источник

N

Nikita Blagodarnyy in Moscow Spark
Зачем ты вообще считаешь каунт, заранее зная, что строк 100? Что ты хочешь там получить, 100?
источник

GP

Grigory Pomadchin in Moscow Spark
<= 100
источник

ЕГ

Евгений Глотов... in Moscow Spark
Пайспарк с включённым pyarrow?
источник
2021 July 16

AB

Andrey Bel in Moscow Spark
+😂😂😂
источник

AB

Andrey Bel in Moscow Spark
Хоть вечером настроение поднялось перед сном 😁😁
источник

Р

Рамик in Moscow Spark
Возможно, хотел отсечь данные, а каунт это просто action для проверки. В pandas‘е  лимитом можно так получить данные без фулл скана(если я не ошибаюсь).
источник

CO

Chern Oleksander in Moscow Spark
Кол-во строк говорит сколько прогонов нужно сделать
источник

N

Nikita Blagodarnyy in Moscow Spark
Ты это к чему?
источник

CO

Chern Oleksander in Moscow Spark
Создаётсь март для аналитики и нужно понять сколько пользователей попали в такую группу, что в дальнейшем добавить этих пользователей в другой март с определенными расчетами

Могу рассказать прям всю механику этого бреда ))
источник

ЕГ

Евгений Глотов... in Moscow Spark
Так чё это пайспарк с включённым пайэрроу или нет?
источник

ЕГ

Евгений Глотов... in Moscow Spark
Если да, выключайте пайэрроу, считайте лимит 100 каунт и включайте обратно
источник

ЕГ

Евгений Глотов... in Moscow Spark
Там не фулскан делается, там делается лимит 100 из каждой партиции, и потом глобал лимит 100, почему - а фиг его знает, так написали
источник

CO

Chern Oleksander in Moscow Spark
Это pyspark на aws.glue
Со спарком знаком месяц, вот и пытаюсь понять что, где, когда
источник

N

Nikita Blagodarnyy in Moscow Spark
То, что ты сейчас говоришь, не имеет отношения к логике куска кода, который ты привёл. Он никогда тебе не вернёт больше 100 строк.
источник

ЕГ

Евгений Глотов... in Moscow Spark
Надо в конфиге сессии найти параметр pyspark.sql.execution.arrow = true или как-то так, и переключить его на false
источник

ЕГ

Евгений Глотов... in Moscow Spark
Возможно спарк на aws какие-то свои кривые патчи имеет, которые такую же фигню делают
источник