Телеграмм чат группы moscowspark страница 722

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Moscow Spark

1136 membersпожаловаться на группу

2021 July 15

ПФ

Паша Финкельштейн... in Moscow Spark

Но засыпание в 8 звучит в целом хорошо и удобно для родителей

источник

21:48пожаловаться #1

Р

Рамик in Moscow Spark

spark.read.table(“db.mutable”).filter(‘partitioncol=“15-07-2021”)

Применив метод .explain ты можешь увидеть план запроса

источник

21:54пожаловаться #2

CO

Chern Oleksander in Moscow Spark

Спасибо, завтра уже буду пробовать

источник

22:01пожаловаться #3

ПФ

Паша Финкельштейн... in Moscow Spark

https://github.com/apache/datafu/blob/master/datafu-spark/src/main/scala/datafu/spark/SparkDFUtils.scala#L290

apache/datafu

Mirror of Apache DataFu. Contribute to apache/datafu development by creating an account on GitHub.

источник

22:38пожаловаться #4

N

Nikita Blagodarnyy in Moscow Spark

Зачем ты вообще считаешь каунт, заранее зная, что строк 100? Что ты хочешь там получить, 100?

источник

22:44пожаловаться #5

GP

Grigory Pomadchin in Moscow Spark

<= 100

источник

23:15пожаловаться #6

ЕГ

Евгений Глотов... in Moscow Spark

Пайспарк с включённым pyarrow?

источник

23:33пожаловаться #7

2021 July 16

AB

Andrey Bel in Moscow Spark

+😂😂😂

источник

00:04пожаловаться #8

AB

Andrey Bel in Moscow Spark

Хоть вечером настроение поднялось перед сном 😁😁

источник

00:04пожаловаться #9

Р

Рамик in Moscow Spark

Возможно, хотел отсечь данные, а каунт это просто action для проверки. В pandas‘е лимитом можно так получить данные без фулл скана(если я не ошибаюсь).

источник

00:06пожаловаться #10

CO

Chern Oleksander in Moscow Spark

Кол-во строк говорит сколько прогонов нужно сделать

источник

00:59пожаловаться #11

N

Nikita Blagodarnyy in Moscow Spark

Ты это к чему?

источник

01:01пожаловаться #12

CO

Chern Oleksander in Moscow Spark

Создаётсь март для аналитики и нужно понять сколько пользователей попали в такую группу, что в дальнейшем добавить этих пользователей в другой март с определенными расчетами

Могу рассказать прям всю механику этого бреда ))

источник

01:03пожаловаться #13

ЕГ

Евгений Глотов... in Moscow Spark

Так чё это пайспарк с включённым пайэрроу или нет?

источник

01:05пожаловаться #14

ЕГ

Евгений Глотов... in Moscow Spark

Если да, выключайте пайэрроу, считайте лимит 100 каунт и включайте обратно

источник

01:05пожаловаться #15

ЕГ

Евгений Глотов... in Moscow Spark

Там не фулскан делается, там делается лимит 100 из каждой партиции, и потом глобал лимит 100, почему - а фиг его знает, так написали

источник

01:06пожаловаться #16

CO

Chern Oleksander in Moscow Spark

Это pyspark на aws.glue
Со спарком знаком месяц, вот и пытаюсь понять что, где, когда

источник

01:07пожаловаться #17

N

Nikita Blagodarnyy in Moscow Spark

То, что ты сейчас говоришь, не имеет отношения к логике куска кода, который ты привёл. Он никогда тебе не вернёт больше 100 строк.

источник

01:08пожаловаться #18

ЕГ

Евгений Глотов... in Moscow Spark

Надо в конфиге сессии найти параметр pyspark.sql.execution.arrow = true или как-то так, и переключить его на false

источник

01:09пожаловаться #19

ЕГ

Евгений Глотов... in Moscow Spark

Возможно спарк на aws какие-то свои кривые патчи имеет, которые такую же фигню делают

источник

01:09пожаловаться #20