Телеграмм чат группы moscowspark страница 996

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Moscow Spark

1233 membersпожаловаться на группу

2022 February 03

A

Alex in Moscow Spark

Метаданные всегда есть в метасторейдже

источник

17:17пожаловаться #1

k

kvadratura in Moscow Spark

ну, когда без метаданных данные читаются по-другому - это может принести проблемы

источник

17:17пожаловаться #2

K

KrivdaTheTriewe in Moscow Spark

если просто.withColumn("udt",lit("20200507")).partitionBy("udt").write.parquet("path")

источник

17:18пожаловаться #3

A

Alex in Moscow Spark

Когда без меты то да, но это не наш случай....

источник

17:18пожаловаться #4

I

Ivan in Moscow Spark

я сегодня с этим столкнулся буквально))))

источник

17:18пожаловаться #5

k

kvadratura in Moscow Spark

прост еще один способ сломаться. их и так хватает..

источник

17:18пожаловаться #6

K

KrivdaTheTriewe in Moscow Spark

spark.read.parquet("path") //здесь может быть стать интом

источник

17:18пожаловаться #7

K

KrivdaTheTriewe in Moscow Spark

чисто теоретически оно может там как то динамически в фильтрах и условиях скастовать

источник

17:19пожаловаться #8

K

KrivdaTheTriewe in Moscow Spark

но на всякий случай, лучше явно задавать

источник

17:19пожаловаться #9

I

Ivan in Moscow Spark

а почему метаданные возникают только на этапе записи? я столкнулся с тем, что он lit('yyyy-mm-dd') записал как timestamp, хотя я рассчитывал на string

источник

17:20пожаловаться #10

I

Ivan in Moscow Spark

пришлось в явном виде задавать тип

источник

17:21пожаловаться #11

K

KrivdaTheTriewe in Moscow Spark

там бывает такое. что по факту это там не приведт. к ошибке так как будет динамик кастинг

источник

17:21пожаловаться #12

2022 February 04

PL

Pavel Lu in Moscow Spark

Всем привет, подскажите плз, может кто знает - как заставить спарк резать данные на честные 3000 партиций, когда файл записан в 300 партициях? Я ему делаю repartition(), но он добавляет к 300 партициям пустые 2700 партиций

источник

16:34пожаловаться #13

PL

Pavel Lu in Moscow Spark

cache().count() что-ли добавить...

источник

16:35пожаловаться #14

k

kvadratura in Moscow Spark

а какая у вас проблема? или - надзадача, если хотите

что происходит после repartition?

и еще вопрос: какой формат у файлов, которые читаются?

источник

16:46пожаловаться #15

PL

Pavel Lu in Moscow Spark

формат паркет. Ну там обычная работа, всякая логика накручена, без оконных функций, если что. Задача - ускорить работу

источник

16:47пожаловаться #16

k

kvadratura in Moscow Spark

вы просто подаете N в repartition()? или еще какое-то поле?

источник

16:54пожаловаться #17

PL

Pavel Lu in Moscow Spark

пробовал без поля, пробовал с rand(), пробовал с бизнес-ключом - одинаково

источник

16:54пожаловаться #18

ИК

Иван Калининский... in Moscow Spark

а сколько там данных? может count = 300?

источник

16:55пожаловаться #19

PL

Pavel Lu in Moscow Spark

сотня гигов

источник

16:55пожаловаться #20