Size: a a a

2021 December 02

t

tenKe in Moscow Spark
с количеством партиций)
источник

ДД

Джон Дориан... in Moscow Spark
shuffle partitions?
источник

S

Sergey in Moscow Spark
ограничение spark.dynamicAllocation.maxExecutors есть?
источник

ДД

Джон Дориан... in Moscow Spark
Глянул, нет
источник

ЕГ

Евгений Глотов... in Moscow Spark
источник

ДД

Джон Дориан... in Moscow Spark
Понял, спасибо:)
источник

ДД

Джон Дориан... in Moscow Spark
Вообще немного странно. Я предполагал, что если на кластере условно 60 ядер - то Allocation Manager не должен запрашивать 500 :/
источник

ЕГ

Евгений Глотов... in Moscow Spark
А почему нет)
источник

ЕГ

Евгений Глотов... in Moscow Spark
Спарк не знает, сколько на кластере ядер
источник

ЕГ

Евгений Глотов... in Moscow Spark
Его дело запросить
источник

ЕГ

Евгений Глотов... in Moscow Spark
И получить, сколько выдали
источник

GP

Grigory Pomadchin in Moscow Spark
запрашивает сток скок ему хочется 🙂
источник

GP

Grigory Pomadchin in Moscow Spark
а ему типо выдают или не выдают
источник

GP

Grigory Pomadchin in Moscow Spark
и он с этим живет или не живет
источник
2021 December 03

CO

Chern Oleksander in Moscow Spark
Всем привет, такой вопрос (AWS Athena + AWS GLUE)

У меня есть словарь он может только увеличиваться, представте себе что это журнал вакцинированных заполняется в GoogleSheet

Дата || ФИО

я планирую добавить еще одно поле
.withColumn('sys_updated_time', F.from_utc_timestamp(F.current_timestamp(),"Europe/Kiev"))

.withColumn('dates', F.to_date('sys_updated_time'))

и по полю dates делать партию,
.repartition("dates")
.partitionBy("dates")
получится что у меня на каждый день будет актуальные данные.

В самой БД (AWS Athena),  сделать view где будет
select * from my_vacsnations_guys where dates = current_date

Это нормальная практика или нужно делать SCD2 ?

Спасибо за внимание
источник

SS

Sergey Sheremeta in Moscow Spark
вам на каждую дату “sys_updated_time” будет приходить полный снепшот данных (со всеми вакцинированными)? или только данные по новым людям?
я бы делал SCD2-справочник и его PIT-версию (Point-In-Time на текущую дату)
источник

CO

Chern Oleksander in Moscow Spark
Со всеми вакцинированными
И это первый слой (raw/cold layer )
источник

А

Александр in Moscow Spark
Всем привет! При чтении паркетника, в Pyspark где в имени колонок «фамилия человека», то есть недопустимые символы, ничего нельзя сделать, даже любые попытки переименовать и убрать пробел крэшатся. В гугле решения не нашёл. Сталкивался кто?
источник

AS

Alexander Shorin in Moscow Spark
источник

AS

Alexander Shorin in Moscow Spark
а вообще грустно: https://issues.apache.org/jira/browse/PARQUET-677 - патч есть, но закрыт по неактивности.
источник