Size: a a a

2021 August 09

ИК

Иван Калининский... in Moscow Spark
я датасорс делал для похожего, чтобы по приложенной метадате читать конкретные файлы, которые уже собрал PartitionAwareFileIndex.

Анализ предикатов для прунинга партиций начинается в объекте FileSourceStrategy (похоже лучше класса не нашлось). И, судя по коду, должен отбирать партиции любой вложенности. Затем предикаты в неизменном виде передаются в экземляр класса InMemoryFileIndex, а там уже фильтруется коллекция InternalRow, в которой значения партиций. В дальнейшем читаются только файлы из выбранных партиций.

Есть предположение, что нужно попробовать продебагать в локальном тесте и посмотреть, не отфильтровался ли где-то предикат
источник
2021 August 10

М

Мохаммад Реза... in Moscow Spark
Hi
Is there any way to benchmark "Shuffle Time" and "processing Time" seperately?
источник
2021 August 12

МС

Михаил Семочкин... in Moscow Spark
Добрый день! Подскажите, пожалуйста, в Spark чтение из view выполняется с правами читающего или с правами создателя view?
Разные эксперименты показывают, что может быть и так, и так. Но непонятно в зависимости от чего.
источник

АА

Артем Анистратов... in Moscow Spark
Всем привет! Могли бы подсказать есть ли способ под кубером с сервака вне кластера хадуп подключиться к спарку на кластере? Нет возможности использования livy. По сути подключение есть, но базы упорно не видит. Указывал ссылки на hive.metastore
источник

DZ

Dmitry Zuev in Moscow Spark
от кого джоба запущенна офк
источник
2021 August 13

m

maximgolovin in Moscow Spark
Всем привет, может кто-нибудь подсказать, как запустить 3 независящих друг от друга скрипта на PySpark на одной машине в local режиме, чтобы они выполнялись параллельно и ресурсы между ними распределялись динамически?
Запускаю каждое через SparkSession.builder, но к примеру первое приложение забирает все ресурсы, а второе падает по тайм-ауту.
источник

KR

Kagermanov Ramazan in Moscow Spark
Добрый день
Подскажите, пожалуйста, можно ли в select добавить новую колонку по типу select(lit(“a”) as “alphabet”)?
Гугл ничего, кроме withColumn не подсказывает
источник

PK

Pavel Klemenkov in Moscow Spark
select(lit(“a”).alias(“alphabet”))
источник

AV

Alexei Vasilev in Moscow Spark
еще экспрешн можно вставить
источник

KR

Kagermanov Ramazan in Moscow Spark
select ругается
Речь про скала если что
источник

AV

Alexei Vasilev in Moscow Spark
selectExpr("'a' as alphabet")
источник

AV

Alexei Vasilev in Moscow Spark
возможно, тут кавычки кривые
источник

KR

Kagermanov Ramazan in Moscow Spark
С эспрешн я пытался
Проблема в том, что у меня метод в роли значения
источник

KR

Kagermanov Ramazan in Moscow Spark
В принципе могу через передачу результата метода сделать, должно прокатить
источник

SI

Sergey Ivanychev in Moscow Spark
Привет! Есть партицированная по partition_date таблица в хайве (назовем ее table. Почему запрос SELECT MIN(partition_date) FROM table из Spark SQL и из Hive SQL работает медленно ? В плане спарка видно что он идет реально читать файлы вместо использования метаданных из метастора
источник

R

Rogoley in Moscow Spark
select(lit("a").as("alphabet"))
источник

KR

Kagermanov Ramazan in Moscow Spark
Почему-то данный синтаксис не хотел работать, когда вместо литерала подставлял метод
Решил как s”${method} as columnname”
источник

SI

Sergey Ivanychev in Moscow Spark
Можешь сказать как именно ругается?
источник

R

Rogoley in Moscow Spark
источник

R

Rogoley in Moscow Spark
ну и да, ошибку бы увидеть
источник