Size: a a a

2022 February 04

k

kvadratura in Moscow Spark
у него default 200
источник

k

kvadratura in Moscow Spark
вы выставляли 300?
источник

PL

Pavel Lu in Moscow Spark
3000
источник

PL

Pavel Lu in Moscow Spark
ну при 300 на "диске". Я хочу чтобы было не 3000 файлов)
источник

k

kvadratura in Moscow Spark
может, где-то нолик в экспериментах потерялся?
источник

ИК

Иван Калининский... in Moscow Spark
поставьте тогда spark.task.cpus=4 (например), вдруг нормально заработает
источник

k

kvadratura in Moscow Spark
300 на диске при чтении все равно распараллелится, т. к. паркеты (даже с компрессией) - splittable
источник

ИК

Иван Калининский... in Moscow Spark
ну и ядер больше на экзекутор, коллега правильно говорит
источник

PL

Pavel Lu in Moscow Spark
оо
источник

PL

Pavel Lu in Moscow Spark
попробую
источник

k

kvadratura in Moscow Spark
я все-таки не понимаю, почему при чтении 300 файликов, записанных спарком в паркетах, получается ровно 300 партиций. я такого не видел никогда, и это, по-моему, misconfig какой-то при старте жобы
источник

k

kvadratura in Moscow Spark
если в файликах > 3000 записей, должно быть какое угодно число, но не 300
источник

PL

Pavel Lu in Moscow Spark
партиций получается 3000, как и командуем. Но 2700 из них по 0 байт
источник

k

kvadratura in Moscow Spark
я имею ввиду - после простого чтения, без команд и repartition
источник

PL

Pavel Lu in Moscow Spark
в файлах 300, три сотни
источник

k

kvadratura in Moscow Spark
уточню на всяк. случай: при чтении N достаточно крупных паркетов, записанных спарком, очень мала вероятность получить именно N партиций
источник

РД

Роман Друзык... in Moscow Spark
Привет, понимаю, что многие есть в чатике ДЕ, но что-то там тишина по моему вопросу - продублирую, вдруг тут поможете))
источник

РД

Роман Друзык... in Moscow Spark
Привет!
Пробую через flume отправить логи спарка в ELK

Помогите плиз разобраться, никак не могу победить ошибку
ERROR Could not instantiate class [org.apache.flume.clients.log4jappender.Log4jAppender]
В проекте добавляю нужные зависимости
slf4j-api

slf4j-log4j12

apache-log4j-extras
flume-ng-core
flume-ng-log4jappender
Потом делаю свой log4j.propertieslog4j.properties
################### set log levels ###############

log4j.rootLogger=INFO, console, flume

################### flume ########################

log4j.appender.flume=org.apache.flume.clients.log4jappender.Log4jAppender

log4j.appender.flume.appId=spark_testing_logging

log4j.appender.flume.layout=org.apache.log4j.PatternLayout

log4j.appender.flume.layout.ConversionPattern=%d{yyyy-MM-dd HH:mm:ss} %-5p %c{1}:%L - %m%n

log4j.appender.flume.Hostname=tcp://10.110.254.86

log4j.appender.flume.Port=5959

потом запускаю
#!/bin/bash -e
/srv/data/spark/bin/spark-submit \
--class Main \
--master yarn \
--deploy-mode cluster \
--files log4j.propertieslog4j.properties \
--conf "spark.driver.extraJavaOptions=-Dlog4j.configuration=log4j.propertieslog4j.properties" \
--conf "spark.executor.extraJavaOptions=-Dlog4j.configuration=file:log4j.propertieslog4j.properties" \
spark-test-1.0-jar-with-dependencies.jar
источник

РД

Роман Друзык... in Moscow Spark
Что я делаю не так, в проекте flume как зависимость есть
источник

РД

Роман Друзык... in Moscow Spark
Но упорно
Could not instantiate class [org.apache.flume.clients.log4jappender.Log4jAppender]
источник