Телеграмм чат группы moscowspark страница 999

я все-таки не понимаю, почему при чтении 300 файликов, записанных спарком в паркетах, получается ровно 300 партиций. я такого не видел никогда, и это, по-моему, misconfig какой-то при старте жобы

источник

17:23пожаловаться #11

kvadratura in Moscow Spark

если в файликах > 3000 записей, должно быть какое угодно число, но не 300

источник

17:24пожаловаться #12

Pavel Lu in Moscow Spark

партиций получается 3000, как и командуем. Но 2700 из них по 0 байт

источник

17:27пожаловаться #13

kvadratura in Moscow Spark

я имею ввиду - после простого чтения, без команд и repartition

источник

17:27пожаловаться #14

Pavel Lu in Moscow Spark

в файлах 300, три сотни

источник

17:28пожаловаться #15

kvadratura in Moscow Spark

уточню на всяк. случай: при чтении N достаточно крупных паркетов, записанных спарком, очень мала вероятность получить именно N партиций

источник

17:33пожаловаться #16

РД

Роман Друзык... in Moscow Spark

Привет, понимаю, что многие есть в чатике ДЕ, но что-то там тишина по моему вопросу - продублирую, вдруг тут поможете))

источник

17:34пожаловаться #17

РД

Роман Друзык... in Moscow Spark

Привет!
Пробую через flume отправить логи спарка в ELK

Помогите плиз разобраться, никак не могу победить ошибку

ERROR Could not instantiate class [org.apache.flume.clients.log4jappender.Log4jAppender]

В проекте добавляю нужные зависимости

slf4j-api

slf4j-log4j12

apache-log4j-extras
flume-ng-core
flume-ng-log4jappender

Потом делаю свой log4j.propertieslog4j.properties

################### set log levels ###############

log4j.rootLogger=INFO, console, flume

################### flume ########################

log4j.appender.flume=org.apache.flume.clients.log4jappender.Log4jAppender

log4j.appender.flume.appId=spark_testing_logging

log4j.appender.flume.layout=org.apache.log4j.PatternLayout

log4j.appender.flume.layout.ConversionPattern=%d{yyyy-MM-dd HH:mm:ss} %-5p %c{1}:%L - %m%n

log4j.appender.flume.Hostname=tcp://10.110.254.86

log4j.appender.flume.Port=5959

потом запускаю
#!/bin/bash -e
/srv /data /spark /bin /spark-submit \
--class Main \
--master yarn \
--deploy-mode cluster \
--files log4j.propertieslog4j.properties \
--conf "spark.driver.extraJavaOptions=-Dlog4j.configuration=log4j.propertieslog4j.properties" \
--conf "spark.executor.extraJavaOptions=-Dlog4j.configuration=file:log4j.propertieslog4j.properties" \
spark-test-1.0-jar-with-dependencies.jar

источник

17:34пожаловаться #18

РД

Роман Друзык... in Moscow Spark

Что я делаю не так, в проекте flume как зависимость есть

источник

17:34пожаловаться #19

РД

Роман Друзык... in Moscow Spark

Но упорно

Could not instantiate class [org.apache.flume.clients.log4jappender.Log4jAppender]

источник

17:35пожаловаться #20