Телеграмм чат группы hadoopusers страница 1564

18:42пожаловаться #1

GP

Spark Streaming Kafka java.lang.ClassNotFoundException: org.apache.kafka.common.serialization.StringDeserializer

Eldar Nezametdinov

Дата инженеры, можете пояснить вот этот момент:
https://stackoverflow.com/questions/45816792/spark-streaming-kafka-java-lang-classnotfoundexception-org-apache-kafka-common
почему "spark-streaming-kafka-0-10_2.11" % "2.2.0" нельзя делать провайдед?

Stack Overflow

I am using spark streaming with the Kafka integration, When i run the streaming application from my IDE in Local mode, everything works as a charm. However as soon as i submit it to the cluster i k...

провайдед помечаются зависиомсти которые есть в класспасе джарника
чтобы не делать убер джар толще без причины (они и так 100% есть в класспассе - так зачем добавлять)

Spark Streaming Kafka java.lang.ClassNotFoundException: org.apache.kafka.common.serialization.StringDeserializer

18:43пожаловаться #2

R

Renarde in Data Engineers

Eldar Nezametdinov

Дата инженеры, можете пояснить вот этот момент:
https://stackoverflow.com/questions/45816792/spark-streaming-kafka-java-lang-classnotfoundexception-org-apache-kafka-common
почему "spark-streaming-kafka-0-10_2.11" % "2.2.0" нельзя делать провайдед?

Stack Overflow

I am using spark streaming with the Kafka integration, When i run the streaming application from my IDE in Local mode, everything works as a charm. However as soon as i submit it to the cluster i k...

там какая-то хитрая зависимость, которая должна быть на всех нодах в момент запуска (как я понял)

18:43пожаловаться #3

GP

например ты помечаешь спарк кор как провайдед, потому, что он точно везде и так будет

18:44пожаловаться #4

EN

как чекнуть класспас?

18:44пожаловаться #5

EN

посмотреть какие либы уже там есть..

18:44пожаловаться #6

GP

по дефолту нет sql, streams (и т.п.) в момент когда пускаешь спарк сабмит джобу

и тем более кафки

18:45пожаловаться #7

EN

(HDP): spark2-client/libs ?

18:45пожаловаться #8

GP

ты можешь зайти в шелл и принтануть класспас шелла

18:48пожаловаться #9

GP

import java.lang.ClassLoader
val cl = ClassLoader.getSystemClassLoader
cl.asInstanceOf[java.net.URLClassLoader].getURLs.foreach(println)

18:48пожаловаться #10

GP

он обычно немного другой конечно но +-

18:48пожаловаться #11

GP

не знаю как точно на хдп; но в spark-env.sh посмотри переменные
он еще и в класспас хадупа ходит

18:49пожаловаться #12

EN

о круто) спасибо 😊👍

18:49пожаловаться #13

GP

) но по правилу большого пальца
считай что только обычные хадупо зависимости и spark-core - провайдед
редко вообще что провайдед помечается (в приложении, не в случае если пишешь фреймворк какой-то)

скорее всего остальное придется включать в доставку

супер правильный подход конечно же содержать чистый класспас самому (но в это слабо верится, и ты с хдп сча)

18:51пожаловаться #14

2019 August 22

RI

Rustam Iksanov in Data Engineers

Rustam Iksanov

Нашел вариант, через hbase импорт - экспорт, но вот какая странность. 1 таблица полностью появилась и отображает значения в фениксе, а вторая таблица в hbase shell видна, а феникс возвращает null в колонках, а ключ заполнен

Таким способом вчера перелил большую таблицу ( > 800 млн строк), но таблица, которую я лил первой, почему-то не хочет нормально видится из феникса.

10:00пожаловаться #15

神

神風 in Data Engineers

Доброе утро. Есть spark structured streaming джоб, который тащит из кафки. Естественно есть куча мелких файлов по результату его работы. Бороться собираюсь запуском джоба-перепаковщика по расписанию, который будет проходить по новым партициям и перепаковывать. Не подскажете good practice по уплотнению мелких файлов в файлы размера в блок, может появились какие-то встроенные механизмы в spark 2.3.4?

10:51пожаловаться #16

神

神風 in Data Engineers

А ещё, у кого какой опыт по борьбе с этой особенностью стриминга порождать мелкие файлы на hdfs?