Size: a a a

2019 August 21

EN

Eldar Nezametdinov in Data Engineers
Дата инженеры, можете пояснить вот этот момент:
https://stackoverflow.com/questions/45816792/spark-streaming-kafka-java-lang-classnotfoundexception-org-apache-kafka-common
почему "spark-streaming-kafka-0-10_2.11" % "2.2.0" нельзя делать провайдед?
источник

GP

Grigory Pomadchin in Data Engineers
провайдед помечаются зависиомсти которые есть в класспасе джарника
чтобы не делать убер джар толще без причины (они и так 100% есть в класспассе - так зачем добавлять)
источник

R

Renarde in Data Engineers
там какая-то хитрая зависимость, которая должна быть на всех нодах в момент запуска (как я понял)
источник

GP

Grigory Pomadchin in Data Engineers
например ты помечаешь спарк кор как провайдед, потому, что он точно везде и так будет
источник

EN

Eldar Nezametdinov in Data Engineers
как чекнуть класспас?
источник

EN

Eldar Nezametdinov in Data Engineers
посмотреть какие либы уже там есть..
источник

GP

Grigory Pomadchin in Data Engineers
по дефолту нет sql, streams (и т.п.) в момент когда пускаешь спарк сабмит джобу

и тем более кафки
источник

EN

Eldar Nezametdinov in Data Engineers
(HDP): spark2-client/libs ?
источник

GP

Grigory Pomadchin in Data Engineers
ты можешь зайти в шелл и принтануть класспас шелла
источник

GP

Grigory Pomadchin in Data Engineers
import java.lang.ClassLoader
val cl = ClassLoader.getSystemClassLoader
cl.asInstanceOf[java.net.URLClassLoader].getURLs.foreach(println)
источник

GP

Grigory Pomadchin in Data Engineers
он обычно немного другой конечно но +-
источник

GP

Grigory Pomadchin in Data Engineers
не знаю как точно на хдп; но в spark-env.sh посмотри переменные
он еще и в класспас хадупа ходит
источник

EN

Eldar Nezametdinov in Data Engineers
о круто) спасибо 😊👍
источник

GP

Grigory Pomadchin in Data Engineers
) но по правилу большого пальца
считай что только обычные хадупо зависимости и spark-core - провайдед
редко вообще что провайдед помечается (в приложении, не в случае если пишешь фреймворк какой-то)

скорее всего остальное придется включать в доставку

супер правильный подход конечно же содержать чистый класспас самому (но в это слабо верится, и ты с хдп сча)
источник
2019 August 22

RI

Rustam Iksanov in Data Engineers
Rustam Iksanov
Нашел вариант, через hbase импорт - экспорт, но вот какая странность. 1 таблица полностью появилась и отображает значения в фениксе, а вторая таблица в hbase shell видна, а феникс возвращает null в колонках, а ключ заполнен
Таким способом вчера перелил большую таблицу ( > 800 млн строк), но таблица, которую я лил первой, почему-то не хочет нормально видится из феникса.
источник

神風 in Data Engineers
Доброе утро. Есть spark structured streaming джоб, который тащит из кафки. Естественно есть куча мелких файлов по результату его работы. Бороться собираюсь запуском джоба-перепаковщика по расписанию, который будет проходить по новым партициям и перепаковывать. Не подскажете good practice по уплотнению мелких файлов в файлы размера в блок, может появились какие-то встроенные механизмы в spark 2.3.4?
источник

神風 in Data Engineers
А ещё, у кого какой опыт по борьбе с этой особенностью стриминга порождать мелкие файлы на hdfs?
источник

t

tenKe in Data Engineers
神風
А ещё, у кого какой опыт по борьбе с этой особенностью стриминга порождать мелкие файлы на hdfs?
у многих есть. Паковать, паковать и потом еще раз паковать
источник

t

tenKe in Data Engineers
можно еще купить побольше оперативы для NN и забить болт
источник

t

tenKe in Data Engineers
источник