Телеграмм чат группы hadoopusers страница 3179

Alexandr Vladimirovich

получается что я могу установить Apache версию kafka, сверху поставить kafka connect и скачать этот коннектор?

я не уверен какая там совместимость с ванилью, вам нужно будет самим исследовать

Alexandr Vladimirovi... in Data Engineers

16:36пожаловаться #1

AV

Anton Zadorozhniy

я не уверен какая там совместимость с ванилью, вам нужно будет самим исследовать

это понятное дело что надо проверять
просто во всей доке идет ссылка на confluent platform и на установку через Confluent Hub

16:36пожаловаться #2

AZ

Alexandr Vladimirovich

это понятное дело что надо проверять
просто во всей доке идет ссылка на confluent platform и на установку через Confluent Hub

confluent hub это автоматизация для их сборки, вы можете поставить коннекторы и своим тулингом, ансибл или что вы используете

16:40пожаловаться #3

AZ

или вообще в докер образ запечь например

16:42пожаловаться #4

AZ

confluent hub CLI это локальная чисто инсталляция, для разработки; на большой кластер вам надо ставить джарники в директории https://docs.confluent.io/platform/current/connect/userguide.html#connect-installing-plugins

Alexandr Vladimirovi... in Data Engineers

16:44пожаловаться #5

AV

спасибо за разъяснения)

16:46пожаловаться #6

MK

Mikhail Kuznetsov in Data Engineers

Добрый день. Можно ли как-то в agg передавать динамически составленную строку с условиями агрегации?
Т.е.
val df2 = df1
.groupBy($"some_fields")
.agg(
"some_string"
)
Или какой-либо другой способ, поддерживающий динамически меняющиеся условия?

16:57пожаловаться #7

K

KrivdaTheTriewe in Data Engineers

Mikhail Kuznetsov

Добрый день. Можно ли как-то в agg передавать динамически составленную строку с условиями агрегации?
Т.е.
val df2 = df1
.groupBy($"some_fields")
.agg(
"some_string"
)
Или какой-либо другой способ, поддерживающий динамически меняющиеся условия?

написать свой кастомный регулятор

17:01пожаловаться #8

MK

Mikhail Kuznetsov in Data Engineers

KrivdaTheTriewe

написать свой кастомный регулятор

udf вы имеете ввиду?

17:01пожаловаться #9

MB

добрый вечер, в чем может быть проблема: пишу в hdfs мелкие сообщения, удаётся записать пару сообщений и потом запись останавливается, хотя видно что приложение работает. Нагуглил такую команду hdfs debug recoverLease, после её исполнения опять несколько файлов пишет и потом стоп. Пишу мелкие файлы в один файл. Вроде как вычитал что Hadoop выделяет только минуту для записи в файл. Как решить эту проблему?

17:30пожаловаться #10

A

Alex in Data Engineers

У вас большой интервал между записями?

Иван Калининский... in Data Engineers

17:34пожаловаться #11

ИК

Mikhail Kuznetsov

Добрый день. Можно ли как-то в agg передавать динамически составленную строку с условиями агрегации?
Т.е.
val df2 = df1
.groupBy($"some_fields")
.agg(
"some_string"
)
Или какой-либо другой способ, поддерживающий динамически меняющиеся условия?

В чем проблема создать коллекцию [Column] и передавать её обычным способом: .agg(cols.head, cols.tail: _*) ? Не вижу здесь никакой сложности, возможно, ваша задача на самом деле шире?

17:39пожаловаться #12

MB

нет

17:39пожаловаться #13

MB

потоком идут файлы

17:39пожаловаться #14

MB

Alex

У вас большой интервал между записями?

👆

17:40пожаловаться #15

MK

Mikhail Kuznetsov in Data Engineers

Иван Калининский

В чем проблема создать коллекцию [Column] и передавать её обычным способом: .agg(cols.head, cols.tail: _*) ? Не вижу здесь никакой сложности, возможно, ваша задача на самом деле шире?

Мне нужно условия агрегации каждый раз задавать динамически, их количество и сама функция будет меняться
мб некорректно обозначил проблему - рандомный пример со статикой
.groupBy($"some_fields")
.agg(
concat_ws(" ", collect_list("par1")) as "concat1",
max("par2")
)

Мне хотелось бы иметь возможность делать как-то так
val concat = "concat_ws(" ", collect_list("par1")) as "concat1""
val max = "max("par2") as max2"
val aggSeq = Seq(concat, max)
.groupBy($"some_fields")
.agg(aggSeq)

т.е. заранее мне не известны ни функции агрегации ни колонки для них

Иван Калининский... in Data Engineers

17:50пожаловаться #16

ИК

Mikhail Kuznetsov

Мне нужно условия агрегации каждый раз задавать динамически, их количество и сама функция будет меняться
мб некорректно обозначил проблему - рандомный пример со статикой
.groupBy($"some_fields")
.agg(
concat_ws(" ", collect_list("par1")) as "concat1",
max("par2")
)

Мне хотелось бы иметь возможность делать как-то так
val concat = "concat_ws(" ", collect_list("par1")) as "concat1""
val max = "max("par2") as max2"
val aggSeq = Seq(concat, max)
.groupBy($"some_fields")
.agg(aggSeq)

т.е. заранее мне не известны ни функции агрегации ни колонки для них

Значит надо каждую строку - агрегатную функцию обернуть в org.apache.spark.sql.functions.expr, сформировать Seq и передать в .agg, я выше писал способ

Иван Калининский... in Data Engineers

17:54пожаловаться #17

ИК

Название класса по памяти писал, но вроде такое

17:54пожаловаться #18

MK

Mikhail Kuznetsov in Data Engineers

Иван Калининский

Значит надо каждую строку - агрегатную функцию обернуть в org.apache.spark.sql.functions.expr, сформировать Seq и передать в .agg, я выше писал способ

про expr не в курсе был, спасибо за совет! буду пробовать

17:55пожаловаться #19

N

Nikita Blagodarnyy in Data Engineers

Граждане, у нас тут в коммоне накопилась куча всяких вспомогательных функций для работы с DataFrame/DataSet/Sink спрака. Ну типа там df как-то сложно через dense_rank сагрегировать, поркеты рекурсивно прокомпактить, к схеме нужной примандить, с худи поработать, hbase посканить. Есть идея это заопенсурсить. Вопрос-оно вообще надо такое кому-то? А то процесс непростой, и если оно не надо, то и потеть неохота.