Size: a a a

2019 November 15

DG

Denis Gabaydulin in Moscow Spark
А тут опять же лучше батчинг.
источник

DG

Denis Gabaydulin in Moscow Spark
Потому что запись в hdfs дорогая.
источник

AP

Anton Pilipenko in Moscow Spark
Андрей Жуков
ну, кстати, мы примерно так и делаем
ну это как то не воздушно и концептуально...
источник

DG

Denis Gabaydulin in Moscow Spark
То есть записать эти сотни-тысяч - миллионы мелких файлов вы сможете, на каждыый запуск стриминга. А вот прочитать их и закомпактить, будет проблемой
источник

DG

Denis Gabaydulin in Moscow Spark
Три дц и топик в 24 партиции уже дают минимум 72 файла на запуск.
источник

DG

Denis Gabaydulin in Moscow Spark
И цель не понятна. Если писать в hdfs, то про realtime можно забыть. А тогда опять же лучше дубовый батчинг. Проще, полная свобода управления данными. Раз в 15 минут.
источник

S

Stanislav in Moscow Spark
Denis Gabaydulin
Ну в спарке это секунды на жирном топике, да)
А сколько жирный топик для спарке? Вон выше они не успевает за ретеншном. У меня такая же ситуация на дохлом топике в 400к/сек
источник

DG

Denis Gabaydulin in Moscow Spark
Ну кажется неск миллиардов в сутки уже вполне жирный.
источник

AP

Anton Pilipenko in Moscow Spark
Stanislav
А сколько жирный топик для спарке? Вон выше они не успевает за ретеншном. У меня такая же ситуация на дохлом топике в 400к/сек
да не если выставить latest то все работает как и должно - это был больше пятничный вопрос =)
источник

DG

Denis Gabaydulin in Moscow Spark
400к сек это уже ОЧЕНЬ жирный. Но тут конечно зависит от того сколько ядер молотит. У меня в стриминге макс было что-то типа 5-7 млрд в трех дц на 24 партиции. И я брал где то 96 ядер кажется (с расчетом 1 ядро на одну партицию + некоторый запас). И операций никаких типа шафла и стейта не было. Фильтрануть, преобразовать из одного формата в другой, и отправить в другой кластер кафки.
источник

DG

Denis Gabaydulin in Moscow Spark
Или может один шафл был. Честно говоря уже не помню. Но пайплайн был лайтовый.
источник

t

tenKe in Moscow Spark
народ, а в pyspark можно как то сделать пустой массив с определенным форматом?

типа array().cast("array<struct<...>>")
источник

GP

Grigory Pomadchin in Moscow Spark
tenKe
народ, а в pyspark можно как то сделать пустой массив с определенным форматом?

типа array().cast("array<struct<...>>")
а F.array() сам по себе не выводится?
источник

t

tenKe in Moscow Spark
варианты типа распарсить пустой жсон не предлагать
источник

t

tenKe in Moscow Spark
источник

t

tenKe in Moscow Spark
нет(
источник

GP

Grigory Pomadchin in Moscow Spark
источник

t

tenKe in Moscow Spark
он делает array<string>
источник

t

tenKe in Moscow Spark
и не может его скастить в array<struct<
источник

t

tenKe in Moscow Spark
неужели придется делать from_json(it("""), schema)
источник