Телеграмм чат группы moscowspark страница 211

И цель не понятна. Если писать в hdfs, то про realtime можно забыть. А тогда опять же лучше дубовый батчинг. Проще, полная свобода управления данными. Раз в 15 минут.

источник

17:54пожаловаться #6

Stanislav in Moscow Spark

Denis Gabaydulin

Ну в спарке это секунды на жирном топике, да)

А сколько жирный топик для спарке? Вон выше они не успевает за ретеншном. У меня такая же ситуация на дохлом топике в 400к/сек

источник

19:25пожаловаться #7

Denis Gabaydulin in Moscow Spark

Ну кажется неск миллиардов в сутки уже вполне жирный.

источник

20:07пожаловаться #8

Anton Pilipenko in Moscow Spark

Stanislav

да не если выставить latest то все работает как и должно - это был больше пятничный вопрос =)

источник

20:11пожаловаться #9

Denis Gabaydulin in Moscow Spark

400к сек это уже ОЧЕНЬ жирный. Но тут конечно зависит от того сколько ядер молотит. У меня в стриминге макс было что-то типа 5-7 млрд в трех дц на 24 партиции. И я брал где то 96 ядер кажется (с расчетом 1 ядро на одну партицию + некоторый запас). И операций никаких типа шафла и стейта не было. Фильтрануть, преобразовать из одного формата в другой, и отправить в другой кластер кафки.

источник

20:12пожаловаться #10

Denis Gabaydulin in Moscow Spark

Или может один шафл был. Честно говоря уже не помню. Но пайплайн был лайтовый.

источник

20:16пожаловаться #11

tenKe in Moscow Spark

народ, а в pyspark можно как то сделать пустой массив с определенным форматом?

типа array().cast("array<struct<...>>")

источник

20:37пожаловаться #12

Grigory Pomadchin in Moscow Spark

tenKe