Size: a a a

2021 January 06

T

T in Data Engineers
Соотвестно идейное понимае как кафка работает у меня есть но прод опыта нету
источник

N

Nikolay in Data Engineers
T
Привет, покидайте статей про то как рассчитывать количество и конфигурацию серваков под кафка кластер если известен примерный размер ожидаемого потока. Можно не очень подробную, просто хочу методологию расчета понять к завтрашнему дизайн интервью
на 10 мб/сек можно рассчитывать на 1 продьюсер, если с репликацией. В большинстве случаев кластеры не больше 5 нод. есть калькулятор онлайн.
источник

e

er@essbase.ru in Data Engineers
T
Да это понятно, но для себя конечно хотелось бы понять как хотябы примерно оценить по верхней границы. Я тут просто не много решил даунгредится  но за то пойти к чуваком которые все стримово обрабатываю, так как надоело сидеть на бачах
ох.. наверное уже знаете как в стримово  собирать среднее по больнице ? или взвешенные показатели по иерархии ?
источник

T

T in Data Engineers
Nikolay
на 10 мб/сек можно рассчитывать на 1 продьюсер, если с репликацией. В большинстве случаев кластеры не больше 5 нод. есть калькулятор онлайн.
+ спасибо, это при какой конфигурации железа?
источник

T

T in Data Engineers
вы очень токсичный, мы вам перезвоним
источник

N

Nikolay in Data Engineers
можете вот этот погонять https://eventsizer.io/
источник

AZ

Anton Zadorozhniy in Data Engineers
T
Соотвестно идейное понимае как кафка работает у меня есть но прод опыта нету
просто пройдите по write path и read path, сделайте предположения по тому на сколько топиков и партиций побит поток, какая репликация, какой ретеншен - отсюда придете к IO на диски брокеров, зная ваше железо можно выйти на число брокеров (в продакшене 4 это минимальное число, если у вас RF3)
источник

N

Nikolay in Data Engineers
T
+ спасибо, это при какой конфигурации железа?
10мб/сек понятнут и hdd. памяти обычно много не нужно. только у кафки есть предел. скажем в 200К партиций на кластер. есть статья известная на эту тему. там штука в том, что в кафка кластере всегда один из брокеров является контроллером, который отвечает за лидер элекшн для всех партиций. если он упадет,а партиций много, то это на долго все затянется
источник

T

T in Data Engineers
Ага, понятно в какую сторону копать, большое спасибо за подсказки и ссылки
источник

N

Nikolay in Data Engineers
можно и 100мб/сек, если поставить, чтобы как только брокер к себе прринял, то не ждал, пока на другие ноды среплицируются. у вас на собесе будут какие-то число операций в секунду. вот вы зная размер одной записи. можете посчитать сколько в секунду можно будет прокачать. на продьюсере есть настраяка батчинга. лучше исходить из этих 10мб/сек.
источник

N

Nikolay in Data Engineers
в принципе можно предполагать, что вы сможете пару миллионов сообщений коротких в секунду прокачивать через кластре. можете загуглить что-нибудь kafka millions messages. учесть, что кафка не гарантироет FIFO если больше одной партиции. и т.д.
источник

N

Nikolay in Data Engineers
Если что есть отдельная группа  по кафке https://t.me/proKafka . Там даже не душно )
источник

DZ

Dmitry Zuev in Data Engineers
Nikolay
в принципе можно предполагать, что вы сможете пару миллионов сообщений коротких в секунду прокачивать через кластре. можете загуглить что-нибудь kafka millions messages. учесть, что кафка не гарантироет FIFO если больше одной партиции. и т.д.
Эм эээ. Ордеринг в рамках партиции как бээ
источник

DZ

Dmitry Zuev in Data Engineers
И у кого вообще в проде топики с одной партицией
источник

N

Nikolay in Data Engineers
ну да. так ведь я это и написал )
источник

DZ

Dmitry Zuev in Data Engineers
Нет
источник

T

T in Data Engineers
Отлично, большое спасибо!
источник

N

Nikolay in Data Engineers
ну нет, так нет )
источник

В

Вячеслав in Data Engineers
Dmitry Zuev
И у кого вообще в проде топики с одной партицией
У меня. Потому что ордеринг нужен. :)
источник

DZ

Dmitry Zuev in Data Engineers
Вячеслав
У меня. Потому что ордеринг нужен. :)
Эм эээ
источник