Size: a a a

2021 June 03

t

tenKe in Data Engineers
в начале батча дергаем API, определяем на сколько аккуратно надо наливать и наливаем
источник

AZ

Anton Zadorozhniy in Data Engineers
я такую штуку и написал, лимиты брали из etcd периодически. но это было просто на акке заливалка, без спарка
источник

A

Alexander in Data Engineers
Просто заливалка понятно как делать, но производительность хуже на порядок. Хочется остаться на спарк стриме
источник

AZ

Anton Zadorozhniy in Data Engineers
скорость заливки была такая же как на спарк стриминге
источник

A

Alexander in Data Engineers
Партиционирование для нас серьезный change request
Foreeachbatch это что? Метод api? Не знаком
источник

A

Alexander in Data Engineers
Я про свои реалии, сотри миллионов записей
источник

t

tenKe in Data Engineers
я про репартиционирование внутри стрима, а не кафки
источник

AZ

Anton Zadorozhniy in Data Engineers
вроде клиент бросил эту идею, я до сих пор не понимаю зачем нужно целостные сжатые данные разбивать по частям чтобы было сложнее контролировать целостность, переливать постоянно, медленнее отдавать
источник

AZ

Anton Zadorozhniy in Data Engineers
да-да, там тоже что-то около нескольких миллиардов записей в сутки в основных датасетах (было)
источник

t

tenKe in Data Engineers
источник

A

Alexander in Data Engineers
Это про structured streaming?
Вроде обычный streaming никак не партиционируется
источник

t

tenKe in Data Engineers
да, это Structured Streaming API
источник

A

Alexander in Data Engineers
Посмотрю. Сейчас у нас обычный стрим. Запустил и забыл и все как есть без возможности вмешаться
источник

S

Sofia in Data Engineers
Привет. Подскажите, на сайте cloudera для загрузки бесплатных версий cdh требуется аутентификация:
If you are using any version of Cloudera Manager older than 6.3.3 to install CDH 6.3.3 packages or parcels, you must include the username/password and "@" in the repository URL during installation.
Откуда предполагается брать username и password?
источник

AF

Alex Frost in Data Engineers
Платная подписка, или как её еще назвать.
источник

S

Sofia in Data Engineers
Но версии до 6.3.3 ведь бесплатные должны быть?
источник

AZ

Anton Zadorozhniy in Data Engineers
вы можете продолжать пользоваться, но доступ к репозиториям открыт только для клиентов
источник

S

Stanislav in Data Engineers
ну ваще т ссс не фонтан как быстро что читает, что пишет в кафку
читать напрямую из хдфс и писать опустошая буфер можно на скорости канала/дисков кафки
у ссс скорость далека от этих цифр
источник

D

Dmitry in Data Engineers
должны были, но обманули
источник

AZ

Anton Zadorozhniy in Data Engineers
это вообще тот еще погрев атмосферы: возьмем сильно сжатый паркет на миллиард строк, начнем разжимать в памяти и делать строчки в авро, будем писать в кафку, и еще надо как-то дать консьюмерам знать сколько там строк, чтобы консьюмеры как-то считали и знали когда все записано... в гамаке и стоя
источник