Size: a a a

2021 September 03

TB

Torlin Bios in Data Engineers
там Спарк читает Кафку, затем дедупликация ивентов и затем запись в хадуп, с3 и тд
источник

TB

Torlin Bios in Data Engineers
в чем странная ?
источник

TB

Torlin Bios in Data Engineers
в данный момент используется hbase, пробуем Аэроспайк. Настоятельно попросили делать только инсерт
источник

TB

Torlin Bios in Data Engineers
в аэроспайк
источник

TB

Torlin Bios in Data Engineers
грубо говоря, приходит какой то рдд, нужно его put, но как результат получить отфильтрованный от дубликатов рдд и пустить дальше по пайплайну
источник

TB

Torlin Bios in Data Engineers
без get или exists есть ли какие то способы?
источник

TB

Torlin Bios in Data Engineers
пробовал асинхронный пут
источник

TB

Torlin Bios in Data Engineers
ключей уникальных приходит достаточно много каждый день, около 1млрд и насколько я понял синхронный пут может быть проблемным по производительности
источник

TB

Torlin Bios in Data Engineers
буду рад если сталкивались с таким кейсом
источник

NN

No Name in Data Engineers
А нет возможности приземлить первоначально в какой-нибудь стейджинг, там почистить и дальше по трубам пустить?
источник

TB

Torlin Bios in Data Engineers
к сожалению нет
источник

OI

Oleg Ilinsky in Data Engineers
я правильно понимаю, что хочется делать дедубликацию в стриме?
источник

А

Алексей in Data Engineers
Можно в java jar узнать откуда он был запущен? (папка/файл)
источник

ИК

Иван Калининский... in Data Engineers
источник

N

Nikita Blagodarnyy in Data Engineers
А зачем для дедупа какой-то сторадж? Почему не написать просто .dropDuplicates?
источник

N

Nikita Blagodarnyy in Data Engineers
И писать в с3 или куда там
источник

N

Nikita Blagodarnyy in Data Engineers
источник

TB

Torlin Bios in Data Engineers
там dstream на рдд
источник

N

Nikita Blagodarnyy in Data Engineers
на структуред нет возможности переписать?
источник

TB

Torlin Bios in Data Engineers
слишком много, пока нет
источник