Size: a a a

2021 April 15

KS

K S in Data Engineers
Arrow это нормальный вариант для подобного сценария?
источник

AZ

Anton Zadorozhniy in Data Engineers
Arrow это нормальный вариант, но это не формат файла, а представление в памяти, файлы будут в parquet скорее всего
источник

AZ

Anton Zadorozhniy in Data Engineers
Ну декодер предполагает строчный формат, не хочу за отвечать за Алексея, но не всем такой подходит
источник

AZ

Anton Zadorozhniy in Data Engineers
Но я все равно рекомендую присмотреться к базам данных, они классные
источник

SO

Simon Osipov in Data Engineers
источник

GP

Grigory Pomadchin in Data Engineers
источник

ИК

Иван Калининский... in Data Engineers
Вообще, можно придумать, чтобы отрезать футер паркета, дописывать row group, снова записывать немного модифицированный футер. Давно видел такую идею, никогда не видел реализацию, даже попыток таких не знаю
источник

KS

K S in Data Engineers
А как насчёт записи в кафку?
источник

AZ

Anton Zadorozhniy in Data Engineers
у вас какая-то архитектурная полиция требует модную технологию?)
источник

KS

K S in Data Engineers
Нет конечно, просто подумал, что много маленьких файлов это по сути сообщения в очереди.
источник

AZ

Anton Zadorozhniy in Data Engineers
ну вы практически готовый архитектор)
источник

KS

K S in Data Engineers
Запись из датафрейма в sqs в спарке не параллельна, поэтому тут всё равно боттлнек.
источник

AZ

Anton Zadorozhniy in Data Engineers
как мало у вас данных что вы готовы в SQS их писать?
источник

KS

K S in Data Engineers
Их бывает много, до 7 млн записей в одном батче.
источник

KS

K S in Data Engineers
То есть получаем паркет файлы, читаем в датафрейм, разбиваем на батчи равной величины, пишем в персистенс (S3, SQS, ElastiCache).
источник

KS

K S in Data Engineers
Клиенты запускают кучу контейнеров со своим Go клиентом и читают параллельно из персистенса.
источник

R

Roman in Data Engineers
Тут советовали посмотреть сторону бд - это вам хорошо же должно подойти, не?
источник

R

Roman in Data Engineers
Например в redshift заливать пакеты, он, вроде бы, умеет их сам забирать с s3.
источник

KS

K S in Data Engineers
Посмотрю в RDS, спасибо.
источник

R

Roman in Data Engineers
Посмотрите ещё в сторону redshift spectrum.
источник