Size: a a a

2021 January 05

N

Nikita Blagodarnyy in Data Engineers
Jane Frankenstein
а вы стракчерд стриминг юзаете?
где-то юзаем, где-то по-другому инкремент выделяем на источнике.
источник

N

Nikita Blagodarnyy in Data Engineers
Grigory Pomadchin
это в каком плане?
да я гоню. имел ввиду, что стримовые дф не поддерживают все те же операции, что и обычные.
источник
2021 January 06

K

KrivdaTheTriewe in Data Engineers
ну тут явно с айсбергом проблема
источник

K

KrivdaTheTriewe in Data Engineers
Nikita Blagodarnyy
бывает просто, что, например, кх из 10 раз 1 раз валится на записи. и надо перекореживать заново килотонны данных, чтобы перезаписать их в айсберг, куда они еще в прошлый раз норм заехали.
а кх умеет айсберг формат?
источник

N

Nikita Blagodarnyy in Data Engineers
KrivdaTheTriewe
ну тут явно с айсбергом проблема
надеюсь, Антон спит и не видит этого.
источник

N

Nikita Blagodarnyy in Data Engineers
KrivdaTheTriewe
а кх умеет айсберг формат?
я не пробовал, но в теории да. это ж поркет на стероидах. а поркет кх умеет.
источник

K

KrivdaTheTriewe in Data Engineers
а обождите, а почему write не работает и почему нужно в форичбатчем писать в айсберг
источник

KS

K S in Data Engineers
Есть ли преимущества в миграции дата лейка с hdfs на ceph?
источник

KS

K S in Data Engineers
Пока что вижу, что могут быть проблемы с поддержкой Hive и Presto.
источник

KS

K S in Data Engineers
Ну и ещё наверное придется писать Airflow CephOperator
источник

АЖ

Андрей Жуков... in Data Engineers
K S
Пока что вижу, что могут быть проблемы с поддержкой Hive и Presto.
s3 api вроде в достаточном объёме поддерживается
источник

AZ

Anton Zadorozhniy in Data Engineers
K S
Есть ли преимущества в миграции дата лейка с hdfs на ceph?
Смотря с какой целью
источник

KS

K S in Data Engineers
Anton Zadorozhniy
Смотря с какой целью
Наш CTO почему то думает, что ceph проще,быстрее и надежнее, чем hdfs.
источник

AZ

Anton Zadorozhniy in Data Engineers
K S
Наш CTO почему то думает, что ceph проще,быстрее и надежнее, чем hdfs.
Быстрее? Для аналитики?
источник

AZ

Anton Zadorozhniy in Data Engineers
У вас какой-то особенный кейс, с большим количеством маленьких файлов которые нельзя упаковать?
источник

АЖ

Андрей Жуков... in Data Engineers
K S
Наш CTO почему то думает, что ceph проще,быстрее и надежнее, чем hdfs.
Он может таким быть,  если рядом с ним сидит мастер по цефу :)
источник

KS

K S in Data Engineers
Anton Zadorozhniy
Быстрее? Для аналитики?
Не-а, они (не дата инженеры) почему-то думают только на один шаг вперед, не думаю о многих других аспектах.
источник

KS

K S in Data Engineers
Андрей Жуков
Он может таким быть,  если рядом с ним сидит мастер по цефу :)
Они уже пользуют ceph для чего-то, я пока ещё до этого не добрался.
источник

АЖ

Андрей Жуков... in Data Engineers
K S
Не-а, они (не дата инженеры) почему-то думают только на один шаг вперед, не думаю о многих других аспектах.
Для CTO это странное поведение :) ему надобно думать на n+1 шагов
источник

AZ

Anton Zadorozhniy in Data Engineers
Андрей Жуков
Он может таким быть,  если рядом с ним сидит мастер по цефу :)
Это прям надо постараться, чтобы на идентичном железе (особенно бареметал) обогнать HDFS на чтении больших файлов в батч джоб
источник