Size: a a a

2019 May 21

GG

George Gaál in Data Engineers
ну, условно - писать не в один файл, а в два - один с самими результатами обсчета, а второй - типа флажок, что оно успешно закоммитилось
источник

A

Artem in Data Engineers
George Gaál
ну, условно - писать не в один файл, а в два - один с самими результатами обсчета, а второй - типа флажок, что оно успешно закоммитилось
1. самим нужно делать 2. Достаточно трудоёмко, если batch плодит много разных файлов в разных папках.
источник

A

Artem in Data Engineers
Гораздо проще как в БД откатить транзакцию)
источник

GG

George Gaál in Data Engineers
фиг там. Там под капотом у "отката транзакции"куча моментом
источник

GG

George Gaál in Data Engineers
проще пока флага нет - не считать данные валидными (типа их и нет)
источник

GG

George Gaál in Data Engineers
или коммитьте, например, список файлов (имен) в бд типа postgresql. хз
источник

GG

George Gaál in Data Engineers
Критерии "успешности выполнения батча" какие?
источник

A

Artem in Data Engineers
Ну и в нашем случае уже есть большой проект, в который придётся вносить множество изменений, а вероятность накосячить гораздо выше чем использовать snapshot.
источник

A

Artem in Data Engineers
George Gaál
или коммитьте, например, список файлов (имен) в бд типа postgresql. хз
Результат список папок в которые бизнес пишет запросы, они хотят обращаться все время к одной папке и видеть там результат
источник

GG

George Gaál in Data Engineers
ну, коммитьте в эту папку результат, когда он будет
источник

GG

George Gaál in Data Engineers
не промежуточные результаты батчей, а только когда они все отработали. Проблема надумана
источник

GG

George Gaál in Data Engineers
помните как раньше софт обновлялся (таже капистрано?)
источник

A

Artem in Data Engineers
Если бы hdfs поддерживал soft links то можно, но их выпилили
источник

A

Artem in Data Engineers
George Gaál
не промежуточные результаты батчей, а только когда они все отработали. Проблема надумана
Ещё раз, есть большой проект, вносить кучу изменений или одно, где вероятность ошибки выше?
источник

GG

George Gaál in Data Engineers
да фиг его знает. Вместо нормально рефакторинга пытаетесь сделать очередную заплатку.
источник

GG

George Gaál in Data Engineers
ок
источник

A

Artem in Data Engineers
George Gaál
да фиг его знает. Вместо нормально рефакторинга пытаетесь сделать очередную заплатку.
А чем snapshot не нравится? Какие грабли могут быть?
источник

GG

George Gaál in Data Engineers
без понятия. Меня пугает любая низкоуровневая магия, которая может сломаться. Чай не LVM snapshot, с которым все ясно. И еще -у вас же потребитель ХДФС явно не один?
источник

A

Alex in Data Engineers
На время restore нужно тормознуть всё
источник

A

Artem in Data Engineers
Alex
На время restore нужно тормознуть всё
Пока это устраивает
источник