Size: a a a

2019 May 20

GP

Grigory Pomadchin in Data Engineers
Julia Petrova
большое спасибо)
в джобс канале нашем посмотри еще (не чат который) посмотри вилки
источник

JP

Julia Petrova in Data Engineers
Grigory Pomadchin
в джобс канале нашем посмотри еще (не чат который) посмотри вилки
источник

РА

Рамиль Ахмадеев in Data Engineers
Филипп Чистяков
Да я согласен. Вопрос может ли быть какая-то причина в том, что у него это не получилось. Какие-то особенности мб
согласен с предыдущим оратором, причина может быть только в лени или кривых руках
источник
2019 May 21

A

Artem in Data Engineers
Парни, а кто-нибудь использует hdfs snapshots в проде? Хотим использовать для отката в случае ошибки batch расчёта, а-ля транзакционность. Но смущает, странный api и необходимость делать hdfs dfs -rm на продакшн данных) Может ещё грабли есть?
источник

S

Stanislav in Data Engineers
Artem
Парни, а кто-нибудь использует hdfs snapshots в проде? Хотим использовать для отката в случае ошибки batch расчёта, а-ля транзакционность. Но смущает, странный api и необходимость делать hdfs dfs -rm на продакшн данных) Может ещё грабли есть?
Посмотри как они работают
источник

A

Artem in Data Engineers
Stanislav
Посмотри как они работают
Смотрел, что не так увидел?
источник

A

Alex in Data Engineers
а можно узнать где rm увидели?
источник

A

Alex in Data Engineers
createSnapshot
deleteSnapshot
renameSnapshot

на уровне метаданных в основном работа
блоки не двигаются, вся магия в неймноде
источник

A

Artem in Data Engineers
Alex
createSnapshot
deleteSnapshot
renameSnapshot

на уровне метаданных в основном работа
блоки не двигаются, вся магия в неймноде
Чтобы сделать hdfs dfs -cp -ptopax нужно чтобы конфликтов не было, на тесте мы просто удаляли папку. А как правильно вернуть фс в состояние снэпшота?
источник

A

Alex in Data Engineers
ясно, вы говорите про востановление состояния в случае restore

ну а в чем проблема?
в уже занятую директорию с данными сложно как-то востанавливать =)

или вы это ручками сделаете и удалите все
или такое же поведение все равно придется делать внутри скрипта востановления

востановление насколько помню это 3 операции:
1) из снепшот копии создали +1 копию (тут уже копирование данных есть)
2) удалили данные там где нужно воставить (работа только с метаданными на namenode)
3) сделали move в ту директорию (работа только с метаданными на namenode)
источник

A

Alex in Data Engineers
2 и 3 достаточно быстрые операции, хотя зависит конечно от количества файлов
источник

A

Artem in Data Engineers
Alex
ясно, вы говорите про востановление состояния в случае restore

ну а в чем проблема?
в уже занятую директорию с данными сложно как-то востанавливать =)

или вы это ручками сделаете и удалите все
или такое же поведение все равно придется делать внутри скрипта востановления

востановление насколько помню это 3 операции:
1) из снепшот копии создали +1 копию (тут уже копирование данных есть)
2) удалили данные там где нужно воставить (работа только с метаданными на namenode)
3) сделали move в ту директорию (работа только с метаданными на namenode)
Смущает, что функция очень полезная, но как-то о ней мало говорят. Плюс, не понятно, почему нельзя было добавить человеческую команду restore, вместо 2х операций. Но если это реально работает, то конечно замечательно)
источник

A

Alex in Data Engineers
полезность для бекапов
но вот делать транзакционность на ней это хз

у многих достаточно много данных чтобы пинать пункт 1 очень осторожно
источник

A

Artem in Data Engineers
Alex
полезность для бекапов
но вот делать транзакционность на ней это хз

у многих достаточно много данных чтобы пинать пункт 1 очень осторожно
Так, это как раз наш кейс))) но планировали делать без него, копировать сразу из snapshot
источник

A

Alex in Data Engineers
если 2-3 достаточно быстрые операции, секунды даже на большом количестве файлов
то 1я в зависимости от объемов у вас минуты будут минимум

сами понимаете что такой rollback это то ещё удовольствие для транзакций
источник

A

Alex in Data Engineers
не все могут стопнуть процессинг на часик
источник

A

Artem in Data Engineers
Alex
если 2-3 достаточно быстрые операции, секунды даже на большом количестве файлов
то 1я в зависимости от объемов у вас минуты будут минимум

сами понимаете что такой rollback это то ещё удовольствие для транзакций
Понятно, мы подразумеваем одну транзакцию bath расчёта - или прочитал или откатился
источник

A

Artem in Data Engineers
Ну и в любом случае лучше иметь возможность откатиться к какому-то состоянию в случае проблем
источник

GG

George Gaál in Data Engineers
у мну вопрос
источник

GG

George Gaál in Data Engineers
а что мешает транзакции сделать не на уровне хранилища, а на уровне логики?
источник