Size: a a a

2019 September 13

AP

Alexander Piminov in Data Engineers
Ну просто Ranger как раз позволяет расширить или ужать права пользователей и групп согласно политике на ресурс. А дальше смотря уже по use case, подходит ли тебе его модель. Ряд плагинов позволяет настраивать права на HDFS, Hive и т.п. и централизованно ими управлять, не меняя нативные права.
источник

EN

Eldar Nezametdinov in Data Engineers
окей, спасибо большое, по описанию то что надо)
источник

VS

Valeriy Shinkevich in Data Engineers
Eldar Nezametdinov
Подскажите пожалуйста. Вопрос насчет зеппелин, имперсонализация, hdfs, fs.
Из-за имперсонализации в зеппелине - каждый пользователь создает файлы от своего пользователя.
Таким образом при создании таблицы в hive, получается что эту папку перезаписать или удалить может только сам пользователь.
Как сделать на все папки в /apps/hive/warehouse/ права типа 775 вместо 755 текущего...  ? Не вручную, а чтобы при создании было
Чтобы группа пользователей могла редактировать таблицу..
Либо другой какой-нибудь подход...
а если в блокнот добавить shell параграф ?
источник

AZ

Anton Zadorozhniy in Data Engineers
Жмака
То есть надо как то заснепшотить и заресторить, но насколько я помню проблема в снэпшотах может быть тоже в версиях hbase.
да, репликацию на непустых таблицах надо начинать с копирования таблицы, нужно притормозить чтение в самом простом случае... и я бы начал тренироваться на совместимость вашей версии с имр, может быть удастся проскочить, там же логическая репликация и между версиями она неплохо работает
источник
2019 September 14

Ж

Жмака in Data Engineers
Anton Zadorozhniy
да, репликацию на непустых таблицах надо начинать с копирования таблицы, нужно притормозить чтение в самом простом случае... и я бы начал тренироваться на совместимость вашей версии с имр, может быть удастся проскочить, там же логическая репликация и между версиями она неплохо работает
Спасибо! У меня 2 source кластера: один с 2-й версией hbase, а второй с 1.2. В EMR версия 1.4. Еще осложняется тем, что периодически могут быть ddl во время репликации и у меня более 1500 таблиц в каждом кластере с одной cf (думаю как можно скриптом запустить репликацию и остановить ее так чтобы уменьшить время остановки записи).
источник

AZ

Anton Zadorozhniy in Data Engineers
Жмака
Спасибо! У меня 2 source кластера: один с 2-й версией hbase, а второй с 1.2. В EMR версия 1.4. Еще осложняется тем, что периодически могут быть ddl во время репликации и у меня более 1500 таблиц в каждом кластере с одной cf (думаю как можно скриптом запустить репликацию и остановить ее так чтобы уменьшить время остановки записи).
надо начать с того что ваши миграции БД инструментировать на тему нескольких кластеров, ДДЛ на хбейсе где подняты репликации должны проходить только в строго контролируемой процедуре, вообще лучше метаданные по миграциям вынести в вашу систему конфигурации которая над кластерами (распределена по ДЦ или АЗ в амазоне), наверняка такая есть и используется для выборов лидера и сервис дискавери
источник

Ж

Жмака in Data Engineers
А можно реплицировать source - > replica1 - > replica2? В документации об этом ничего нет
источник

AZ

Anton Zadorozhniy in Data Engineers
Жмака
А можно реплицировать source - > replica1 - > replica2? В документации об этом ничего нет
да, причем можно реплицировать a-> b ->c ->a и другие странные варианты, там в протоколе репликации зашит идентификатор кластера пославшего изменения, поэтому можно не бояться циклов
источник

AZ

Anton Zadorozhniy in Data Engineers
наверное правильно будет a->b, a->c, b->a, b->c, c->a, c->b
источник

AZ

Anton Zadorozhniy in Data Engineers
будет такая кассандра, записать можно в любой узел, а на других прочитать когда получится)
источник

Ж

Жмака in Data Engineers
Может ли это помоць с разными версиями, интересно? Матрица версий в их документации вообще об этом не говорит
источник

AZ

Anton Zadorozhniy in Data Engineers
Жмака
Может ли это помоць с разными версиями, интересно? Матрица версий в их документации вообще об этом не говорит
думаю это отдельный ресерч с ковырянием в коде репликации хбейс
источник

Ж

Жмака in Data Engineers
Спасибо! Придется пробовать
источник

AZ

Anton Zadorozhniy in Data Engineers
имеет смысл пойти прям с таким вопросом в мейлинг листы
источник

Ж

Жмака in Data Engineers
Нашел их. Поищу. 100% ктотто уже пытался мигрировать с разными версиями
источник

AZ

Anton Zadorozhniy in Data Engineers
точно стоит еще потестировать вашу нагрузку против имр до миграции, там все сильно хуже даже самого захудалого он-прем бареметал, а если у вас промышленное железо то сайзинг надо заново делать
источник

AZ

Anton Zadorozhniy in Data Engineers
я каждый раз когда трогаю наши бареметал железки в шоке пару дней пребываю от разницы в перфомансе, особенно касательно лоу латенси и сетевых дел
источник

A

Alex in Data Engineers
у вас на бареметале лучше или хуже? =)
источник

AZ

Anton Zadorozhniy in Data Engineers
хуже конечно, нет ничего лучше облачного железа)
источник

E

Evgeny in Data Engineers
Anton Zadorozhniy
хуже конечно, нет ничего лучше облачного железа)
Кто-то и поверить может)
источник