Телеграмм чат группы hadoopusers страница 1611

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Data Engineers

1724 membersпожаловаться на группу

2019 September 13

AP

Alexander Piminov in Data Engineers

Ну просто Ranger как раз позволяет расширить или ужать права пользователей и групп согласно политике на ресурс. А дальше смотря уже по use case, подходит ли тебе его модель. Ряд плагинов позволяет настраивать права на HDFS, Hive и т.п. и централизованно ими управлять, не меняя нативные права.

источник

14:28пожаловаться #1

EN

Eldar Nezametdinov in Data Engineers

окей, спасибо большое, по описанию то что надо)

источник

14:33пожаловаться #2

VS

Valeriy Shinkevich in Data Engineers

Eldar Nezametdinov

Подскажите пожалуйста. Вопрос насчет зеппелин, имперсонализация, hdfs, fs.
Из-за имперсонализации в зеппелине - каждый пользователь создает файлы от своего пользователя.
Таким образом при создании таблицы в hive, получается что эту папку перезаписать или удалить может только сам пользователь.
Как сделать на все папки в /apps/hive/warehouse/ права типа 775 вместо 755 текущего... ? Не вручную, а чтобы при создании было
Чтобы группа пользователей могла редактировать таблицу..
Либо другой какой-нибудь подход...

а если в блокнот добавить shell параграф ?

источник

15:27пожаловаться #3

AZ

Anton Zadorozhniy in Data Engineers

Жмака

То есть надо как то заснепшотить и заресторить, но насколько я помню проблема в снэпшотах может быть тоже в версиях hbase.

да, репликацию на непустых таблицах надо начинать с копирования таблицы, нужно притормозить чтение в самом простом случае... и я бы начал тренироваться на совместимость вашей версии с имр, может быть удастся проскочить, там же логическая репликация и между версиями она неплохо работает

источник

21:40пожаловаться #4

2019 September 14

Ж

Жмака in Data Engineers

Anton Zadorozhniy

да, репликацию на непустых таблицах надо начинать с копирования таблицы, нужно притормозить чтение в самом простом случае... и я бы начал тренироваться на совместимость вашей версии с имр, может быть удастся проскочить, там же логическая репликация и между версиями она неплохо работает

Спасибо! У меня 2 source кластера: один с 2-й версией hbase, а второй с 1.2. В EMR версия 1.4. Еще осложняется тем, что периодически могут быть ddl во время репликации и у меня более 1500 таблиц в каждом кластере с одной cf (думаю как можно скриптом запустить репликацию и остановить ее так чтобы уменьшить время остановки записи).

источник

08:30пожаловаться #5

AZ

Anton Zadorozhniy in Data Engineers

Жмака

Спасибо! У меня 2 source кластера: один с 2-й версией hbase, а второй с 1.2. В EMR версия 1.4. Еще осложняется тем, что периодически могут быть ddl во время репликации и у меня более 1500 таблиц в каждом кластере с одной cf (думаю как можно скриптом запустить репликацию и остановить ее так чтобы уменьшить время остановки записи).

надо начать с того что ваши миграции БД инструментировать на тему нескольких кластеров, ДДЛ на хбейсе где подняты репликации должны проходить только в строго контролируемой процедуре, вообще лучше метаданные по миграциям вынести в вашу систему конфигурации которая над кластерами (распределена по ДЦ или АЗ в амазоне), наверняка такая есть и используется для выборов лидера и сервис дискавери

источник

14:21пожаловаться #6

Ж

Жмака in Data Engineers

А можно реплицировать source - > replica1 - > replica2? В документации об этом ничего нет

источник

14:24пожаловаться #7

AZ

Anton Zadorozhniy in Data Engineers

Жмака

А можно реплицировать source - > replica1 - > replica2? В документации об этом ничего нет

да, причем можно реплицировать a-> b ->c ->a и другие странные варианты, там в протоколе репликации зашит идентификатор кластера пославшего изменения, поэтому можно не бояться циклов

источник

14:27пожаловаться #8

AZ

Anton Zadorozhniy in Data Engineers

наверное правильно будет a->b, a->c, b->a, b->c, c->a, c->b

источник

14:28пожаловаться #9

AZ

Anton Zadorozhniy in Data Engineers

будет такая кассандра, записать можно в любой узел, а на других прочитать когда получится)

источник

14:28пожаловаться #10

Ж

Жмака in Data Engineers

Может ли это помоць с разными версиями, интересно? Матрица версий в их документации вообще об этом не говорит

источник

14:32пожаловаться #11

AZ

Anton Zadorozhniy in Data Engineers

Жмака

Может ли это помоць с разными версиями, интересно? Матрица версий в их документации вообще об этом не говорит

думаю это отдельный ресерч с ковырянием в коде репликации хбейс

источник

14:34пожаловаться #12

Ж

Жмака in Data Engineers

Спасибо! Придется пробовать

источник

14:35пожаловаться #13

AZ

Anton Zadorozhniy in Data Engineers

имеет смысл пойти прям с таким вопросом в мейлинг листы

источник

14:35пожаловаться #14

Ж

Жмака in Data Engineers

Нашел их. Поищу. 100% ктотто уже пытался мигрировать с разными версиями

источник

14:37пожаловаться #15

AZ

Anton Zadorozhniy in Data Engineers

точно стоит еще потестировать вашу нагрузку против имр до миграции, там все сильно хуже даже самого захудалого он-прем бареметал, а если у вас промышленное железо то сайзинг надо заново делать

источник

14:40пожаловаться #16

AZ

Anton Zadorozhniy in Data Engineers

я каждый раз когда трогаю наши бареметал железки в шоке пару дней пребываю от разницы в перфомансе, особенно касательно лоу латенси и сетевых дел

источник

14:41пожаловаться #17

A

Alex in Data Engineers

у вас на бареметале лучше или хуже? =)

источник

14:44пожаловаться #18

AZ

Anton Zadorozhniy in Data Engineers

хуже конечно, нет ничего лучше облачного железа)

источник

14:45пожаловаться #19

E

Evgeny in Data Engineers

Anton Zadorozhniy

хуже конечно, нет ничего лучше облачного железа)

Кто-то и поверить может)

источник

16:45пожаловаться #20