Size: a a a

2019 July 15

OI

Oleg Ilinsky in Data Engineers
Oleg Ilinsky
потом выводит region серверы, мастер и падает с ошибкой Master is initializing
ну и эту ошибку выводит пока контрол-с не нажму)
источник

A

Alex in Data Engineers
Если ты говоришь что у тебя 4 сервера, то откуда ещё 24 мёртвых оно нашло?
источник

A

Alex in Data Engineers
Не может так оказаться что meta на одном из "dead"
источник

A

Alex in Data Engineers
Ну и в логе уже сделал 6 ретраев из 36 на мастер, но тот не отвечает корректно
источник

A

Alex in Data Engineers
Файрволы порты открыты с хоста где запускаешь до мастера dl-prod-master-1?
источник

OI

Oleg Ilinsky in Data Engineers
ну я прям на dl-prod-master-1 и запускаю) внутри кластра всё должно быть открыто)
хм, мб тогда действительно проблема в dead нодах. Попробую их почистить
источник

PA

Polina Azarova in Data Engineers
Перезапуск регионсерверов не помог?
источник

A

Alex in Data Engineers
Тут интересно что количество регионов 0 в его логе, то есть .meta не открылась нигде, а это значит что он или со старта не проинициализировался вообще или не поднялся после рестарта
источник

A

Alex in Data Engineers
Так как кластер пустой, то зачистить можно и мои бы действия были:
1) остановить всё
2) почистить зоокипер
3) почистить hdfs
4) запустить один мастер (он в логах будет ругаться на старте что нету регион серверов и ждёт пока кто появится)
5) запустить один регионсервер

Проверить все логи как проходит инициализации меты и тд

После этого уже запускать все остальные мастера и регионы
источник

A

Alex in Data Engineers
То есть после 5ки и инициализации hbck должен отрабатывать без ошибок
источник

PA

Polina Azarova in Data Engineers
Я сильно не вчитывалась, но регионсервера помечаются деад, если за 3тика зукипера (вроде 3) не успевают сказать что они живы и здоровы
источник

A

Alex in Data Engineers
Ну там они и вернуться могут, помечаются сразу деад, чтобы ребалансить с них нагрузку, потом они возвращаются и бывает что сразу же обратно кидают регионы.

Но в данном логе написано что ни регионов в переходном состоянии нету, ни их самих.

Возможно в момент инициализации кластера регион какой-то умер и мастер так и остался в initializing
источник

A

Alex in Data Engineers
Number of backup masters: 0
Average load: 0.0
Number of requests: 0
Number of regions: 0
Number of regions in transition: 0
источник

A

Alex in Data Engineers
Вот это смущает
источник

PA

Polina Azarova in Data Engineers
У меня, кстати, не возвращались из dead)))
Gc был криво затюнен и они уходили туда навеки
источник

A

Alex in Data Engineers
Polina Azarova
У меня, кстати, не возвращались из dead)))
Gc был криво затюнен и они уходили туда навеки
Один из самых эпиков был на 5.х клоудере когда делаешь truncate таблиц больших, они сразу выключаются, запоминается схема, удаление, создание повторно с восстановлением схемы и количеством регионов. Но при большом количестве регионов часть уже удалится, часть не успеет в указанный таймаут, команда обваливается с ошибкой, таблица оказывается в промежуточном состоянии. Основная проблема что многие операции ddl больше недоступны на кластере, так как он пытается повторять это, находит кривую таблицу и уходит на повтор. Только остановка и зачистка wal файла мастер региона спасает. Поэтому транкейт даже на дев кластере у нас запрещён был :) в 6й клоудере уже свежая hbase и ошибка там исправлена
источник

PA

Polina Azarova in Data Engineers
Тот самый момент, когда у тебя hbase от пятой клоудеры...
источник

PA

Polina Azarova in Data Engineers
источник

A

Alex in Data Engineers
Чуть позже могу поискать тот тикет в jira, может бекпортнули в самую последнюю, но в 5.12 точно был и вроде даже на 5.14 воспроизводили
источник

PA

Polina Azarova in Data Engineers
У меня 5.15
Буду ждать)
источник