Size: a a a

2019 April 24

MB

Mikhail Butalin in Data Engineers
сейчас у меня запущен
split 'Post2,20190414|00000000000000000000000000000000,1556041073486.26828fbd00737da6b34f1e20ad38bbad.'
источник

MB

Mikhail Butalin in Data Engineers
вижу что создался регион
Post2,20190418|23bcca5d946c3836abb33f3786e5f39a,1556089758925.58fd1583efec0050b9d8822133a25854.
источник

MB

Mikhail Butalin in Data Engineers
и идёт
Compacting m in Post2,20190418|23bcca5d946c3836abb33f3786e5f39a,1556089758925.58fd1583efec0050b9d8822133a25854.
источник

MB

Mikhail Butalin in Data Engineers
я могу по какому-то из двух регионов запустить split сейчас?
источник

MB

Mikhail Butalin in Data Engineers
или ждать пока изменения зафиксируются?
источник

A

Alex in Data Engineers
если я правильно помню как сплит работает:
1) у тебя есть файлы на hdfs + часть данных в памяти memtable
2) запрос на split
3) flush memtable на диск, close region, создается метаданные по новым, при необходимости на разные сервера раскидывается, open 2 regions

по дефолтку никаких копирований и разбитии файлов не происходит (так как это может быть дорого)
оба новых референсят одни и те же файлы на диске

компакшен как раз таки делает чистку того что нужно в пределах этого региона (не помню запускается ли он сразу же)

поэтому чисто теоретически ничего не мешает запросить сплит сразу же
но вот будет ли он дожидаться завершения предыдущего компакшена или нет уже не помню
вполне возможно что да, но там вроде как и не major compaction по дефолту идет, так что должен пройти быстро
источник

A

Alex in Data Engineers
источник

A

Alex in Data Engineers
нет, походу все-таки полностью переписывают на 2 разных файла
так что лучше подождать
источник

MB

Mikhail Butalin in Data Engineers
ok, спасибо большое
источник

AS

Andrey Smirnov in Data Engineers
источник

MB

Mikhail Butalin in Data Engineers
просто у меня регион терабайтный и компакт ну ооочень долго идёт. Вчера часа 3-4 ждал, так и не дождался =)
источник

A

Alex in Data Engineers
ну можешь попробовать отправить запрос, только я сомневаюсь что он будет обработан а не станет в очередь =)
источник

I

Ilgiz in Data Engineers
神風
Доброе утро. Не подскажете как передать в фильтр объект  connection, чтобы не инициализировать его при обработке каждой строчки?
Используй foreachPartition. Внутри него создавай коннект.  «Передать» несериализуемый объект нельзя
источник

神風 in Data Engineers
Ilgiz
Используй foreachPartition. Внутри него создавай коннект.  «Передать» несериализуемый объект нельзя
Спасибо!
источник

MB

Mikhail Butalin in Data Engineers
Подскажите, а как удалить диапазон регионов по ключу?
источник

MB

Mikhail Butalin in Data Engineers
например у меня ключ 20181231|хеш
Мне надо убить все данные старше 2018-12-31...
источник

MB

Mikhail Butalin in Data Engineers
ато я смотрю, тут странные вещи предлагают. отключить регион, вручную rm и потом из меты вычистить(только как, не понятно)
источник

A

Alex in Data Engineers
ну в чистом виде даже и не знаю =) если бы мне действительно нужно было дропнуть много, то сделал бы сопроцессор чтобы данные не гонять туда сюда
источник

A

Alex in Data Engineers
источник
2019 April 25

MB

Mikhail Butalin in Data Engineers
Спасиб!
источник