Телеграмм чат группы hadoopusers страница 1247

Size: a a a

Data Engineers

1724 membersпожаловаться на группу

2019 April 23

Mikhail Butalin in Data Engineers

У кого-нибудь есть практика сжатия данных в hbase?

источник

19:07пожаловаться #1

Mikhail Butalin in Data Engineers

Я смотрю вроде есть такая опция. А то у меня на кластере место заканчивается :(

источник

19:09пожаловаться #2

Alex in Data Engineers

Mikhail Butalin

У кого-нибудь есть практика сжатия данных в hbase?

сжатие там настраивается в колумн фэмили когда указываешь compression
после того как указал новые данные будут жаться
старые останутся не сжатые
чтобы пожать запустить major compaction надо

в старых версиях клоудеры использовалась старая hbase (в 5.12 точно еще косяк был)
для некоторых алгоритмов которые проходят в jni из-за древнего бага в самой реализации jni парни впихнули sync секцию, в jvm 1.6 это уже было поправлено, но люди продолжают копипастить код

из-за этой секции под высокой нагрузкой на read-only таблицах у меня просадка была до 10х раз (сама таблица небольшая, но чтений на неё было очень много). отключение сжатия конечно больше сожрало на диске, но скорость заметно быстрее

источник

19:18пожаловаться #3

Alex in Data Engineers

https://issues.apache.org/jira/browse/HADOOP-10027

вот тот баг

источник

19:27пожаловаться #4

Alex in Data Engineers

- // HACK - Use this as a global lock in the JNI layer.

то есть даже если кодек сам тредсейф, то парни писали все кодеки по подобию с первым и просто копипастой оно разошлось =(

источник

19:29пожаловаться #5

Alex in Data Engineers

в 6й клоудере это уже пофишкено (слова консультанта клоудеры еще за год до выхода 6й клоудеры, что в их ветках он нашел этот бекпорт)

источник

19:32пожаловаться #6

Mikhail Butalin in Data Engineers

ого, ясно, спасибо за информацию

источник

21:02пожаловаться #7

serg n. in Data Engineers

а Hadoop Yarn и packet manager Yarn для ноды это разные вещи?