Телеграмм чат группы hadoopusers страница 1431

эт да. но, опять же, если смотреть через cloud-colored glasses, то локально можно играться с любой версией, а при деплое в облаке всё равно юзаешь только ту, которая там доступна. не у всех есть свой датацентр или ресурсы для развёртывания с нуля на голых виртуалках :/

источник

16:27пожаловаться #4

Oleg in Data Engineers

Как считаете, в каких кейсах стоит использовать hbase а не hdfs + hive, помимо если нужны апдейты?

источник

16:51пожаловаться #5

Anton Zadorozhniy in Data Engineers

Oleg

Как считаете, в каких кейсах стоит использовать hbase а не hdfs + hive, помимо если нужны апдейты?

вы сравниваете несравнимое, hbase это почти базовый kv storage у которого api состоит из put/get/scan по ключу (никакого языка запросов), без модели данных (любая ячейка это массив байт для hbase); hive это движок запросов имитирующий РСУБД у которого все операции это full scan

источник

16:56пожаловаться #6

Anton Zadorozhniy in Data Engineers

мб hive поверх hbase, но сырой hbase с hive сравнивать трудно, как говорят это теплое с мягким

источник

16:57пожаловаться #7

Andrei Boaghe in Data Engineers

Anton Zadorozhniy

мб hive поверх hbase, но сырой hbase с hive сравнивать трудно, как говорят это теплое с мягким

Не расскажите плиз, а в чём смысл hive поверх hbase? Это ведь не только для упрощения доступа (т.е. написания запросов)?

источник

17:04пожаловаться #8

Anton Zadorozhniy in Data Engineers

Andrei Boaghe

я видел такое пару раз в дикой природе, это был кейс когда есть поток изменений от источника, и их надо довольно быстро учитывать в результах запросов hive - в таком дизайне приложение пишет в hbase напрямую, а запросы пользователей всегда видят актуальные данные

источник

17:06пожаловаться #9

Anton Zadorozhniy in Data Engineers

но у такого решения масса недостатков, не рекомендую как стандартный подход

источник

17:07пожаловаться #10

Andrei Boaghe in Data Engineers

понял, спасибо)
не будем так делать :)

источник

17:08пожаловаться #11

Anton Zadorozhniy in Data Engineers

правильно, возьмите лучше нормальную РСУБД)