Size: a a a

2020 January 24

EP

Easycore Programming in Data Engineers
Коллеги такой вопрос, есть 500 миллиардов записей в хайве которые на хдфс лежат как orc файлики, насколько адекватный кейс перелить их в Clickhouse?
источник

EP

Easycore Programming in Data Engineers
И будет ли деградация по компрессии и выборке?
источник

AZ

Anton Zadorozhniy in Data Engineers
Andrei Iatsuk
Получается он нужен только как документирование процессов?
Да, но на эту «документацию» можно логику навесить, например политики безопасности, мониторинг SLA, или реализацию права на забвение
источник

AZ

Anton Zadorozhniy in Data Engineers
Easycore Programming
Коллеги такой вопрос, есть 500 миллиардов записей в хайве которые на хдфс лежат как orc файлики, насколько адекватный кейс перелить их в Clickhouse?
А зачем?
источник

UD

Uncel Duk in Data Engineers
Easycore Programming
И будет ли деградация по компрессии и выборке?
Зависит от данных
источник

UD

Uncel Duk in Data Engineers
Залейте кусок, условно гигабайт 200
источник

UD

Uncel Duk in Data Engineers
Если не используете джоины на джойнах в джойнах, он будет в разы быстрее
источник

EP

Easycore Programming in Data Engineers
Uncel Duk
Если не используете джоины на джойнах в джойнах, он будет в разы быстрее
Спасибо!
источник

AI

Andrei Iatsuk in Data Engineers
Anton Zadorozhniy
Да, но на эту «документацию» можно логику навесить, например политики безопасности, мониторинг SLA, или реализацию права на забвение
Спасибо, понял 👍
источник
2020 January 25

S

Stanislav in Data Engineers
Uncel Duk
Если не используете джоины на джойнах в джойнах, он будет в разы быстрее
Зависит от. Если там фулскан на фулскане, будет медленнее
источник

N

Nikolay in Data Engineers
Easycore Programming
Коллеги такой вопрос, есть 500 миллиардов записей в хайве которые на хдфс лежат как orc файлики, насколько адекватный кейс перелить их в Clickhouse?
Это сколько в гигабайтах ? И сколько у вас памяти на том сервере , где запущен clickhouse и будет ли это КХ сервер один или вы сделаете несколько реплик и будите использовать дистрибьютед таблицы в КХ.
Тут много вопросов. Сколько у вас там таблиц ?
источник

EP

Easycore Programming in Data Engineers
Nikolay
Это сколько в гигабайтах ? И сколько у вас памяти на том сервере , где запущен clickhouse и будет ли это КХ сервер один или вы сделаете несколько реплик и будите использовать дистрибьютед таблицы в КХ.
Тут много вопросов. Сколько у вас там таблиц ?
Речь пока идёт об одной таблице с тройной репликацией. КХ кластер состоит из 3 нод.
источник

EP

Easycore Programming in Data Engineers
По объёмув гб  нет данных, но вопрос именно в том что в каком соотношении будет условно 1 данных в формате orc, если их перелить в кликхаус
источник

S

Stanislav in Data Engineers
Easycore Programming
Речь пока идёт об одной таблице с тройной репликацией. КХ кластер состоит из 3 нод.
И сколько там памяти на ноде? И зачем тройная репликация? И какой против этого хадуп?
Попахивает так себе вся история
источник

EP

Easycore Programming in Data Engineers
HDP 2.6.5. То есть нет смысла кидаться использовать КХ? Это же история об аргументах за и против миграции данных с хадупа на КХ (клиент так захотел к примеру)
источник

EP

Easycore Programming in Data Engineers
Мне тут выше отвечали, что по перформансу на выборку КХ лучше, а что насчёт компрессии
источник

S

Stanislav in Data Engineers
Easycore Programming
Мне тут выше отвечали, что по перформансу на выборку КХ лучше, а что насчёт компрессии
Очень аккуратно надо перформанс мерить. Если ты не попал в индекс, то начинается фулскан как на любой базе. И тут ты упираешься в рейд
источник

A

Anton Kovalenko in Data Engineers
Easycore Programming
Мне тут выше отвечали, что по перформансу на выборку КХ лучше, а что насчёт компрессии
Посмотрите 2е выступление с этого митапа (сравнение КХ с GP и Hadoop заодно). Возможно будет полезно.

https://www.youtube.com/watch?v=UeSoaiQJHpo
источник

EP

Easycore Programming in Data Engineers
Спасибо!
источник

S

Stanislav in Data Engineers
Easycore Programming
Мне тут выше отвечали, что по перформансу на выборку КХ лучше, а что насчёт компрессии
А компрессия. При стандартной схеме в кликхаусе: рейд на сервере (то есть уже реплика данных х2), а потом еще репликация серверов х2 - даже при сжатии получаем 4 реплики данных. В халупе стандартно х3
источник