Size: a a a

Церковь метрик

2020 February 12

AV

Aliaksandr Valialkin in Церковь метрик
Smoked Cheese
ну оно достаточно тупое - инсертить надо руками на нужные шарды, либо через специальный движок таблиц, который сам по указанной функции распределяет
решардирования нет (только если данные перезаливать через select from insert)
все реплики рид-райт, можно писать данные куда угодно, они потом внутри шарда засинкаются
работает нормально, есть возможность распараллелить запросы по репликам
Как работает кликхаус, я вроде знаю :) Даже chproxy помогал делать - https://github.com/Vertamedia/chproxy . Меня больше интересовал вопрос, насколько стабильно и беспроблемно работает репликация в кх на основе зукипера. Если судить по наиболен частым вопросам в @clickhouse_ru , то не очень :(
источник

VS

Vladimir Smirnov in Церковь метрик
Aliaksandr Valialkin
Как работает кликхаус, я вроде знаю :) Даже chproxy помогал делать - https://github.com/Vertamedia/chproxy . Меня больше интересовал вопрос, насколько стабильно и беспроблемно работает репликация в кх на основе зукипера. Если судить по наиболен частым вопросам в @clickhouse_ru , то не очень :(
вопрос №2 - что лучше - такая репликация или никакой репликации )
источник

AV

Aliaksandr Valialkin in Церковь метрик
Евгений Омельченко
Мне кажется, что в VM логичнее делать шардирование в ELK стайле: по таймстемпу
А чем текущее шардирование по имени метрики плюс набор лейблов не подходит? По таймстемпам обычно происходит партиционирование, а не шардирование. Партиционирование нужно для быстрого удаление старых партиций. ВМ партиционирует данные по месяцам, чтобы можно было грохнуть данные по старым месяцам, вышедшим за -retentionPeriod .
Вообще, не совсем понятно, какое отношение это все имеет к репликации :)
источник

SC

Smoked Cheese in Церковь метрик
Aliaksandr Valialkin
Как работает кликхаус, я вроде знаю :) Даже chproxy помогал делать - https://github.com/Vertamedia/chproxy . Меня больше интересовал вопрос, насколько стабильно и беспроблемно работает репликация в кх на основе зукипера. Если судить по наиболен частым вопросам в @clickhouse_ru , то не очень :(
главная проблема это настройка зукипера, а так всё норм
источник

RK

Roman Khavronenko in Церковь метрик
Smoked Cheese
главная проблема это настройка зукипера, а так всё норм
хм, а как же:
- ограничение скорости репликации (от выжирания сети или диска)
- исчезнувшие парты (missing parts)
- вымывание page cache
- неудавшиеся синки failed fetches
- отстающие реплики(replication lag) и как результат выдача неправильных данных
- leader elections приводящий к повышенному CPU usage на нодах
- зависающий alter на репликах

и я даже не смотрел сюда https://github.com/ClickHouse/ClickHouse/issues?page=2&q=is%3Aissue+is%3Aopen+replication&utf8=%E2%9C%93
источник

RK

Roman Khavronenko in Церковь метрик
Vladimir Smirnov
вопрос №2 - что лучше - такая репликация или никакой репликации )
соглашусь, что круто было бы иметь репликацию
источник

BG

Bogdan (SirEdvin) Gladyshev in Церковь метрик
Aliaksandr Valialkin
Замените слово "кассандра" на "gcp persistent disk", а "кортекс" на "викторияметрикс". Получите справедливое утверждение про вм, при том, что gcp диски намного проще в настройке и сопровождении по сравнению с кассандрой, и они вообще не выходят из строя, в отличие от кассандры. См. https://medium.com/google-cloud/persistent-disks-and-replication-9b9412fd9565 .
Не понимаю, почему люди любят строить сложные ненадежные системы из говна и палок вместо использования готовых, простых и надежных решений.
С таким подходом можно просто взять сервер с 100% доступностью и как бы перестать нуждатся в репликации.
источник

SC

Smoked Cheese in Церковь метрик
Roman Khavronenko
хм, а как же:
- ограничение скорости репликации (от выжирания сети или диска)
- исчезнувшие парты (missing parts)
- вымывание page cache
- неудавшиеся синки failed fetches
- отстающие реплики(replication lag) и как результат выдача неправильных данных
- leader elections приводящий к повышенному CPU usage на нодах
- зависающий alter на репликах

и я даже не смотрел сюда https://github.com/ClickHouse/ClickHouse/issues?page=2&q=is%3Aissue+is%3Aopen+replication&utf8=%E2%9C%93
RIP
источник

AV

Aliaksandr Valialkin in Церковь метрик
Denys 💛📈 💫 Zhdanov
хахахахахах
Скиньте, пожалуйста, ссылку из инета про выход из строя gcp persistent disk
источник

DZ

Denys 💛📈 💫 Zhdanov in Церковь метрик
Aliaksandr Valialkin
Скиньте, пожалуйста, ссылку из инета про выход из строя gcp persistent disk
То есть, если об этом не написано в интернете, этого не происходит?
источник

ЕО

Евгений Омельченко in Церковь метрик
Aliaksandr Valialkin
Скиньте, пожалуйста, ссылку из инета про выход из строя gcp persistent disk
Я ж скинул
источник

N

Nklya in Церковь метрик
Grafana Labs рассказали о недавнем инциденте с downttime на 23 часа и какие уроки они из этого вынесли

http://amp.gs/Dbjv

И заодно история от Dropbox http://amp.gs/DbjE и доклад с SREcon http://amp.gs/DbjV
#grafana #dropbox #article #incidentreport
источник

DZ

Denys 💛📈 💫 Zhdanov in Церковь метрик
Interneт-powered reality однако. Я думал, что довольно очевидно что все выходит из строя, и аптайм не бывает 100%. Могу ссылку на  GCP SLA бросить, они с этим не спорят. Как и ... все люди собственно.
источник

ЕО

Евгений Омельченко in Церковь метрик
Ваша ошибка в том, что вы пытаетесь положиться на чужой маркетинг в своём маркетинге. Это не очень работающая тактика.

Несомненно понятно, что "persistent" означает лишь то, что это сетевой блок сторадж, а вовсе не гарантирует полной отказоустойчивости
источник

ЕО

Евгений Омельченко in Церковь метрик
Вы бы ещё на цепх ссылались :)))
источник

AV

Aliaksandr Valialkin in Церковь метрик
Ок, пять лет назад у гугла был инцидент с дисками из-за удара молнии в дц. При этом диски не рассыпались, а просто не записались последние данные. Еще примеры есть? Желательно поновее и там, где диски не подлежали восстановлению после инцидента, как у amazon ebs :) Кратковременная недоступность дисков без их повреждения не в счет.
источник

N

Nklya in Церковь метрик
Aliaksandr Valialkin
Ок, пять лет назад у гугла был инцидент с дисками из-за удара молнии в дц. При этом диски не рассыпались, а просто не записались последние данные. Еще примеры есть? Желательно поновее и там, где диски не подлежали восстановлению после инцидента, как у amazon ebs :) Кратковременная недоступность дисков без их повреждения не в счет.
выше же ссылка от графаны
источник

DZ

Denys 💛📈 💫 Zhdanov in Церковь метрик
Bogdan (SirEdvin) Gladyshev
С таким подходом можно просто взять сервер с 100% доступностью и как бы перестать нуждатся в репликации.
бескочечно расширяемый сервер с бескочечным озу, диском и 100% доступностью.... было б не плохо.
источник

DZ

Denys 💛📈 💫 Zhdanov in Церковь метрик
> Кратковременная недоступность дисков без их повреждения не в счет.
За доступность как раз и идет речь. Повреждение то дело #128.
источник

AV

Aliaksandr Valialkin in Церковь метрик
Denys 💛📈 💫 Zhdanov
Может я отстал от жизни, а разве можно насетапить пачку машин с GCP, раскидать их по AZ и рандомно херачить их каким нить chaos monkey демоном имея при этом 100% доступность диска?
Gcp диски физически отвязаны от инстансов. Это подключаемые по сети блочные устройства (network block storage). Поэтому они не рассыпаются при поломках инстансов. См. вот тут подробности - https://medium.com/google-cloud/persistent-disks-and-replication-9b9412fd9565
источник