Size: a a a

Боль Тимлида

2021 August 18

PD

Phil Delgyado in Боль Тимлида
Ну, смотря какой рост планируется и насколько сильно при этом железо нужно и какие пределы.
Ну и тоже тут сильно зависит от планов, делать vendor lock или использовать облако только как набор виртуалок и СХД.
При этом выбор того же Redshift у вас не выглядит реально безальтернативным.
источник

PD

Phil Delgyado in Боль Тимлида
Кстати, а как вы с дубликатами боретесь на CH?
источник

СА

Сергей Аксёнов... in Боль Тимлида
Рост не всегда можно спланировать) Иногда он приходит и ставит перед фактом)

Вендор лок зло, конечно. Но например S3 особо альтернативы нет, начиная с определенных масштабов(
источник

СА

Сергей Аксёнов... in Боль Тимлида
Каждому событию присваивается uuid, и по этому полю сделан уникальный индекс.
источник

PD

Phil Delgyado in Боль Тимлида
В финтехе пределы роста часто понятны  (да и вообще очевидны).
Ну и S3 - это не vendor lock, если аккуратно. Сейчас много кто S3 поддерживает
источник

PD

Phil Delgyado in Боль Тимлида
Так там же все равно не гарантируется уникальность записей при merge, насколько я помню.
источник

СА

Сергей Аксёнов... in Боль Тимлида
Финтех да. А например игры - нет. А если есть виральные механики - то можно однажды ночью проснуться от того, что всё легло под нагрузкой, которая выросла в пять раз за два часа.
источник

PD

Phil Delgyado in Боль Тимлида
Это да, сильно зависит от домена.
источник

T

Tim in Боль Тимлида
это лучше чем утром получить счет о списании с банковского счета пару сотен тысяч за AWS?))
источник

СА

Сергей Аксёнов... in Боль Тимлида
Оказывается, по ссылке всё написано: "Движок для хранения взяли ReplacingMergeTree, так как он позволяет удалять дубликаты из определённой партиции, просто выполнив OPTIMIZE… FINAL."
источник

PD

Phil Delgyado in Боль Тимлида
А, ну да, но это дорогая операция же.
источник

СА

Сергей Аксёнов... in Боль Тимлида
Партиционирование суточное, как раз раз в сутки и можно.
источник

PD

Phil Delgyado in Боль Тимлида
Т.е. там работа только со старыми данными, которые старше суток?
источник

PD

Phil Delgyado in Боль Тимлида
Но вроде даже FINAL не гарантирует, что будет только один merge блок на партицию.
И там при дедупликации убиваются полностью одинаковые записи только, насколько я помню...
источник

СА

Сергей Аксёнов... in Боль Тимлида
Ну аккуратно надо) Хотя случаи разные бывали. Тут вот намедни хакеры отправил СМСок на несколько тысяч в Камерун) Оказалось, мы ручку "изменить телефон" рейт-лимитом не закрыли(
источник

СА

Сергей Аксёнов... in Боль Тимлида
Агрегации и отчёты считаются за вчерашний день. Работа с сегодняшними данными идёт явочным порядком.
источник

PD

Phil Delgyado in Боль Тимлида
Ага, если не нужна уникальность для текущих данных, то должно более-менее работать, хотя четкие гарантии не указаны в документации (увы)
источник

СА

Сергей Аксёнов... in Боль Тимлида
Дубликаты в нашем случае (аналитические события) всегда полные. Если неполные - то они наверное и не дубликаты.
источник

СА

Сергей Аксёнов... in Боль Тимлида
Ну и в целом дубликатов не так много. Основной механизм их появления - клиент накопил пачку, начал отправлять и что-то случилось со связью. Он думал, что не отправил, потому что не получил от сервера 200 ок, а оказалось что таки да.
источник

PD

Phil Delgyado in Боль Тимлида
Это-то понятно. Но если они вылезли, а по ним сделали суммирование - то могут быть неприятности )
источник