Size: a a a

2021 April 26

I

Ilya in Data Engineers
GitHub - zalando/patroni: A template for PostgreSQL High Availability with Etcd, Consul, ZooKeeper, or Kubernetes
https://github.com/zalando/patroni
источник

AZ

Anton Zadorozhniy in Data Engineers
те большие пользователи которые используют ваниль и форки (которые я знаю) - они не известны как компании которые активно занимаются опенсорсом, навряд ли они начнут это делать с hadoop
источник

VP

Vitaly Pismarev in Data Engineers
Так patroni он не про отказоустойчивость разве?  Как он тут поможет, пока не понял.

Я про второе да, когда есть большая партиционированная таблица и нужно прочитать не используя ключ партиции
источник

AZ

Anton Zadorozhniy in Data Engineers
это для OLTP все, для аналитики нужен один большой сервер (рид реплики помогут в ряде случаев только)
источник

AZ

Anton Zadorozhniy in Data Engineers
Citus есть для PostgreSQL OLTP масштабирования, если кому такое нужно
источник

DT

Dmitry Titov in Data Engineers
Как то люди плевались от него, но они недавно выкатили новую версию колоночного сторажда. мб лучше стало.
источник

e

er@essbase.ru in Data Engineers
* почему Green Plum не советовали 🤔🤓
источник

AZ

Anton Zadorozhniy in Data Engineers
не знаю
источник

AZ

Anton Zadorozhniy in Data Engineers
что от Citus, что от Vitess много кто плюется, это не от хорошей жизни люди выбирают, но если они туда пошли - другого выхода скорее всего нет
источник

I

Ilya in Data Engineers
кстати да - и постгрес и ОЛАП
источник

D

Dmitry in Data Engineers
а какой в этом смысл ? пайплайны и замерджить данные в хранилище то не самая тяжелая операция, мягко говоря. ну есть тапустим таблички в постгрес, пусть одна эта нода не сдохла. а что дальше ? как аналитку, в реалтайм кафку кормить ?
источник

AZ

Anton Zadorozhniy in Data Engineers
тут надо больше знать что за кейс, но хранилище в принципе может довольно быстро отвечать
источник

D

Dmitry in Data Engineers
кейс - ентерпрайз. много всяких задач, начиная со скорингов. как с постгрес всякий ML сопрягать. у нас это sparkR скриптики задачстую, т.е. на кластере гоняют и приготовление фич и саму модель
источник

D

Dmitry in Data Engineers
а тут, что в постгресе R или phyton запускать будет ?
источник

D

Dmitry in Data Engineers
если поставить обычный R сервер, как я понимаю не кластерезуется никак, все в память на одном единственном узле пытается засосать
источник

AZ

Anton Zadorozhniy in Data Engineers
в самом постгресе нельзя, но вы для этого настраиваете небольшой AKS, там запускаете сколько хотите; ваш код обращается к ПГ по индексам, все быстро и красиво
источник

AZ

Anton Zadorozhniy in Data Engineers
это немножко разные проблемы, подготовка данных, обучение и скоринг - это разные части, и если вам очень необходимо распределенное обучение - то видимо PG вам не подходит
источник

D

Dmitry in Data Engineers
речь не про обучение.
источник

D

Dmitry in Data Engineers
у сатанистов есть понятие фичи, часто они их своими скриптиками готовят. это достаточно большой массив данных
источник

D

Dmitry in Data Engineers
где эти скриптики исполняться будут ? в pg/sql ?
источник