Телеграмм чат группы hadoopusers страница 3554

13:22пожаловаться #1

те большие пользователи которые используют ваниль и форки (которые я знаю) - они не известны как компании которые активно занимаются опенсорсом, навряд ли они начнут это делать с hadoop

13:29пожаловаться #2

Vitaly Pismarev in Data Engineers

Так patroni он не про отказоустойчивость разве? Как он тут поможет, пока не понял.

Я про второе да, когда есть большая партиционированная таблица и нужно прочитать не используя ключ партиции

13:30пожаловаться #3

это для OLTP все, для аналитики нужен один большой сервер (рид реплики помогут в ряде случаев только)

13:32пожаловаться #4

Citus есть для PostgreSQL OLTP масштабирования, если кому такое нужно

13:38пожаловаться #5

Dmitry Titov in Data Engineers

Как то люди плевались от него, но они недавно выкатили новую версию колоночного сторажда. мб лучше стало.

13:44пожаловаться #6

er@essbase.ru in Data Engineers

* почему Green Plum не советовали 🤔🤓

13:48пожаловаться #7

не знаю

13:48пожаловаться #8

что от Citus, что от Vitess много кто плюется, это не от хорошей жизни люди выбирают, но если они туда пошли - другого выхода скорее всего нет

13:49пожаловаться #9

Ilya in Data Engineers

кстати да - и постгрес и ОЛАП

14:07пожаловаться #10

а какой в этом смысл ? пайплайны и замерджить данные в хранилище то не самая тяжелая операция, мягко говоря. ну есть тапустим таблички в постгрес, пусть одна эта нода не сдохла. а что дальше ? как аналитку, в реалтайм кафку кормить ?

14:12пожаловаться #11

тут надо больше знать что за кейс, но хранилище в принципе может довольно быстро отвечать

14:19пожаловаться #12

кейс - ентерпрайз. много всяких задач, начиная со скорингов. как с постгрес всякий ML сопрягать. у нас это sparkR скриптики задачстую, т.е. на кластере гоняют и приготовление фич и саму модель

14:25пожаловаться #13

а тут, что в постгресе R или phyton запускать будет ?

14:25пожаловаться #14

если поставить обычный R сервер, как я понимаю не кластерезуется никак, все в память на одном единственном узле пытается засосать

14:27пожаловаться #15

в самом постгресе нельзя, но вы для этого настраиваете небольшой AKS, там запускаете сколько хотите; ваш код обращается к ПГ по индексам, все быстро и красиво

14:27пожаловаться #16

это немножко разные проблемы, подготовка данных, обучение и скоринг - это разные части, и если вам очень необходимо распределенное обучение - то видимо PG вам не подходит

14:29пожаловаться #17

речь не про обучение.

14:30пожаловаться #18

у сатанистов есть понятие фичи, часто они их своими скриптиками готовят. это достаточно большой массив данных

14:32пожаловаться #19

где эти скриптики исполняться будут ? в pg/sql ?