Телеграмм чат группы hadoopusers страница 2072

Кто знает как ЗК использует свой лог? Мне вот что непонятно. Если это лог по аналогии с WAL и нет сброса ещё записей на диск , то допустим год назад я создал ноду. Логов много уже записалось на диск. Вот сегодня ЗК упал.он что все логи за год прочитать должен , что бы состояние восстановить?

источник

10:13пожаловаться #4

AZ

Anton Zadorozhniy in Data Engineers

Nikolay

Кто знает как ЗК использует свой лог? Мне вот что непонятно. Если это лог по аналогии с WAL и нет сброса ещё записей на диск , то допустим год назад я создал ноду. Логов много уже записалось на диск. Вот сегодня ЗК упал.он что все логи за год прочитать должен , что бы состояние восстановить?

он делает компакции транзакционных логов и пишет новый снапшот, но старые снапшоты он по-умолчанию не удаляет https://zookeeper.apache.org/doc/r3.2.2/zookeeperAdmin.html#Ongoing+Data+Directory+Cleanup

источник

10:27пожаловаться #5

N

Nikolay in Data Engineers

Anton Zadorozhniy

он делает компакции транзакционных логов и пишет новый снапшот, но старые снапшоты он по-умолчанию не удаляет https://zookeeper.apache.org/doc/r3.2.2/zookeeperAdmin.html#Ongoing+Data+Directory+Cleanup

Спасибо. Выходит он делает снэпшот , когда файл лога превысит определенный размер.

источник

10:35пожаловаться #6

N

Nikolay in Data Engineers

Хотя нет. Вот пишут , что на кол-во завязано After snapCount transactions are written to a log file a snapshot is started and a new transaction log file is started. The default snapCount is 10,000.

источник

10:38пожаловаться #7

A

Aleksandr in Data Engineers

Привет. Подскажите, как в Спарке заброадкастить переменную, которая не serializable, например amazons3 client ? Или здесь без вариантов нужно на экзекьюторе создавать новый через new?

источник

10:48пожаловаться #8

DZ

Dmitry Zuev in Data Engineers

Как вы представляете сериализацию клиента?

источник

10:55пожаловаться #9

DZ

Dmitry Zuev in Data Engineers

Чем плохо на каждом свой создать?

источник

10:56пожаловаться #10

TY

Taras Yaroshchuk in Data Engineers

Aleksandr

Привет. Подскажите, как в Спарке заброадкастить переменную, которая не serializable, например amazons3 client ? Или здесь без вариантов нужно на экзекьюторе создавать новый через new?

Можно завернуть в сериализуемый врапер, объявить amazon client как transient и lazy создавать его при обращении

источник

11:47пожаловаться #11

A

Aleksandr in Data Engineers

Dmitry Zuev

Чем плохо на каждом свой создать?

а как быть в случае, если этот код должен быть дублируемым? Например, есть две разных джобы, но обе должны использовать клиент.

источник

11:48пожаловаться #12

A

Aleksandr in Data Engineers

Taras Yaroshchuk

Можно завернуть в сериализуемый врапер, объявить amazon client как transient и lazy создавать его при обращении

Спасибо!

источник

11:49пожаловаться #13

MV

Mitya Volodin in Data Engineers

Simon Osipov

А посоветуйте, пожалуйста, какую нибудь книжку по архитектурам баз данных, как что складировать, проектировать, в том числе РСУБД, DWH, Data Lake, data mart, и вот это все.

Кроме книжки с кабанчиком. А то хочется понять, о чем говорят архитекторы.

Inmon и Kimball устарели ещё 10 лет назад. Только если хочется восстановить ретроспективу. Kimball хорошо подходит для витрин, но двухслойное хранилище - это что-то очень странное. Inmon - нет чёткой методологии как прийти к модели.

В принципе такой хорошей литературы полноценной на этот счёт не видел. Текущий подход к построению моделей обычно сводится к классу моделей, который называется Ansemble modelling. Наиболее популярные архитектуры - Data Vault и Anchor Modeling (они разные, хотя многие считают, что одно - частный случай другого). ПО data vault есть книга, по Anchor - статьи.

То что я вижу на практике - это помесь двух вышестоящих. Которая учитывает эвристики жизненного процесса данных в компаниях.

источник

11:50пожаловаться #14

MV

Mitya Volodin in Data Engineers

Simon Osipov

А посоветуйте, пожалуйста, какую нибудь книжку по архитектурам баз данных, как что складировать, проектировать, в том числе РСУБД, DWH, Data Lake, data mart, и вот это все.

Кроме книжки с кабанчиком. А то хочется понять, о чем говорят архитекторы.

Если хочется вообще начать понимать это на более низком уровне, в том числе и почему вообще та или иная архитектура используется. То советую книгу Database System Concepts коллектива авторов во главе с Abraham Silberschatz.

источник

11:53пожаловаться #15

MV

Mitya Volodin in Data Engineers

Книгу могу пошарить, но всё есть на gen.lib.rus.ec

источник

11:55пожаловаться #16

V

Vasiliy in Data Engineers

Mitya Volodin

Inmon и Kimball устарели ещё 10 лет назад. Только если хочется восстановить ретроспективу. Kimball хорошо подходит для витрин, но двухслойное хранилище - это что-то очень странное. Inmon - нет чёткой методологии как прийти к модели.

В принципе такой хорошей литературы полноценной на этот счёт не видел. Текущий подход к построению моделей обычно сводится к классу моделей, который называется Ansemble modelling. Наиболее популярные архитектуры - Data Vault и Anchor Modeling (они разные, хотя многие считают, что одно - частный случай другого). ПО data vault есть книга, по Anchor - статьи.

То что я вижу на практике - это помесь двух вышестоящих. Которая учитывает эвристики жизненного процесса данных в компаниях.

Ох как интересно

источник

13:03пожаловаться #17

MV

Mitya Volodin in Data Engineers

На истину в первой инстанции не претендую 🙂

источник

13:04пожаловаться #18

V

Vasiliy in Data Engineers

А есть ли где нибудь по данному утверждению развернута я аргументация)? Я бы почитал. Не тут, естессна

источник

13:04пожаловаться #19

V

Vasiliy in Data Engineers

Оч прошу, поделитесь

источник

13:05пожаловаться #20