Size: a a a

2020 February 15

I

I Апрельский in Data Engineers
Anton Kovalenko
Все презы интересуют или только наша?
мне вторая интересна, где гринплам сравнивают с кликхаусом
источник

A

Anton Kovalenko in Data Engineers
I Апрельский
мне вторая интересна, где гринплам сравнивают с кликхаусом
Ок, уточню. Если что, кину в личку
источник

I

I Апрельский in Data Engineers
Спасибо!
источник

N

Nikolay in Data Engineers
Кто знает как ЗК использует свой лог? Мне вот что непонятно. Если это лог по аналогии с WAL и нет сброса ещё записей на диск , то допустим год назад я создал ноду. Логов много уже записалось на диск. Вот сегодня ЗК упал.он что все логи за год прочитать должен , что бы состояние восстановить?
источник

AZ

Anton Zadorozhniy in Data Engineers
Nikolay
Кто знает как ЗК использует свой лог? Мне вот что непонятно. Если это лог по аналогии с WAL и нет сброса ещё записей на диск , то допустим год назад я создал ноду. Логов много уже записалось на диск. Вот сегодня ЗК упал.он что все логи за год прочитать должен , что бы состояние восстановить?
он делает компакции транзакционных логов и пишет новый снапшот, но старые снапшоты он по-умолчанию не удаляет https://zookeeper.apache.org/doc/r3.2.2/zookeeperAdmin.html#Ongoing+Data+Directory+Cleanup
источник

N

Nikolay in Data Engineers
Anton Zadorozhniy
он делает компакции транзакционных логов и пишет новый снапшот, но старые снапшоты он по-умолчанию не удаляет https://zookeeper.apache.org/doc/r3.2.2/zookeeperAdmin.html#Ongoing+Data+Directory+Cleanup
Спасибо. Выходит он делает снэпшот , когда файл лога превысит определенный размер.
источник

N

Nikolay in Data Engineers
Хотя нет. Вот пишут , что на кол-во завязано After snapCount transactions are written to a log file a snapshot is started and a new transaction log file is started. The default snapCount is 10,000.
источник

A

Aleksandr in Data Engineers
Привет. Подскажите, как в Спарке заброадкастить переменную, которая не serializable, например amazons3 client ? Или здесь без вариантов нужно на экзекьюторе создавать новый через new?
источник

DZ

Dmitry Zuev in Data Engineers
Как вы представляете сериализацию клиента?
источник

DZ

Dmitry Zuev in Data Engineers
Чем плохо на каждом свой создать?
источник

TY

Taras Yaroshchuk in Data Engineers
Aleksandr
Привет. Подскажите, как в Спарке заброадкастить переменную, которая не serializable, например amazons3 client ? Или здесь без вариантов нужно на экзекьюторе создавать новый через new?
Можно завернуть в сериализуемый врапер, объявить amazon client как transient и lazy создавать его при обращении
источник

A

Aleksandr in Data Engineers
Dmitry Zuev
Чем плохо на каждом свой создать?
а как быть в случае, если этот код должен быть дублируемым? Например, есть две разных джобы, но обе должны использовать клиент.
источник

A

Aleksandr in Data Engineers
Taras Yaroshchuk
Можно завернуть в сериализуемый врапер, объявить amazon client как transient и lazy создавать его при обращении
Спасибо!
источник

MV

Mitya Volodin in Data Engineers
Simon Osipov
А посоветуйте, пожалуйста, какую нибудь книжку по архитектурам баз данных, как что складировать, проектировать, в том числе РСУБД, DWH, Data Lake, data mart, и вот это все.

Кроме книжки с кабанчиком. А то хочется понять, о чем говорят архитекторы.
Inmon и Kimball устарели ещё 10 лет назад. Только если хочется восстановить ретроспективу. Kimball хорошо подходит для витрин, но двухслойное хранилище - это что-то очень странное. Inmon - нет чёткой методологии как прийти к модели.

В принципе такой хорошей литературы полноценной на этот счёт не видел. Текущий подход к построению моделей обычно сводится к классу моделей, который называется Ansemble modelling. Наиболее популярные архитектуры - Data Vault и Anchor Modeling (они разные, хотя многие считают, что одно - частный случай другого). ПО data vault есть книга, по Anchor - статьи.

То что я вижу на практике - это помесь двух вышестоящих. Которая учитывает эвристики жизненного процесса данных в компаниях.
источник

MV

Mitya Volodin in Data Engineers
Simon Osipov
А посоветуйте, пожалуйста, какую нибудь книжку по архитектурам баз данных, как что складировать, проектировать, в том числе РСУБД, DWH, Data Lake, data mart, и вот это все.

Кроме книжки с кабанчиком. А то хочется понять, о чем говорят архитекторы.
Если хочется вообще начать понимать это на более низком уровне, в том числе и почему вообще та или иная архитектура используется. То советую книгу Database System Concepts коллектива авторов во главе с Abraham Silberschatz.
источник

MV

Mitya Volodin in Data Engineers
Книгу могу пошарить, но всё есть на gen.lib.rus.ec
источник

V

Vasiliy in Data Engineers
Mitya Volodin
Inmon и Kimball устарели ещё 10 лет назад. Только если хочется восстановить ретроспективу. Kimball хорошо подходит для витрин, но двухслойное хранилище - это что-то очень странное. Inmon - нет чёткой методологии как прийти к модели.

В принципе такой хорошей литературы полноценной на этот счёт не видел. Текущий подход к построению моделей обычно сводится к классу моделей, который называется Ansemble modelling. Наиболее популярные архитектуры - Data Vault и Anchor Modeling (они разные, хотя многие считают, что одно - частный случай другого). ПО data vault есть книга, по Anchor - статьи.

То что я вижу на практике - это помесь двух вышестоящих. Которая учитывает эвристики жизненного процесса данных в компаниях.
Ох как интересно
источник

MV

Mitya Volodin in Data Engineers
На истину в первой инстанции не претендую 🙂
источник

V

Vasiliy in Data Engineers
А есть ли где нибудь по данному утверждению развернута я аргументация)? Я бы почитал. Не тут, естессна
источник

V

Vasiliy in Data Engineers
Оч прошу, поделитесь
источник