Size: a a a

2020 February 05

I

I Апрельский in Data Engineers
Но мне скорее интересно как много бд в компаниях у нас
источник

АБ

Артём Бобровник in Data Engineers
В компании, где я работаю, 30к людей, несколько сотен внутренних сервисов, несколько десятков юнитов в разных разрезах гео и функционала. Клиентские базы не считаю.
Спокойно могу предположить, что тысяча баз есть. Но так, чтобы они логически были взаимосвязаны - нет.
источник
2020 February 06

K

Konstantin in Data Engineers
Всем доброго времени суток,
кто-нибудь сталкивался со следующим кейсом -
есть Kafka кластер и необходимо загружать с него данные в AWS (Redshift/S3). Необходимо задействовать только AWS.
Начал с AWS EMR (Spark Streaming), но может есть какой вариант без установки Hadoop кластера (EMR)
источник

AZ

Anton Zadorozhniy in Data Engineers
Konstantin
Всем доброго времени суток,
кто-нибудь сталкивался со следующим кейсом -
есть Kafka кластер и необходимо загружать с него данные в AWS (Redshift/S3). Необходимо задействовать только AWS.
Начал с AWS EMR (Spark Streaming), но может есть какой вариант без установки Hadoop кластера (EMR)
Kafka Connect, можно запускать в EKS+Fargate, получается очень экономично
источник

AE

Alexey Evdokimov in Data Engineers
I Апрельский
Это видимо какой пример для максимальной наглядности проблемы))
допустим, есть стенд для CI некоего продукта. для каждого открытого PR на него автоматом деплоится инстанс с чистой базой для прогона тестсьютов. допустим, продукт большой и 200 одновременно активных PR это фигня. в итоге на стенде 200 баз под эти 200 инстансов. теперь умножаем на число продуктов, и поняслася.
точнее, не "допустим", я как раз такой деплой на CI в прошлой конторе делал. даже без контейнеров, просто разворот скриптами по шаблону. вопрос, а в чём тут вопрос?
источник

I

I Апрельский in Data Engineers
Alexey Evdokimov
допустим, есть стенд для CI некоего продукта. для каждого открытого PR на него автоматом деплоится инстанс с чистой базой для прогона тестсьютов. допустим, продукт большой и 200 одновременно активных PR это фигня. в итоге на стенде 200 баз под эти 200 инстансов. теперь умножаем на число продуктов, и поняслася.
точнее, не "допустим", я как раз такой деплой на CI в прошлой конторе делал. даже без контейнеров, просто разворот скриптами по шаблону. вопрос, а в чём тут вопрос?
Спасибо!

Но мне кажется, автор не про CI. Почему? Потому что он такой иллюстрацией поясняет почему процесс поиска нужных данных в дейтасаенс такой сложный.

Он сначала просто говорит, что данных много и они разные. А потом занимается несложной, но впечатляющей арифметикой, пик драматизма которой приходит на процитированный момент.

Но я согласен -- вопрос у меня не ахти. Скорее захотелось представить как часто люди "живут" в таких условиях.
источник

I

I Апрельский in Data Engineers
Пруф-пик.
источник

AZ

Anton Zadorozhniy in Data Engineers
I Апрельский
Спасибо!

Но мне кажется, автор не про CI. Почему? Потому что он такой иллюстрацией поясняет почему процесс поиска нужных данных в дейтасаенс такой сложный.

Он сначала просто говорит, что данных много и они разные. А потом занимается несложной, но впечатляющей арифметикой, пик драматизма которой приходит на процитированный момент.

Но я согласен -- вопрос у меня не ахти. Скорее захотелось представить как часто люди "живут" в таких условиях.
дело не в том сколько баз, а как компания (а точнее команды) контролируют их, ведь база/схема это просто единица управления данными; в этом смысле есть спект дата-культуры, где-то дикий запад, а где-то бОльшая часть баз появляется в результате формальных процессов с понятным аккаунтингом (а те что мимо процессов имеют ограниченное время жизни)
источник

N

Nikolay in Data Engineers
Есть кто понимает устройство LSM деревьев ? Кроме общих враз , что та есть log и как минимум два дерева C0, которое в памяти и C1, которое на диске.  Статью Патрика скажем так я начал читать, но ещё не осилил . Если что в КХ не LSM деревья ( и это явным образом написанно в их доке). В идеале бы хотелось посмотреть на некую простую реализацию на каком либо языке.
источник

K

KrivdaTheTriewe in Data Engineers
Anton Zadorozhniy
дело не в том сколько баз, а как компания (а точнее команды) контролируют их, ведь база/схема это просто единица управления данными; в этом смысле есть спект дата-культуры, где-то дикий запад, а где-то бОльшая часть баз появляется в результате формальных процессов с понятным аккаунтингом (а те что мимо процессов имеют ограниченное время жизни)
Что сейчас есть почитать про релиз процесс бигдата решений
источник

AZ

Anton Zadorozhniy in Data Engineers
KrivdaTheTriewe
Что сейчас есть почитать про релиз процесс бигдата решений
публичного я ничего структурированного не встречал
источник

K

KrivdaTheTriewe in Data Engineers
Anton Zadorozhniy
публичного я ничего структурированного не встречал
Продолжаем делать велосипеды
источник

AZ

Anton Zadorozhniy in Data Engineers
KrivdaTheTriewe
Продолжаем делать велосипеды
почему, просто нанимаем опытных людей, у всех моих клиентов с высокой дата-культурой плюс-минус одинаковые процессы
источник

K

KrivdaTheTriewe in Data Engineers
Anton Zadorozhniy
почему, просто нанимаем опытных людей, у всех моих клиентов с высокой дата-культурой плюс-минус одинаковые процессы
Они откуда их брали ?
источник

AZ

Anton Zadorozhniy in Data Engineers
KrivdaTheTriewe
Они откуда их брали ?
ну кому-то я ставил, другие наняли людей которые это где-то делали, архитекторская тусовка в бигдате довольно маленькая
источник

AZ

Anton Zadorozhniy in Data Engineers
и там нет какого-то rocket science, дата гавернанс и метаданные которые являются каким-то подмножеством egeria, плюс шлюзы в конвейерах поставки которые интегрированы с ними
источник

PR

Pavel R in Data Engineers
А подскажите.
Есть ли какие-нибудь инструменты, которые бы строили графики/отчёты на основе данных из апи ярна клоудеры? Требуется понять утилизацию hdfs в разрезе очередей/джобов.
источник

AZ

Anton Zadorozhniy in Data Engineers
Pavel R
А подскажите.
Есть ли какие-нибудь инструменты, которые бы строили графики/отчёты на основе данных из апи ярна клоудеры? Требуется понять утилизацию hdfs в разрезе очередей/джобов.
обычно все собирают json обстукивая api, а потом анализируют питончиком, но я уверен что вы не сможете понять оттуда утилизацию HDFS
источник

NI

Nikolay Ivanov in Data Engineers
Pavel R
А подскажите.
Есть ли какие-нибудь инструменты, которые бы строили графики/отчёты на основе данных из апи ярна клоудеры? Требуется понять утилизацию hdfs в разрезе очередей/джобов.
Что вы имеете ввиду когда говорите "в разрезе очередей/джобов"? Если вам нужна статистика по hdfs, можно использовать fsimage exporter в прометеус
источник

А

Алексей in Data Engineers
Nikolay
Есть кто понимает устройство LSM деревьев ? Кроме общих враз , что та есть log и как минимум два дерева C0, которое в памяти и C1, которое на диске.  Статью Патрика скажем так я начал читать, но ещё не осилил . Если что в КХ не LSM деревья ( и это явным образом написанно в их доке). В идеале бы хотелось посмотреть на некую простую реализацию на каком либо языке.
не сочтите за рекламу) http://blog.skahin.ru/2018/05/lsm.html
источник