Телеграмм чат группы hadoopusers страница 2035

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Data Engineers

1771 membersпожаловаться на группу

2020 February 05

I

I Апрельский in Data Engineers

Но мне скорее интересно как много бд в компаниях у нас

источник

23:38пожаловаться #1

АБ

Артём Бобровник in Data Engineers

В компании, где я работаю, 30к людей, несколько сотен внутренних сервисов, несколько десятков юнитов в разных разрезах гео и функционала. Клиентские базы не считаю.
Спокойно могу предположить, что тысяча баз есть. Но так, чтобы они логически были взаимосвязаны - нет.

источник

23:43пожаловаться #2

2020 February 06

K

Konstantin in Data Engineers

Всем доброго времени суток,
кто-нибудь сталкивался со следующим кейсом -
есть Kafka кластер и необходимо загружать с него данные в AWS (Redshift/S3). Необходимо задействовать только AWS.
Начал с AWS EMR (Spark Streaming), но может есть какой вариант без установки Hadoop кластера (EMR)

источник

00:08пожаловаться #3

AZ

Anton Zadorozhniy in Data Engineers

Konstantin

Всем доброго времени суток,
кто-нибудь сталкивался со следующим кейсом -
есть Kafka кластер и необходимо загружать с него данные в AWS (Redshift/S3). Необходимо задействовать только AWS.
Начал с AWS EMR (Spark Streaming), но может есть какой вариант без установки Hadoop кластера (EMR)

Kafka Connect, можно запускать в EKS+Fargate, получается очень экономично

источник

00:45пожаловаться #4

AE

Alexey Evdokimov in Data Engineers

I Апрельский

Это видимо какой пример для максимальной наглядности проблемы))

допустим, есть стенд для CI некоего продукта. для каждого открытого PR на него автоматом деплоится инстанс с чистой базой для прогона тестсьютов. допустим, продукт большой и 200 одновременно активных PR это фигня. в итоге на стенде 200 баз под эти 200 инстансов. теперь умножаем на число продуктов, и поняслася.
точнее, не "допустим", я как раз такой деплой на CI в прошлой конторе делал. даже без контейнеров, просто разворот скриптами по шаблону. вопрос, а в чём тут вопрос?

источник

04:14пожаловаться #5

I

I Апрельский in Data Engineers

Alexey Evdokimov

допустим, есть стенд для CI некоего продукта. для каждого открытого PR на него автоматом деплоится инстанс с чистой базой для прогона тестсьютов. допустим, продукт большой и 200 одновременно активных PR это фигня. в итоге на стенде 200 баз под эти 200 инстансов. теперь умножаем на число продуктов, и поняслася.
точнее, не "допустим", я как раз такой деплой на CI в прошлой конторе делал. даже без контейнеров, просто разворот скриптами по шаблону. вопрос, а в чём тут вопрос?

Спасибо!

Но мне кажется, автор не про CI. Почему? Потому что он такой иллюстрацией поясняет почему процесс поиска нужных данных в дейтасаенс такой сложный.

Он сначала просто говорит, что данных много и они разные. А потом занимается несложной, но впечатляющей арифметикой, пик драматизма которой приходит на процитированный момент.

Но я согласен -- вопрос у меня не ахти. Скорее захотелось представить как часто люди "живут" в таких условиях.

источник

06:42пожаловаться #6

I

I Апрельский in Data Engineers

Пруф-пик.

источник

07:03пожаловаться #7

AZ

Anton Zadorozhniy in Data Engineers

I Апрельский

Спасибо!

Но мне кажется, автор не про CI. Почему? Потому что он такой иллюстрацией поясняет почему процесс поиска нужных данных в дейтасаенс такой сложный.

Он сначала просто говорит, что данных много и они разные. А потом занимается несложной, но впечатляющей арифметикой, пик драматизма которой приходит на процитированный момент.

Но я согласен -- вопрос у меня не ахти. Скорее захотелось представить как часто люди "живут" в таких условиях.

дело не в том сколько баз, а как компания (а точнее команды) контролируют их, ведь база/схема это просто единица управления данными; в этом смысле есть спект дата-культуры, где-то дикий запад, а где-то бОльшая часть баз появляется в результате формальных процессов с понятным аккаунтингом (а те что мимо процессов имеют ограниченное время жизни)

источник

08:42пожаловаться #8

N

Nikolay in Data Engineers

Есть кто понимает устройство LSM деревьев ? Кроме общих враз , что та есть log и как минимум два дерева C0, которое в памяти и C1, которое на диске. Статью Патрика скажем так я начал читать, но ещё не осилил . Если что в КХ не LSM деревья ( и это явным образом написанно в их доке). В идеале бы хотелось посмотреть на некую простую реализацию на каком либо языке.

источник

11:13пожаловаться #9

K

KrivdaTheTriewe in Data Engineers

Anton Zadorozhniy

дело не в том сколько баз, а как компания (а точнее команды) контролируют их, ведь база/схема это просто единица управления данными; в этом смысле есть спект дата-культуры, где-то дикий запад, а где-то бОльшая часть баз появляется в результате формальных процессов с понятным аккаунтингом (а те что мимо процессов имеют ограниченное время жизни)

Что сейчас есть почитать про релиз процесс бигдата решений

источник

11:13пожаловаться #10

AZ

Anton Zadorozhniy in Data Engineers

KrivdaTheTriewe

Что сейчас есть почитать про релиз процесс бигдата решений

публичного я ничего структурированного не встречал

источник

11:28пожаловаться #11

K

KrivdaTheTriewe in Data Engineers

Anton Zadorozhniy

публичного я ничего структурированного не встречал

Продолжаем делать велосипеды

источник

11:32пожаловаться #12

AZ

Anton Zadorozhniy in Data Engineers

KrivdaTheTriewe

Продолжаем делать велосипеды

почему, просто нанимаем опытных людей, у всех моих клиентов с высокой дата-культурой плюс-минус одинаковые процессы

источник

11:33пожаловаться #13

K

KrivdaTheTriewe in Data Engineers

Anton Zadorozhniy

почему, просто нанимаем опытных людей, у всех моих клиентов с высокой дата-культурой плюс-минус одинаковые процессы

Они откуда их брали ?

источник

11:34пожаловаться #14

AZ

Anton Zadorozhniy in Data Engineers

KrivdaTheTriewe

Они откуда их брали ?

ну кому-то я ставил, другие наняли людей которые это где-то делали, архитекторская тусовка в бигдате довольно маленькая

источник

11:35пожаловаться #15

AZ

Anton Zadorozhniy in Data Engineers

и там нет какого-то rocket science, дата гавернанс и метаданные которые являются каким-то подмножеством egeria, плюс шлюзы в конвейерах поставки которые интегрированы с ними

источник

11:37пожаловаться #16

PR

Pavel R in Data Engineers

А подскажите.
Есть ли какие-нибудь инструменты, которые бы строили графики/отчёты на основе данных из апи ярна клоудеры? Требуется понять утилизацию hdfs в разрезе очередей/джобов.

источник

11:44пожаловаться #17

AZ

Anton Zadorozhniy in Data Engineers

А подскажите.
Есть ли какие-нибудь инструменты, которые бы строили графики/отчёты на основе данных из апи ярна клоудеры? Требуется понять утилизацию hdfs в разрезе очередей/джобов.

обычно все собирают json обстукивая api, а потом анализируют питончиком, но я уверен что вы не сможете понять оттуда утилизацию HDFS

источник

11:49пожаловаться #18

NI

Nikolay Ivanov in Data Engineers

А подскажите.
Есть ли какие-нибудь инструменты, которые бы строили графики/отчёты на основе данных из апи ярна клоудеры? Требуется понять утилизацию hdfs в разрезе очередей/джобов.

Что вы имеете ввиду когда говорите "в разрезе очередей/джобов"? Если вам нужна статистика по hdfs, можно использовать fsimage exporter в прометеус

источник

11:56пожаловаться #19

А

Алексей in Data Engineers

Nikolay

Есть кто понимает устройство LSM деревьев ? Кроме общих враз , что та есть log и как минимум два дерева C0, которое в памяти и C1, которое на диске. Статью Патрика скажем так я начал читать, но ещё не осилил . Если что в КХ не LSM деревья ( и это явным образом написанно в их доке). В идеале бы хотелось посмотреть на некую простую реализацию на каком либо языке.

не сочтите за рекламу) http://blog.skahin.ru/2018/05/lsm.html

LSM дерево: быстрый доступ по ключу в условиях интенсивной вставки

В условиях интенсивной вставки для быстрого доступа к данным обычные btree индексы не подходят. Во многих базах (Bigtable, HBase, LevelDB,...

источник

12:09пожаловаться #20