Телеграмм чат группы hadoopusers страница 3310

Exasol, конечно, хорошо, но ин-мемори должно бы позволять делать разную крутоту.

Меня больше интересует, есть ли такое же для кучи файлов в обьектном хранилище. И да, я понимаю, это должно строится на управлении метаданными, это и хочется подсмотреть)

В delta oss, iceberg, carbondata, hudi, hiveacid смотрел, такого, чтоб индекс сам строился, не видел

источник

20:45пожаловаться #4

AG

Alexander Gorokhov in Data Engineers

У меня просто слов нет, компания со "strong engineering philosophy", набрали блять, индусов, датасаенс делать, пустили в датабрикс. Хуярят кластера с терабайтом оперативы, со спарком общаются через spark sql, а сам sql собирают из кусочков конкатенацией строк. Один запрос читает все кликсттрим данные какие есть за последний год (~2Tb), и джойнится с ними же несколько раз, ояебу.

источник

20:58пожаловаться #5

AG

Alexander Gorokhov in Data Engineers

Извините наболело. Но может быть у кого то тоже болит? Лечение есть?

источник

20:58пожаловаться #6

T

T in Data Engineers

Alexander Gorokhov

У меня просто слов нет, компания со "strong engineering philosophy", набрали блять, индусов, датасаенс делать, пустили в датабрикс. Хуярят кластера с терабайтом оперативы, со спарком общаются через spark sql, а сам sql собирают из кусочков конкатенацией строк. Один запрос читает все кликсттрим данные какие есть за последний год (~2Tb), и джойнится с ними же несколько раз, ояебу.

Такое лучше в дожбсы писать

источник

21:02пожаловаться #7

TT

Tsh Tsh in Data Engineers

Alexander Gorokhov

Извините наболело. Но может быть у кого то тоже болит? Лечение есть?

У меня в масквабаде была та же боль, но индусов не было

источник

21:03пожаловаться #8

AG

Alexander Gorokhov in Data Engineers

Tsh Tsh

У меня в масквабаде была та же боль, но индусов не было

Ходил к начальству "райзить консерны" по поводу неэффективного расходования средств?

источник

21:04пожаловаться #9

TT

Tsh Tsh in Data Engineers

Alexander Gorokhov

Извините наболело. Но может быть у кого то тоже болит? Лечение есть?

Я сбежал

источник

21:04пожаловаться #10

TT

Tsh Tsh in Data Engineers

Alexander Gorokhov

Ходил к начальству "райзить консерны" по поводу неэффективного расходования средств?

Сами как нибудь разберитесь, не царское это дело

источник

21:04пожаловаться #11

TT

Tsh Tsh in Data Engineers

Alexander Gorokhov

Ходил к начальству "райзить консерны" по поводу неэффективного расходования средств?

На самом деле многие мл алгоритмы и бизнес логика действительно требуют множественных самоджойнов

источник

21:11пожаловаться #12

TT

Tsh Tsh in Data Engineers

Но эта работа сотонистов делать это разумно и эффективно

источник

21:11пожаловаться #13

ME

Mikhail Epikhin in Data Engineers

Привет!
А кто-то пользуется cdap.io или аналогами?
Как оно? Какие плюсы/минусы? Какие аналоги знаете?

источник

22:51пожаловаться #14

А

Алексей in Data Engineers

Иван Калининский

Exasol, конечно, хорошо, но ин-мемори должно бы позволять делать разную крутоту.

Меня больше интересует, есть ли такое же для кучи файлов в обьектном хранилище. И да, я понимаю, это должно строится на управлении метаданными, это и хочется подсмотреть)

В delta oss, iceberg, carbondata, hudi, hiveacid смотрел, такого, чтоб индекс сам строился, не видел

я ток за ораклом пристально слежу, так что это в нем:
auto zone map - это как раз автоматическая кластеризация данных в oracle exadata.
Чтобы создавать автоматически индексы ml не нужен, достаточно вести статистику предикатов к таблицам (https://docs.oracle.com/en/database/oracle/oracle-database/21/nfcon/details-automatic-index-optimization-282450257.html)
В hive можно самому распарсить логи запросов и выбрать самые популярные предикаты для кластеризации (https://github.com/pihel/java/blob/master/bigdata/hive_predicate_stat.py)

Все идет к тому, что dba не нужны будут и будет self drive бд

источник

23:29пожаловаться #15

ИК

Иван Калининский... in Data Engineers

Алексей

я ток за ораклом пристально слежу, так что это в нем:
auto zone map - это как раз автоматическая кластеризация данных в oracle exadata.
Чтобы создавать автоматически индексы ml не нужен, достаточно вести статистику предикатов к таблицам (https://docs.oracle.com/en/database/oracle/oracle-database/21/nfcon/details-automatic-index-optimization-282450257.html)
В hive можно самому распарсить логи запросов и выбрать самые популярные предикаты для кластеризации (https://github.com/pihel/java/blob/master/bigdata/hive_predicate_stat.py)

Все идет к тому, что dba не нужны будут и будет self drive бд

dba должны будут перейти на новый уровень и архитектить структуры. Появились девопсы, будут и архидэбэопсы ^^

источник

23:31пожаловаться #16

2021 March 04

N

Nikita Blagodarnyy in Data Engineers

Алексей

я ток за ораклом пристально слежу, так что это в нем:
auto zone map - это как раз автоматическая кластеризация данных в oracle exadata.
Чтобы создавать автоматически индексы ml не нужен, достаточно вести статистику предикатов к таблицам (https://docs.oracle.com/en/database/oracle/oracle-database/21/nfcon/details-automatic-index-optimization-282450257.html)
В hive можно самому распарсить логи запросов и выбрать самые популярные предикаты для кластеризации (https://github.com/pihel/java/blob/master/bigdata/hive_predicate_stat.py)

Все идет к тому, что dba не нужны будут и будет self drive бд

а кто же напишет alter tablespace add datafile ?

источник

00:06пожаловаться #17

ИК

Иван Калининский... in Data Engineers

Nikita Blagodarnyy

а кто же напишет alter tablespace add datafile ?

скайнет жеж

источник

00:34пожаловаться #18

N

Nikita Blagodarnyy in Data Engineers