Size: a a a

2021 March 03

M

Mino in Data Engineers
Иван Калининский
Какие например базы? Есть открытые, чтобы ещё и с реализацией можно было познакомиться?
Exasol, там алгоритмы или AI строят новые индексы, удаляют старые
источник

M

Mino in Data Engineers
источник

M

Mino in Data Engineers
Где то с 40:20 будет краткое описание Exasol, небольшое сравнение технологии, отличия.
источник

ИК

Иван Калининский... in Data Engineers
Exasol, конечно, хорошо, но ин-мемори должно бы позволять делать разную крутоту.

Меня больше интересует, есть ли такое же для кучи файлов в обьектном хранилище. И да, я понимаю, это должно строится на управлении метаданными, это и хочется подсмотреть)

В delta oss, iceberg, carbondata, hudi, hiveacid смотрел, такого, чтоб индекс сам строился, не видел
источник

AG

Alexander Gorokhov in Data Engineers
У меня просто слов нет, компания со "strong engineering philosophy", набрали блять, индусов, датасаенс делать, пустили в датабрикс. Хуярят кластера с терабайтом оперативы, со спарком общаются через spark sql, а сам sql собирают из кусочков конкатенацией строк. Один запрос читает все кликсттрим данные какие есть за последний год (~2Tb), и джойнится с ними же несколько раз, ояебу.
источник

AG

Alexander Gorokhov in Data Engineers
Извините наболело. Но может быть у кого то тоже болит? Лечение есть?
источник

T

T in Data Engineers
Alexander Gorokhov
У меня просто слов нет, компания со "strong engineering philosophy", набрали блять, индусов, датасаенс делать, пустили в датабрикс. Хуярят кластера с терабайтом оперативы, со спарком общаются через spark sql, а сам sql собирают из кусочков конкатенацией строк. Один запрос читает все кликсттрим данные какие есть за последний год (~2Tb), и джойнится с ними же несколько раз, ояебу.
Такое лучше в дожбсы писать
источник

TT

Tsh Tsh in Data Engineers
Alexander Gorokhov
Извините наболело. Но может быть у кого то тоже болит? Лечение есть?
У меня в масквабаде была та же боль, но индусов не было
источник

AG

Alexander Gorokhov in Data Engineers
Tsh Tsh
У меня в масквабаде была та же боль, но индусов не было
Ходил к начальству "райзить консерны" по поводу неэффективного расходования средств?
источник

TT

Tsh Tsh in Data Engineers
Alexander Gorokhov
Извините наболело. Но может быть у кого то тоже болит? Лечение есть?
Я сбежал
источник

TT

Tsh Tsh in Data Engineers
Alexander Gorokhov
Ходил к начальству "райзить консерны" по поводу неэффективного расходования средств?
Сами как нибудь разберитесь, не царское это дело
источник

TT

Tsh Tsh in Data Engineers
Alexander Gorokhov
Ходил к начальству "райзить консерны" по поводу неэффективного расходования средств?
На самом деле многие мл алгоритмы и бизнес логика действительно требуют множественных самоджойнов
источник

TT

Tsh Tsh in Data Engineers
Но эта работа сотонистов делать это разумно и эффективно
источник

ME

Mikhail Epikhin in Data Engineers
Привет!
А кто-то пользуется cdap.io или аналогами?
Как оно? Какие плюсы/минусы? Какие аналоги знаете?
источник

А

Алексей in Data Engineers
Иван Калининский
Exasol, конечно, хорошо, но ин-мемори должно бы позволять делать разную крутоту.

Меня больше интересует, есть ли такое же для кучи файлов в обьектном хранилище. И да, я понимаю, это должно строится на управлении метаданными, это и хочется подсмотреть)

В delta oss, iceberg, carbondata, hudi, hiveacid смотрел, такого, чтоб индекс сам строился, не видел
я ток за ораклом пристально слежу, так что это в нем:
auto zone map - это как раз автоматическая кластеризация данных в oracle exadata.
Чтобы создавать автоматически индексы ml не нужен, достаточно вести статистику предикатов к таблицам (https://docs.oracle.com/en/database/oracle/oracle-database/21/nfcon/details-automatic-index-optimization-282450257.html)
В hive можно самому распарсить логи запросов и выбрать самые популярные предикаты для кластеризации (https://github.com/pihel/java/blob/master/bigdata/hive_predicate_stat.py)

Все идет к тому, что dba не нужны будут и будет self drive бд
источник

ИК

Иван Калининский... in Data Engineers
Алексей
я ток за ораклом пристально слежу, так что это в нем:
auto zone map - это как раз автоматическая кластеризация данных в oracle exadata.
Чтобы создавать автоматически индексы ml не нужен, достаточно вести статистику предикатов к таблицам (https://docs.oracle.com/en/database/oracle/oracle-database/21/nfcon/details-automatic-index-optimization-282450257.html)
В hive можно самому распарсить логи запросов и выбрать самые популярные предикаты для кластеризации (https://github.com/pihel/java/blob/master/bigdata/hive_predicate_stat.py)

Все идет к тому, что dba не нужны будут и будет self drive бд
dba должны будут перейти на новый уровень и архитектить структуры. Появились девопсы, будут и архидэбэопсы ^^
источник
2021 March 04

N

Nikita Blagodarnyy in Data Engineers
Алексей
я ток за ораклом пристально слежу, так что это в нем:
auto zone map - это как раз автоматическая кластеризация данных в oracle exadata.
Чтобы создавать автоматически индексы ml не нужен, достаточно вести статистику предикатов к таблицам (https://docs.oracle.com/en/database/oracle/oracle-database/21/nfcon/details-automatic-index-optimization-282450257.html)
В hive можно самому распарсить логи запросов и выбрать самые популярные предикаты для кластеризации (https://github.com/pihel/java/blob/master/bigdata/hive_predicate_stat.py)

Все идет к тому, что dba не нужны будут и будет self drive бд
а кто же напишет alter tablespace add datafile ?
источник

ИК

Иван Калининский... in Data Engineers
Nikita Blagodarnyy
а кто же напишет alter tablespace add datafile ?
скайнет жеж
источник

N

Nikita Blagodarnyy in Data Engineers
Наверное, дба вне oracle-банков и sap-корпораций и не осталось уже.
источник

AZ

Anton Zadorozhniy in Data Engineers
Эти сладкие времена прошли, сейчас очень много грамотных инженеров по БД в компаниях
источник