Size: a a a

2021 October 27

A

Alex in Data Engineers
часть вещей которые только в мастере в клоудеру и хортон (когда он ещё был жив) активно бекпортились
сам хадуп совсем не спешит их бекпортить в старые ветки
источник

A

Alex in Data Engineers
только критикал вещи
источник

A

Alex in Data Engineers
что спарк уходит в кастомизацию тоже верно

амазоновский, датабрикс, у мс вроде тоже свой

основная проблема что сорцы они не отдают патчей, поэтому иногда ошибки сложно дебажить
источник

RI

Rustam Iksanov in Data Engineers
Это фишка облаков, недавно Бартунов на это жаловался
источник

A

Alex in Data Engineers
я понимаю что фишка
и даже понимаю почему облака это делают (взяли роль клоудеры для самих себя, так как у кастомеров должно всё работать)
причем нужно добавить "оптимизации" чтобы у тебя работало лучше чем у конкурентов

но вот граничные случаи когда не работает уже начинаются проблемы
источник

RI

Rustam Iksanov in Data Engineers
и мы опять идем к проприетарным продуктам
источник

A

Alex in Data Engineers
примерно про это @dartov и говорил: уходим от продукта к фреймворку, поверх которого каждый делает что-то своё
источник

AZ

Anton Zadorozhniy in Data Engineers
Ну такое, нужно много инженерных усилий чтобы сделать из тарболов работающее решение, практически вся опсовая и инфосек кухня, а некоторые фичи (оппортунистические контейнеры в YARN, например) нужно доделывать чтобы полететь
источник

RI

Rustam Iksanov in Data Engineers
без сомнения, что есть свои сложности. Но тут все зависит от целей использования. У нас ванильный hbase и спарк c хадупом. И у нас не прямо чистая дата инженерия, просто инструмент подходящий.
источник

AZ

Anton Zadorozhniy in Data Engineers
А какой у вас мониторинг, лог менеджмент, IAM? Умеете делать репликацию между сайтами?
источник

RI

Rustam Iksanov in Data Engineers
Я же говорю, что у нас не дата инженеринг в чистом виде. У нас просто spark как вычислитель и hbase как хранилище. У нас не привычных пайплайнов. У нас очень узконишевая история.
источник

AZ

Anton Zadorozhniy in Data Engineers
Это значит вы можете без IAM, но дистрибутив, мониторинг - все это кто-то должен написать и сопровождать
источник

NB

Nikita Bakanchev in Data Engineers
xs
источник

VP

Vitaly Pismarev in Data Engineers
Народ, а может есть те кто выбирал для хранилища между Bigquey и Snowflake ? Если есть, поделитесь тезисно , плиз, что выбрали и почему ) Особенно в плане костов. Кажется, что это два прям сильно конкурирующих решения
источник

NB

Nikita Bakanchev in Data Engineers
А вы плотно на гугл стеке сидите?
источник

VP

Vitaly Pismarev in Data Engineers
Не, совсем не плотно. Но есть решение на BQ для диджитал маркетинга. Сложилось исторически ) Но в целом там не проблема переехать, весь ETL  в dbt и интеграции с внешними провайдерами простые и их немного
источник

AZ

Anton Zadorozhniy in Data Engineers
А какой порядок бюджета у вас? Сотни тысяч, миллионы долларов в год?
источник

VP

Vitaly Pismarev in Data Engineers
Ох, сложно сказать ) Пока скорее первое, может даже меньше чем первое)  Но есть перспективы того что решение взлетит и тогда я думаю ценник может быть и 6-значным )
источник

AZ

Anton Zadorozhniy in Data Engineers
по моему опыту (в последнее время - в основном подглядывания за бенчмарками, чем проведения их) на берегу очень сложно сравнить цены облачных решений, нужно пилотировать и вести переговоры с продавцами
источник

VP

Vitaly Pismarev in Data Engineers
В целом пока этим путём и идём. Пилоты, типовые кейсы + сравнение костов.
источник