часть вещей которые только в мастере в клоудеру и хортон (когда он ещё был жив) активно бекпортились сам хадуп совсем не спешит их бекпортить в старые ветки
я понимаю что фишка и даже понимаю почему облака это делают (взяли роль клоудеры для самих себя, так как у кастомеров должно всё работать) причем нужно добавить "оптимизации" чтобы у тебя работало лучше чем у конкурентов
но вот граничные случаи когда не работает уже начинаются проблемы
Ну такое, нужно много инженерных усилий чтобы сделать из тарболов работающее решение, практически вся опсовая и инфосек кухня, а некоторые фичи (оппортунистические контейнеры в YARN, например) нужно доделывать чтобы полететь
без сомнения, что есть свои сложности. Но тут все зависит от целей использования. У нас ванильный hbase и спарк c хадупом. И у нас не прямо чистая дата инженерия, просто инструмент подходящий.
Я же говорю, что у нас не дата инженеринг в чистом виде. У нас просто spark как вычислитель и hbase как хранилище. У нас не привычных пайплайнов. У нас очень узконишевая история.
Народ, а может есть те кто выбирал для хранилища между Bigquey и Snowflake ? Если есть, поделитесь тезисно , плиз, что выбрали и почему ) Особенно в плане костов. Кажется, что это два прям сильно конкурирующих решения
Не, совсем не плотно. Но есть решение на BQ для диджитал маркетинга. Сложилось исторически ) Но в целом там не проблема переехать, весь ETL в dbt и интеграции с внешними провайдерами простые и их немного
Ох, сложно сказать ) Пока скорее первое, может даже меньше чем первое) Но есть перспективы того что решение взлетит и тогда я думаю ценник может быть и 6-значным )
по моему опыту (в последнее время - в основном подглядывания за бенчмарками, чем проведения их) на берегу очень сложно сравнить цены облачных решений, нужно пилотировать и вести переговоры с продавцами