Size: a a a

2019 November 24

DG

Denis Gabaydulin in Moscow Spark
Сервис на данных звучит слишком расплывчато. Что это? Интерфейс с sql к разным источникам (прозрачно для пользователя) или же просто апишечка?
Апишечка точно не сможет витрины подменить.
источник

DG

Denis Gabaydulin in Moscow Spark
MPP подменяют не из-за локальности, и даже не из-за перфоманса, а простотпотому что хадуп требует наличия программистов. А mpp часто - нет.
источник

DG

Denis Gabaydulin in Moscow Spark
А в DWH исторически, далеко не везде есть программисты (data engineers).
источник

VS

Vladislav 👻 Shishkov... in Moscow Spark
Denis Gabaydulin
А в DWH исторически, далеко не везде есть программисты (data engineers).
Сейчас табун pl/sql'щиков должен обидеться 😂
источник

DG

Denis Gabaydulin in Moscow Spark
На эту тему много говорили на data talk #1
источник

VS

Vladislav 👻 Shishkov... in Moscow Spark
Да и ETL без понимания разработки я еще не видел, если конечно не считать какое-нибудь говно
источник

VS

Vladislav 👻 Shishkov... in Moscow Spark
Ну и самое смешное, как показывает практика, меньше 50% дата инжинеров вообще понимают, что такое хранилище и как его строить
источник

AK

Alena Korogodova in Moscow Spark
Vladislav 👻 Shishkov
Сейчас табун pl/sql'щиков должен обидеться 😂
И правда обидно
источник

VS

Vladislav 👻 Shishkov... in Moscow Spark
Большинство дата инжинеров делают просто, взяли 100500 источников и переложили как есть куда-нибудь, потом обмазали на сырых данных спарком и выплюнули в витрину.
А потом бизнес/аналитик подключается каким-нибудь bi инструментом и начинает городить велосипед...
источник

DG

Denis Gabaydulin in Moscow Spark
Здесь дело не в обиде, а реальности. Если вы хотите нормальный хадуп и спарк, надо применять подходы и практики из разработки. Или придется тратить до 80% времени на инциденты и баги, на саппорт инфраструктуры.

https://speakerdeck.com/sherman/odnoklassniki-dwh-evolving-meetup-version
источник

DG

Denis Gabaydulin in Moscow Spark
Vladislav 👻 Shishkov
Большинство дата инжинеров делают просто, взяли 100500 источников и переложили как есть куда-нибудь, потом обмазали на сырых данных спарком и выплюнули в витрину.
А потом бизнес/аналитик подключается каким-нибудь bi инструментом и начинает городить велосипед...
Плохие инженеры. Или хорошие, если все работает стабильно на существующем железе.
источник

ME

Mikhail Epikhin in Moscow Spark
А видеозапись есть?:)
источник

DG

Denis Gabaydulin in Moscow Spark
Вроде нет)
источник

ME

Mikhail Epikhin in Moscow Spark
Denis Gabaydulin
Вроде нет)
источник

DG

Denis Gabaydulin in Moscow Spark
А это другой доклад. Это про планировщик.
источник

DG

Denis Gabaydulin in Moscow Spark
Но он тоже иллюстрирует тезис.
источник

DU

Dmitry Ursegov in Moscow Spark
Denis Gabaydulin
Здесь дело не в обиде, а реальности. Если вы хотите нормальный хадуп и спарк, надо применять подходы и практики из разработки. Или придется тратить до 80% времени на инциденты и баги, на саппорт инфраструктуры.

https://speakerdeck.com/sherman/odnoklassniki-dwh-evolving-meetup-version
да, спасибо, тезис понятный. вообще вся эта конфа как раз по теме, жаль видео не осталось
источник

DG

Denis Gabaydulin in Moscow Spark
Но там было много примеров вполне успешных, когда люди без хадупов вполне обходятся и делают крытые штуки для бизнеса.
источник

DG

Denis Gabaydulin in Moscow Spark
Никого не хотел обедить, просто BI специалист (специалист по бизнес аналитике), data engineer, аналитик ( уклоном в продукт) это все разные скиллы, немного разная специфика. Где-то это вообще один человек, а где-то разные. Есть универсальные солдаты. Чем сложнее инфраструктура, тем больше нужно скиллов в data engineering. Hadoop-based безусловно одна из самых сложных.
источник

АЖ

Андрей Жуков... in Moscow Spark
Denis Gabaydulin
Никого не хотел обедить, просто BI специалист (специалист по бизнес аналитике), data engineer, аналитик ( уклоном в продукт) это все разные скиллы, немного разная специфика. Где-то это вообще один человек, а где-то разные. Есть универсальные солдаты. Чем сложнее инфраструктура, тем больше нужно скиллов в data engineering. Hadoop-based безусловно одна из самых сложных.
hadoop это еще не предел, вот когда тебя на s3 + kubernetes выгоняют...
источник