Size: a a a

Инжиниринг Данных

2020 March 15
Инжиниринг Данных
Мой стенд прям рядом с одной из самых дорогих компаний -  Snowflake. В целом из 200 человек пришло от силы 50. Snowflake команда не доехала из Ванкувера, из-за сильного ветра отменили sea planes. Был один sale, и тот исчез. У них была презентация после обеда (sponsored), но он исчез. Меня попросили выступить от лица snowflake, и это круто. У меня была презентация про них, теперь они мне точно должны👌 А вот на мою презентацию пришло 2!! человека🥴 ну зато потренировался. В общем чувствую что это последняя конференция в Северной Америке в ближайшее время.
источник
Инжиниринг Данных
источник
Инжиниринг Данных
источник
2020 March 16
Инжиниринг Данных
Вы знали, что Seattle, это город, который сейчас построен поверх старого города? Буквально - центр Сиэтла, это 2ой этаж. Очень интересная история у Сиэтла связанная с проблемами отсутствия канализации, проституток, которые оплатили строительство города. И коррупцию тут изобрели)) (Кстати нашел классный обзор https://levik.blog/266626.html, мало текста и много фоток)

Особенно мне понравилась история про золотую лихорадку. Seattle это ворота в Юкон - северная провинция Канады. Кстати Мексика ближе к Сиэтлу. Когда первые золотоискатели нашли там золото, все туда ринулись. Сиэтл был город предпринимателей, и они недолго думая, решили продавать все необходимое для золотоискателей, включая упряжки с собаками. Они там никогда не было, и не знали, что и как там, так что запрягали дворняг, продавали всякий не нужный хлам и все в таком роде.

Отсюда и пошло выражение, "продавать лопаты", это из разряда купить франчайзинг, бизнес тренеров. Я вижу как растет кол-во аналитических консалтингов, и у меня была идея, "продавать лопаты" вместо того, чтобы самому "золото добывать". Но я слишком ленив для этого. И сегодня 1й раз я нашел, такую компанию-MyDataBrand, которая "продает лопаты" и сделает из вас успешное дата консалтинговое агенство.
источник
Инжиниринг Данных
Есть такое понятние как Weasel Words. Это слова, которые мы используем когда пишем, и хотим подчеркнуть важность и значительность текста. Но по факту они все портят. Старайтесь их избегать когда пишете бизнес документы. Вот примеры слов на английском:

   About, Aim to, Almost, Around, Believe, Can, Considerably, Directional, Dramatic, Enables, Generally, Hope, Just, Lot, Lots, Material, May, Maybe, Might, Non-Trivial, Overwhelming, Planning, Possibly, Seems, Should, Soon, Supports, Think, Try, Usually, Would

А вот слова, которы можно использовать в случаях, если вы пишете про вещи, которые можно измерить в контексте (immediately quantified):

   Always, Better, Bigger, Could, Disproportionately, Faster, Few, Frequent(ly), Greater, Higher, Lower, Many, More, Most, Nearly, Often, Significant(ly), Slower, Smaller, Some, Worse
источник
2020 March 17
Инжиниринг Данных
Немножно не по теме, но я хотел бы рассказать, как люди живут в Британской Колумбии, да и вообще в Северной Америке, где цены на недвижимость очень высокие и ипотека (если вам еще дали ее) будет процентов 60-70 от вашей зарплаты.

Многие дома имеют отдельную квартиру/этаж, который позволяет сдавать за 1/3 от цены ипотеки. Вот и нас было так, когда мы купи дом, там уже были жильцы, но они съехали в марте и новых мы не нашли. Все было в очень плачевном состоянии, в общем мы решили сделать ремонт, чтобы поучиться красить стены, потолки, заделать дырки и тп. И мы решили попробовать Airbnb, получилось круто. Правда врят ли кто-то снимет в ближайшее время, но если вы вдруг решите посетить остров, знаете, где остановиться😉

Зато научился как красить стены и теперь мы сделали домашний кинотеатр, купили проектор и на стену, теперь как телевизор 100" диагональ и цена 350 CAD. Всем рекомендую.

Будет теперь место, где видео записывать.
источник
2020 March 18
Инжиниринг Данных
Статья про ELT. Вы знаете, что данные можно грузить 2мя способами - batch (раз в сутки, в час) и streaming (поток). Batch это обычно ETL или ELT. То есть процесс загрузки и трансформации, консолидации данных. Вся разница в том, кто будет делать трансформацию, в ETL(SSIS, Informatica) у нас есть сервер, который через себя пропускает данные, значит он должен быть большой, мощный и дорогой. А в ELT, мы используем SQL и аналитическую БД для трансформаций. В облаке часто ELT, я тоже люблю ELT. Кстати plsql в Oracle, это тоже ELT.
источник
Инжиниринг Данных
Заметил интересный момент в Alexa. У нас в команде 4 BIE и один DE. Конечная задача понятно, мы должны деливирить аналитику, метрики, инсайты для внутренних клиентов. Мы получаем запросы на новые фифи, метрики или на изменение бизнес логики.

Проблема возникает, когда DE становится узким местом, и начинается хаос. BIE начинает решать задачу любым известным методом, обычно это custom SQL, которые оторван от основной модели данных, начинает появляться избыточность логики и данных. Все это ведет к неэффективной работы команды на long term, и в целом все аналитическое решение начинает трещать по швам.

Мне кажется, хорошая пропорция 1DE на 2BIE/Data Scientists. Если у вас действительно много аналитиков, то тогда создается Data Platfrom Core team, и уже департаменты на self-service. Но я рассказал про свой кейс. Если посмотреть почему так получается, то это видение менеджера, которому комфортно общаться с BIE и понятно, что они делают, и сложнее понять, что происходит глубже.
источник
2020 March 19
Инжиниринг Данных
Сегодня утром я проснулся, и оказалось, что у меня вебинар вот-вот начнется. Наверно и вам можно зарегистрироваться. К сожалению это очень спонтанно, но я успел собрать слайды и на русском будет.
источник
Инжиниринг Данных
источник
Инжиниринг Данных
источник
2020 March 20
Инжиниринг Данных
источник
Инжиниринг Данных
Увидел на хабре - "Золотое правила фрилансера: последняя зарплата — это та, которую тебе не заплатили."
источник
2020 March 21
Инжиниринг Данных
Пока дети дома сидят важно продолжать обучение. Вот пример программы для разных классов https://docs.google.com/document/d/e/2PACX-1vSZhOdEPAWjUQpqDkVAlJrFwxxZ9Sa6zGOq0CNRms6Z7DZNq-tQWS3OhuVCUbh_-P-WmksHAzbsrk9d/pub#kix.9nnn8qypp56d
источник
2020 March 24
Инжиниринг Данных
Теперь есть возможность сдать экзамен AWS онлайн. Будет полезно пройти и сдать: Cloud Practioner, Solution Architect, Big Data Specialization
источник
2020 March 25
Инжиниринг Данных
Интересный вебинар от табло - как измерить возврат инвестиций от внедрения BI (Tableau).
источник
Инжиниринг Данных
Еще один вебинары, cloud native data 31 марта https://www.7wdata.be/event/cloud-native-data-the-foundation-of-modern-business/
источник
Инжиниринг Данных
Попалось куча бизнес книг на русском https://drive.google.com/drive/folders/1Yg2mo7NLb7oR50Nobcai9xWWpbUciK-1 доступно временно
источник
Инжиниринг Данных
Интересный сайт про сравнение градаций ролей в топ компаниях https://www.levels.fyi/?compare=Amazon,Google,Facebook,Microsoft&track=Software%20Engineer#
источник
Инжиниринг Данных
Как обычно супер статья. Очень классно разложил по полочками роли и особенности, можно применить не только к разработчикам ПО, но и data engineer, big data, BI, и тп. Очень важно про Soft Skills, чем старше специальность, тем важнее soft skills. Я бы еще добавил по опыту в Амазон, очень важно говорить про Operational Excellence (безопасность, бэкапы, типы данные - критичные/некритичные, аутентификация и авторазиция и тп).
источник