Size: a a a

Инжиниринг Данных

2020 January 22
Инжиниринг Данных
Weekly Business Review или WBR или Wall of Numbers - еженедельные встречи в Амазон, где обсуждаются метрики. Амазон же data-drive компания. Что это из себя представляет? Прежде всего отчет (обычно без графиков и визуализации, вообще) в формате PDF (экспорт из Tableau в лучшем случае) или просто Excel (в 80%). Вот вам ирония, самая data driven компания смотрит в статические отчеты и делает это раз в неделю. Отсюда напрашиваются выводы:

1) Для бизнес метрик и целей, нужно ли нам делать near real time data pipelines?  Конечно нужны, но все зависит от задачи и требований.
2) Нужно ли нам смотреть на наши показатели 5 раз в день, каждый день? Важно держать руку на пульсе для операционных метрик, но там нужно настраивать систему оповещения (alert) если что-то отклонилось от нормы.
3) Нужно ли нам много красиво графиков? Доказано, что визуализацию лучше цифр. Но бизнес лидеры предпочитаю смотреть на цифры.
4) Нужны ли нам дорогие инструменты визуализации и аналитики? Для статистических отчетов типа WBR нет. Но для анлитиков, которые ковыряются в данных (deep dive), нужны.

Вывод простой, неважно каким образом мы строим отчеты, и что используем. Они должны помогать бизнесу делать их работу - смотреть на данные и принимать решения, которые нацелены всего на 3 цели:

1) Увеличить прибыль
2) Снизить издержки
3) Снизить риски

Пример WBR слайда. Обычно это 50  страниц, где могут смотреть на одни и теже метрики в разных разрезах. Всегда готовят 50 слайдов, но обсуждают только 10, которые важно обсудить. Перед встречей нужно, написать callouts (что значимого случилось), после встречи часто нужно делать deep dive, и объяснить отклонения, во многих случаях это ошибка в ETL (нет инструментов data quality, notifications).

Абсолютно все делают такие отчеты, и многие изобретают велосипед.
источник
Инжиниринг Данных
WBR
источник
2020 January 23
Инжиниринг Данных
Ebook - Science + Data
источник
Инжиниринг Данных
Попробовал использовать хабр и перевел статью про озеро данных. Уже вижу комментарии под постом как в анектоде: "На форуме пишут, не подскажите, где купить хороших яблок?", А в ответ: "Зачем вам яблоки? Лучше груши" или "Опять вы со своими яблоками, уже всем надоели ваши яблоки" и другие упрёки, это очень у нас такой менталитет🤠 если есть чего по делу можно написать поподробней, рассказать, чтобы другим было понятно и полезно. В общем это был эксперимент. Кстати комментарий с рекламой облаков меня поставил в ступр, я нахожусь в другом рынке и конечно у меня bias в сторону того, что я использую в Амазон, rock your data и в целом в моей индустрии. А возможно это как писать про то, что уже надоели со своими машинами во времена, когда форд изобрел автомобиль, может облака это тоже прогресс? В общем если нравиться и полезно, ставьте лайк, если есть чего добавить расскажите так чтобы было всем понятно, а если нет, можно мимо пройти🥂
источник
Инжиниринг Данных
Слышали вы про H20? Это платформа для data science и ml. И это open source. https://youtu.be/BtnugVpu7V8
источник
Инжиниринг Данных
А вам знакомо?🙈я и команды не помню😳
источник
Инжиниринг Данных
А вот и пример MLOps с использование Git и DVC (раньше я только знал про MLFlow).
источник
2020 January 24
Инжиниринг Данных
Если вы следите за трендами в индустрии, то знаете Snowflake. Хотя это слово у меня в канале в топ key words)) В общем, теперь же это платформа данных. Вот один из аргументов, у Snowflake есть утилитка - SnowSQL это CLI тул через командную строку, хотят такой же был и у Терадата, вроде BTEQ. Но есть и еще один - SnowPipe, это такая штука для потока данных в Snowflake. Вот тут подробности.
источник
Инжиниринг Данных
Я бы заменил Infrastructure Engineer на SysAdmin. Часто нужно помощь с настройкой доступов, аутентификации, сетей и тп. В облачных решениях отпадает надобность в инженерах, которые обслуживают Hardware и занимается установкой Software.  Очень классно поделили на Doeкs и Thinkers! А вы кто?
источник
Инжиниринг Данных
Небольшой update по Startup School от Y Combinator. Прошла неделя 1. Посмотрел 3 видео, очень классные, все применимо даже для обычного BI разработчика, если подумать, что ваш проект (отчет?) это стартап, и вы решаете проблему (боль) клиента.

Они предлагали пообщаться с другим стартапами в группах, по 4 компании. Почему бы и нет. Я думал, послушаю, как люди делают стартапы, а получось очень даже интересно. Один стартап вообще без беты был, один чувак пилет приложение какое-то, зато в Ванкувере живет. А вот другой был из LA, у них приложение для каких-то видео мемов. Даже инвестиции получили. (Как минимум для вас бесплатная практика английского и можно любые вопросы задавать, а вдруг на работу еще возьмут!). А вот это компания https://www.productlift.io/ (из Ванкувера) ищет co-founder (разработчика), если кому интересно, могу познакомить (отличный вариант поучиться  создавать приложения на AWS, говорить по английски и изучать продуктовую аналитику на реальных клиентах).

Я им рассказал про Rock Your Data, они сначала ничего не поняли (то есть я толком не могу рассказать, что я предлагаю), потом они поняли. Оказалось, что это прям боль стартапов - аналитики, платформа данных и метрики в дашбордах. Договрились, что я им почти за бесплатно попробую сделать аналитическое решение, и у меня будет reference и у меня будет, что предложить другим. Возможно пытаясь продавать услуги в Medium и Enterprise это сложно и требует связей, посмотрим как у стартапов. И самое главное, если классная компания - Fishtown Analytics, которая только это и делает и не нужно изобретать велосипед.

Кстати через них зашел на BI инструмент Mode. Я его знаю, это такой SQL friendly Cloud Native BI. Оказывается бесплатный до 4гб и одного пользователя. Делаете Аналитику для себя? Стоит попробовать, в качестве DW можно взять BigQuery (до 5Гб фрии в год) или Azure SQL Server (12 months free). Или платить копеечку AWS.

Кстати, если вы в ранней стадии и вам нужно аналитическое решение, не стесняйтесь спрашивать, всегда интересно, кто и чего делает, и как.
источник
Инжиниринг Данных
Вдруг вам будет интересно поучаствовать и поучиться:                               Х5 проводит масштабный контест по машинному обучению, успейте зарегистрироваться!

RetailHero - это не одно, а сразу три соревнования и конференция 15 февраля 2020! Разыгрываются 1 600 000 ₽ призовых 💰

Организаторами были подготовлены три задачи, чтобы учесть вкусы самых искушённых участников:

✨ Каким клиентам нужно отправить SMS?
Вы не раз могли слышать про Uplift моделирование. А теперь - наконец-то можно его попробовать реализовать самим! В этой задаче необходимо подготовить список клиентов, ранжированный по эффективности коммуникации.
https://retailhero.ai/c/uplift_modeling/

✨ Какие товары клиент купит в следующий раз?
Более серьезная задача, где будет еще и немного ML Engineering с условиями еще и по нагрузке на решение. Тут участникам предстоит построить рекомендательную систему и при этом сделать сервис, который выдержит нагрузку.
https://retailhero.ai/c/recommender_syst

✨ Как расставить товары по полкам?
Для любителей Computer Science, алгоритмов и оптимизации, ACM-style задача. Нужно реализовать алгоритм, который сможет найти самую эффективную расстановку товаров.
https://retailhero.ai/c/shelf_allocation

Участвовать можно хоть в одном соревновании, хоть в двух, хоть в трёх, на ваш выбор! 🙂
Можно в команде. А можно в составах разных команд - в каждой задаче в новой команде 👍🏻
Канал для всех задач в slack ods.ai: https://app.slack.com/client/T040HKJE3/C

Регистрация на соревнование и конференцию, подробное описание задач на странице Retail Hero:
https://retailhero.ai/
источник
Инжиниринг Данных
Короткая статья о главных вопросах и ошибках в управлении данными. Ее написала Светлана, которая является CDO ВТБ. Я с ней  познакомился на конференции в Бостоне EDW19 в прошлом году.🤗
TAdviser.ru
Светлана Бова, Chief Data Officer банка ВТБ - о главных вопросах и ошибках в управлении данными.
Актуальность темы управления данными (Data Governance) растет с каждым годом. Действительно, необходимость организации процессов, направленных на повышение эффективности сбора, обработки, хранения и использования данных как ценного актива, уже очевидна практически всем компаниям. Много сказано о том, какие преимущества приносят компании правильно выстроенные процессы управления данными, и многие организации уже начали внедрение этой инициативы. При этом организации часто допускают похожие ошибки, которые негативно влияют на темпы внедрения и эффективность создаваемых процессов управления данными. О том, какие это ошибки, как их избежать и на какие вопросы организация должна найти ответы в процессе внедрения Data Governance, в материале, подготовленном для TAdviser, рассказывает Светлана Бова, Chief Data Officer банка ВТБ.
источник
Инжиниринг Данных
Удаленная вакансия Data Engineer (AWS, GCP, BI, DW)
источник
Инжиниринг Данных
— комменты глюкнулись, перепостил.

Всем привет, у меня давно есть идея, начать делать вебинары на русском. В Амазоне я уже 4 года веду BI Tech Talk это 100+ команд Amazon по всему миру, я приглашаю спикеров из амазона или из linkedin. Еще Amazon Tableau User Group, там 2500+ человек, и я приглашаю Tableau Zen Masters выступать. Амазон легко продать и все соглашаются.

В этом канале уже собралось 1777 подписчиков. И иногда я общаюсь с людьми, кто занимается аналитикой, строит решения, и они живут по всему миру и заглядывают на канал. В принципе, можно сделать вебинары, онлайн 1 час, раз в 2 недели + я смогу рассказывать свои презентации на русском, если где-нибудь выступаю. Мне всегда очень интерсно услышать:
- О вашей компании и вашем опыте, если вы заграницей, то как попали туда
- Опционально о вашем доходе (это интересно сравнивать)
- О команде (например BIE + DE + ML + Produсt Manager)
- О вашем проекте, архитектуре, набор инструментов, стоимости решения, сложностях
- Как вы помогаете бизнесу принимать решения на основе данных (Дашборд? Визуализация, сложные модели?)

Главная цель сделать это полезным для рассказчика и слушателей.
- Рассказчик сможет рассказать о себе и проекте и использовать это как портфолио?
- Слушатели смогут узнать что-то новое и применить на практике?

Пожалуйста, напишите ваше мнение в комментариях и если знаете классную платформу для вебинаров, тоже поделитесь и ее ценой. Так же я знаю, есть и другие мероприятия подобное, может быть еще один будет лишней. Все за и против Welcome! и хороших выходных!
источник
2020 January 25
Инжиниринг Данных
Это конечно круто, наши грандмастеры на kaggle хотели всех обмануть и почти получилось, но потом все вскрылось. Оказалось, ребята в свою модель вставили снипет Python, который тупо сканирует сайт и собирает всю информацию, и по факту в 10% процентах случаев вместо предсказания, просто находит 💯 ответ. В общем все это безобразие вскрылось и чувака уволили из H2O (я не давно шарил их open source продукт). В общем жёстко облажались. Это просто epic fail, который подпортил им карьеру. Но в любом случае, ребята умные, добились результата, Python хорошо знают, знаю как модели строить😎. Обидно, что из-за этого пострадали невинные домашние животные и вообще подвели сообщество data scientists. А вы что думаете?
источник
2020 January 27
Инжиниринг Данных
#faketillyoumakeit #jobchange
У меня есть несколько интересных историй, про знакомых и друзей, кому я помог поменять работу или изменить даже жизнь, не знаю к лучшему или худшему. Помогать хорошо для кармы, или просто хорошо, поэтому есть несколько success stories, которые еще актуальны, говорят о том, что все в ваших руках.

История 1,2,3,4

Осталось дописать последние 2 истории. И на этом они закончились, хотя я часто пытался что-то подобное провернуть, но все в холостую. Здесь в Канаде, людям сложно фокусироваться или они не обладают усидчивостью. Люди лучше согласиться сейчас получать меньше, чем через 6 месяцев нормально зарабатывать или просто круг знакомых уже за 30+ и сложно так вот сподвигнуть себя на подвиг.

История 5.
Про Костю Ф. В Москве у нас хороший друг, хороший стоматолог. У его тогдашней жены был брат, который жил в Омске и работал на заводе оператором вышки, которая нефть качала, по-моему он работал на Газпром. Они меня попросили ему помочь, я ему сразу сказала про 2 варианта в Москве:
1) Продавать оборудования для нефтегазовой промышленности
2) BI разработчик
Сошлись на разработчика, установили ему TeamViewer, чтобы я могу удаленно настроить ему компьютер. Установили SAP BO, SQL Server, и конечно же учить SQL на sql-ex.ru (самый крутой сайт для SQL, я его даже в Амазоне рекомендую), у него конечно было куча игр на компе, пришлось все удалить. Месяца 3-4 он учился. Но был вопрос как же из Омска собеседоваться. Мы придумали, что он работает на Газпром и просто в командировке в Омске (кстати отличная идея для тех, кто не в Москве, главное не переборщить, а то будет как гроссмейстеров из поста выше). В общем, попалась вакансию Glowbyte,  они вообще крутые, у них даже компания в штатах есть (Tier 1 или как-то так), и про BI/DW все знают, и сильный упор на аналитический CRM, я даже пытался людей переманивать в CleverData от туда (не долго я был вообще в CleverData, если что могу про опыт рассказать). В общем мы откликнулись на вакансию, и ему назначили собеседование по Skype. Время было мало на подготовку и мы вместе прошли это собеседование по скайпу. В итоге его взяли сразу на хорошую зп, да еще переезд оплатили и дали денег на съем квартиры месяца на 2-3. Там он проработал 2 года. Кстати, там в HR он встретил будущую жену. И еще много раз меня выручал, когда я работал в Черногории.

История 6.
Про Колю Б. У нас в Виктории мы случайно познакомились с русскими. Мы особо на улице не знакомимся, но вот сын, всегда любил пальцем показывать и говорить громко на людей за соседним столом “Они по русски говорят!!”. В общем мы познакомились и стали общаться, я как обычно про свой BI. Оказалось, они уже год в Ванкувере, и в Москве Коля был предпринимателем и работал с тендерами. Здесь Коля работал на стройке за 20$ в час (кстати это не плохо, так как платят кешом, есть ребята плитку кладут и получают по от 40 в час, можно работать по 12 часов и без выходных, то есть в Канаде не пропадете). Коля превосходил всех по усидчивости, он просто вгрызался учебники, тренинги и тп. В общем по стандартной программе. Sql-ex.ru, но уже перешли на Tableau, Redshift, Pentaho. Сделали резюме и стали откликаться на вакансии, даже попробовали в Амазон на стажировку, но оказалось , что на стройке он разговаривает по русски, и английский был запущен, в итоге он пошел на курсы английского и еще в школу местную по дизайну БД. В итоге, довольно быстро нашел работу BI, сейчас учит программирование, и вроде интересуется blockchain.

Мораль просто, не важно что вы знаете и что делаете, всегда можно переключиться и начать заниматься чем-то другим, что приносит больше денег, и где есть больше перспектив. Главное, нужно знать короткий путь.
источник
Инжиниринг Данных
Почему мне нравилось делать такие истории? Несколько причин, главное, я считаю, чем больше отдаешь, тем больше получаешь (что-то вроде от вселенной), помогаешь кому-то просто так, и к тебе вернется в 3 раза больше. Так же мне было интересно обмануть систему (пример гроссмейстеров из кагл меня теперь будет преследовать, наверно нужно иметь четкую грань, что можно, а что нельзя). Под системой я имею ввиду традиционный, шаблонный наем сотрудников, который далек от идеала, где главная задача иметь правильные ключевые слова в резюме, чтобы  очень занятый HR смог обратить на вас внимание, и потом нужно еще понравится человеку, который берет вас на работу, для этого нужно сказать, то , что он хочет услышать. Главная задача это попасть, а уже на месте, человек очень быстро адаптируется, если будет усердно работать. Ну и заодно, когда мы учим других, мы учимся сами.

Помимо вебинаров, появилась еще одна идея. Сделать открытый Bootcamp с Redshift, Tableau, Petnaho и тп, все истории и накопленный опыт можно было масштабировать и потом собирать фидбек людей, какие у них успехи и сколько людей дошло до конца. Так же у меня был план программы Data Engineer для SkillFactory (10 модулей) вот и ее можно будет провернуть за 10 недель, а вдруг кому поможет, и всем будет хорошо🤔
источник
Инжиниринг Данных
Кстати про Хабр, вот комментарий победитель. Пишешь, стараешься, а получается ерунда какая-то!😂🤦‍♂️
источник
2020 January 28
Инжиниринг Данных
Кстати слыша ли вы термин citizen data scientist? В общем это такой человек, которые не учился на data science, но используют приему и техники в работе. Не знаю можно ли назвать его любителем? Это было популярно в 2019, а до меня только сейчас дошло. А вот в 2020 будет citizen data engineer, то есть, вам не обязательно быть крутым инженером и долго на него учиться, достаточно понимать основы и самостоятельно копировать данные для анализа.

Кстати, там же пишут, согласно отчету про ТОП вакансий 2020, data engineer теперь наравне с ML и data science. Но материалов по ML/Data Science настолько много, что можно в них утонуть, а по data engineer все очень скудно пока. По основным навыкам это ETL/ELT,DW,AWS, Python, Spark.  

В общем зовите друзей в канал! Будем всех делать Citizen Data Engineer, обязательно придумаю какой-нибудь сертификат, всем, кто пройдет буткемп от начала до конца( осталось только его сделать 🧘‍♂️- bootcamp, но программа уже есть).

Кстати, как вы понимаете citizen DE/DS?

https://insights.dice.com/2020/01/10/citizen-data-engineer-year-2020/
источник
Инжиниринг Данных
А это ТОП тренды для крутых компаний на 2020!
1) Продолжают мигрировать в облака (не реклама!)
2) Использование гибридных DW/Data Platform, часть в облаках, часть on-premise. Такой переходный этап.
3) Мульты Клауд явно в тренде, это когда мы можешь использовать микс AWS+Azure и тп. Самое главное, вендор это понимает, и создают решения, которые не привязаны к конкретному облаку.
4) Фокус на безопасно и приватность. Ну это всегда было, есть и будет.
5) Рассвет AI (уже компании научились использовать решения), так же решению идут по пути упрощения - пример AWS SageMaker
6) Рост sharing данных и их монетизации. Например, у нас есть много важных и ценных данных, мы можем предоставить доступ клиентам., Самое главное, что это все делается очень просто.
источник