Size: a a a

Инжиниринг Данных

2021 April 15
Инжиниринг Данных
Новая книжка с хорошим названием, а про контент не знаю... https://www.amazon.co.uk/dp/1781335214/ref=cm_sw_r_cp_awdb_imm_7PVA8KR6F625WZMMSHWB
источник
Инжиниринг Данных
источник
Инжиниринг Данных
Вопрос для тех кто использует Delta Lake:
1) Почему вы используете Delta Lake, а не хранилище данных?
2) Какие Инструменты вы используете?
3) Используете ли вы external metastore или по умолчанию (internal)?
4) Используете ли Streaming для Delta Lake?

Вот мои ответы:
1) Я использую delta lake, потому что хочу лучше разобрать в этом подходе и заодно Python и Spark подтянуть. Мог бы обойтись и традиционным хранилищем на Azure.
2) 4 месяца использовал Databricks. Очень классный продукт. К сожалению, перешел на  Azure Synapse Analytics. Пытаюсь понять насколько сильно этот продукт отстает и как дальше жить:)
3) В Databricks и HDInsight я использовал external megastore, так как это позволяет разделить на элементы, и я могу создавать back up metastore, могу один и тот же metastore использовать для HDInsight и Databricks. В общем очень удобно. Если удалю computing resources, мой metastore останется неизменным.
4) Была надежда использовать Streaming для Databricks. Synapse не поддерживает.

Интересно послушать про ваш опыт с Delta Lake.

PS Если посмотреть на продукты Microsoft, то как правило это mass market - SQL Server, Power BI. То есть огромное количество пользователей. Часто сами инструменты не самые лучшие, но темнеменее по кол-ву пользователей всех обходят. Сам факт, что в Synapse Analytics есть одновременно возможность писать SQL и использовать Spark в notebooks, говорит мне о том, что теперь минимальная планка для человека, работающего с данными не только знание SQL, но и знание Spark и языка для манипуляции данных Python, Spark.
источник
Инжиниринг Данных
источник
Инжиниринг Данных
Давно хотел написать про стандарт IBCS, а тут выдался отличный повод — Антон Жиянов cделал удобную pdf версию этого стандарта. Антон, большое спасибо!

Описал в статье, что я думаю по поводу этого стандарта: выделил основные идеи, которые мне запомнились, и привёл примеры его реализации в Tableau и Power BI. В целом, очень рекомендую читать этот стандарт, но некоторые вещи применять с осторожностью.

Я с Data Yoga, кстати, тоже делал темплейт в Табло для проекта ВизСтандарт. Узнал, что его даже применяют другие компании. Ещё вспомнился вот этот пост, про систему близкую по духу и стилю к IBCS.

#статья
источник
Инжиниринг Данных
У нас есть страничка в Facebook. Там мы публикуем те же материалы, что и в телеграм канале или тут, но возможно вашими лайками и репостами мы сможем рассказать о #datalearn новой аудитории. Если не сложно подписывайтесь.  https://www.facebook.com/groups/datalearn/?ref=share и можете отмечать страничку, когда будете шарить сертификат или свои успехи в обучении.
источник
Инжиниринг Данных
Мы уже на 3 модуле нашего супер курса по ML и DS. Там настолько все подробно и понятно рассказано Анастасией Риццо, что если вы даже с этим никогда не работали и не планируете работать, стоит ознакомиться, не пожалеете!

Регистрация: https://datalearn.ru/kurs-po-ml-ds

Курс бесплатный, потому что он бесценный 🤫
источник
2021 April 16
Инжиниринг Данных
На подходе новый шедевр от Tableau Zen Master №1 - Steve Wexler.  Я его кстати видел вживую на Бостон Табло Юзер Групп, жалко не было книги The Big Book of Dashboards для автографа. И он выступал на Amazon Tableau User Group вместе с Ромой Буниным😎 https://www.datarevelations.com/books/
источник
2021 April 17
Инжиниринг Данных
источник
2021 April 18
Инжиниринг Данных
источник
Инжиниринг Данных
источник
Инжиниринг Данных
Вы прокачались, спору нет
И сыплете словами ловко,
Наверное, за много лет
Развили в терминах сноровку.

Вот так всегда: эйчар на встрече,
Явив павлинии хвосты,
Задавит мысли красноречием,
А как устроишься — в кусты.

Что программисту интересно?
Хороший офис, доля в деле?
А я сейчас отвечу честно:
Нам интересно много денег.


Садись сюда, меня послушай,
Я расскажу тебе без бэ:
Мы любим спать, гулять и кушать,
И радость приносить семье.

Нам наплевать на опенспейсы,
Аджайл, скрам и кипиай,
Нам важно быть всегда в процессе
И чтоб работы через край.

Наш ум — уже почти компьютер
И с IDE он заодно.
И если честно, нам до пупа,
Идёт ли босс на IPO.

Мы быстро merge your best solution
Deploy на сервер и commit.
Бывает, сон у нас нарушен
И голова с утра болит.

Я покажусь тебе токсичным,
Быть честным в наше время — токс.
Но набираете обычно
Вы не жемчужины — навоз.

Тех, кто пройдёт все сто этапов
И пишет на листочках код,
Кто смирно сложит обе лапы
И в офис посидеть придёт.

Он будет очень честно кодить,
И тихо ctrl-с github,
Потом всё крашится на проде,
Но это тестер виноват.

Хороший разработчик, зая,
Не будет мокрою рукой
Писать, что сортировку знает,
Он просто код покажет свой.

Не нужно пыли алгоритмов,
Они все гуглятся, ты знай.
А нужно множество коммитов
И чистый код, и codestyle.

Умелый нужен рефакторинг,
Возможность legacy убрать,
Хороший нужен мониторинг,
Чтоб ноды вечно не ронять.

И продакт адекватный нужен,
Который не проформы ради
ТЗ созданием загружен
И знает, что клиенты — б**ди.

Нам нужен диалог с начальством —
И адекватный диалог!
Чтоб без понтов и без бахвальства
Наш босс задачи ставить мог.

Нам нужен новый, ценный опыт,
Разнообразие задач,
Ты не услышишь грустный ропот
В момент айтишных неудач.

Нам всё равно на ваш agile,
Он нам давно не по душе.
Мы бажный код дебагом жарим,
И задолбались мы уже.

Гамак нам в офисе не нужен,
Митап засунь себе в mindcart.
Работа наша — hard и fusion,
Ну то есть синтез и прям hard.

Нам code review бы адекватный
И адекватный интерфейс,
И монитор чтоб был приятный —
Он светит сутками нам в face.

Нам наплевать на корпораты,
И на ассесмент наплевать.
Важны коллеги и зарплата,
И важно цену себе знать.

Ты хочешь слышать мой английский?
На нем читаю и молчу.
С провинциальной я пропиской
И удаленку я хочу.

А в целом нам немного нужно:
Бэклог продуманных задач,
Чтоб не тянуть из всех натужно,
Чего им надо — it’s too much.

Доверие и благодарность —
Ведь программист же человек.
А эту вашу элитарность
Оставьте тем, кто платит чек.

Мы жизнь переливаем в цифру
И правим алгоритмом мир.
Мы баги превращаем в фичи
Ты give me task and hold my beer.

Тебе же в поисках — удачи,
Айтишный мир is superior.
Ты смелая, а это значит,
Найдёт тебя твой best senior.
https://habr.com/ru/post/553022/
источник
Инжиниринг Данных
Всем привет, давненько у нас не было вебинаров...
В общем, подготовили для вас вебинар по Google Data Studio. Дима показывал уже кусочки этого инструмента в видео, но было как-то не густо)).

Вебинар завтра (19 апреля) в 19:00 по мск

🔔 Тема вебинара: Обзор Google Data Studio. Как по шагам создать дашборд для анализа трафика с данными из Google Analytics.

🔔Описание: На вебинаре по шагам рассмотрим на практике как подключить к GDS данные из Google Analytics, добавить и настроить нужные диаграммы и собрать из них дашборд для анализа трафика на сайт. Как поменять оформление дашборда и поделиться им. а также, как использовать готовый шаблон, для быстрого создания отчетов для других проектов.
В качестве примера будем использовать данные из аккаунта Google Merchandise Store.
Слушатели получат готовый шаблон дашборда, который смогут доработать и использовать для своих проектов.

🔔 Информация о спикере:
Штанова Евгения, независимый специалист по контекстной рекламе, веб-аналитик. Автор курса по Google Data Studio. Админ чата по GDS https://t.me/GDS_chat

Ссылка на вебинар: https://youtu.be/eIZzSo-MP34
https://t.me/GDS_chat

Ссылка на вебинар: https://youtu.be/eIZzSo-MP34
источник
2021 April 19
Инжиниринг Данных
Это моя 3ая публикация на Хабр. Давно хотел написать про свой опыт поиска работы - Amazon, Microsoft, Facebook, Tesla, Lyft — история поиска работы мечты или вредные советы для карьерного развития

Там могут быть опечатки и ошибка, в хабре можно выделить и указать на них и я смогу исправить.
источник
Инжиниринг Данных
источник
Инжиниринг Данных
Через 5 минут начинаем:
https://youtu.be/eIZzSo-MP34
источник
2021 April 20
Инжиниринг Данных
Прямо сейчас начинается конференция Microsoft Game Stack

Там будет одна сессия по аналитике игр, а так же много крутых updates и мира игр. https://developer.microsoft.com/en-us/games/events/game-stack-live/
источник
Инжиниринг Данных
📚 Google Developer Groups организуют совместную подготовку к Google Cloud Certification.

2 направления:
- Associate Cloud Engineer
- Professional Cloud Architect

Чек-лист подготовки:

1 шаг – до 15 апреля зарегистрируйтесь на сайте;

2 шаг – для участия в программе необходим профиль на qwiklabs.com и минимум один бейдж. Вы можете получить его после прохождения лабы по ссылке (бесплатно до 15 апреля);

3 шаг – 10 апреля в 12:00 (по Москве) пройдет встреча, на которой мы расскажем детали курса и ответим на вопросы — регистрация на встречу;

4 шаг – 19 апреля первое занятие в группе с менторами. Всего занятий будет 6, раз в неделю. Также будет открыт бесплатный курс самоподготовки на платформе pluralsight.com;

5 шаг – присоединяйтесь к нашему чату в Slack (участники со всей Европы, общение на английском) и Telegram (участники русскоязычного сообщества);

6 шаг – 24 мая пройдет последнее занятие в группе с менторами. После можно будет начать думать об экзамене и продолжать обсуждать вопросы в наших чатах.
источник
Инжиниринг Данных
Ещё один отзыв от человека, который получил необходимые навыки и знания на ресурсах #datalearn. Сегодня он мне написал, что недавно вышел на отличную работу и отличной зарплатой. Так, что все в ваших руках! У вас есть все необходимое.

Вот его словами:
Если прям кратко, то ситуация такая, в июне 2020 я встретился с DataLearn и подсел, в самом начале одно из самых полезных было то, что я понял роль аналитики и данных в целом, плюс некоторые вебинары заходят на ура) спустя некоторое время нашёл работу системным аналитиком в разработке продукта в ритейле, на зарплату +- среднюю для старта, спустя 7 месяцев опыта, самообучения по вечерам и в свободное время(~10 часов в неделю, это на вскидку) мне удалось получить оффер с доходом ~2,5 раза больше.

По навыкам ещё, курс Анатолия прекрасен, помог шлифануть то, что было) (примечание Анатолий создал лучший русскоязычный курс по SQL)

Собеседование было единственное, у меня не было в планах менять работу в ближайшее время, помог нетворкинг) в целом с SQL, Tableau/PowerBI работу можно найти быстрее, чем Танос щёлкнет пальцами, но если подкрепить это питоном, то работа найдёт тебя сама)

Всем успехов и никогда не сдавайтесь)
источник
Инжиниринг Данных
Презентация с конференции gamestack про Azure решения для аналитики игр.
источник