Size: a a a

Инжиниринг Данных

2021 April 04
Инжиниринг Данных
источник
2021 April 05
Инжиниринг Данных
Мне нравятся мысли Зака про Data Engineering, у него большой опыт. В посте он сравнивает практики SDE vs DE, что важно, что не важно, по его мнению.
источник
Инжиниринг Данных
источник
2021 April 06
Инжиниринг Данных
источник
Инжиниринг Данных
Чувак рассказывает про инструменты инженера данных на Azure и про то, как можно их учить бесплатно.


Кстати я продолжаю общаться с разными студиями Xbox, и если Minecraft и Rare (создатели Sea of Thieves) +/- довольны Databricks, но еще далеки от совершенства, то вот Turn 10 (создатели Forza) решили пойти по пути Azure Synapse. Оказывается, когда вышел Synapse, то они выпустили поддержку Delta Lake и Serverless SQL Engines. Пока еще сыровато, но звучит многообещающе. Я больше всего боюсь, что в один прекрасный день, Databricks уйдет из Azure,  и останется мне только Synapse.  Я очень хочу попробовать кейсы для DataBricks, чтобы запускать ML модели внутри игры в режиме реального времени, пока не знаю, как это работает, но технологии позволяют так делать. Сейчас основной проект это миграция HDInsight (Azure Hadoop)+Hive на Databricks.
источник
Инжиниринг Данных
Я часто тут затрагиваю тему сертификации, вот мои сертификаты за 10+ лет. 4 из них fake. Попробуйте угадать какие fake в опросе ниже.
источник
Инжиниринг Данных
Выберите fake сертификаты PART 1
Анонимный опрос
10%
SnowPro Core
6%
AWS BigData
4%
AWS Cloud Practioner
13%
DAMA CDMP
8%
Tableau Desktop
8%
Tableau Server
12%
Splunk Sales Eng
11%
Splunk Sales Rep
14%
IBM Sales Mastery
14%
IBM Teleaf
Проголосовало: 520
источник
Инжиниринг Данных
Выберите fake сертификаты Part 2
Анонимный опрос
29%
Pentaho DI
24%
SAP BO
28%
Teradata SQL
19%
Teradata Professional
Проголосовало: 286
источник
Инжиниринг Данных
Продолжаю про ценность сертификатов. У меня по ним примерно такая история:
- SnowPro Core - я даже не пытался, но у меня был купон на бесплатную сдачу. Это вводный экзамен, просто было жалко времени теорию повторять.
- AWS BigData - я прошел все тренинги и лабы, осталось только зубрить теорию бесполезную. Стало жалко времени.
- AWS Cloud Practitioner - я сдавал честно 2 раза, и какждый раз был сбой в программе онлайн экзаменов. 3й раз я просто забил.
- Pentaho DI - я набрал 73%, а нужно было минимум 75%. Пересдавать это уже дорого.

То есть эти 4 fake.  Реально для себя я не ощущаю полезности их наличию. Тренинги к подготовке AWS, очень важны и полезны, а вот учить теорию наоборот. Они весят в LinkedIn и больше служат как приманка для рекрутеров. Это как ловить рыбу и вокруг насыпать приманку, чтобы ее привлечь🤫

DAMA CDMP я сдал без подготовки на конференции EDW. Причем там оплачиваете, только если успешно сдали)) Во время сдачи я очень очень быстро делал CNTR+F (search) в книги по подготовке CDMP. Вообще это сертификат какой-то древний, даже нет картинки в Linkedin.

2xTableau я сдал честно, так как нужно было стать партнером Tableau в British Columbia. К сожалению, каждые 2 года они expired. Но реально пользы в них никакой. Больше я знать не стал. Главные знания из практики.

2xSplunk я сдавал в Москве по той же причине, было требование партнерства. Тренинги были крутые, а вот сертификаты бесполезны. В 2016 году меня не взяли в Splunk в Toronto.

Я еще не указал сертификат по Microstrategy. Я его тоже получил честно, тоже бесполезный.

2xIBM тоже было требование партнерства в Москве. Полная профанация. Мне даже ответы дали из IBM😂

SAP BO сдал честно в центре SAP в Москве, было крутое ощущение. Но пользы не было.

2x Teradata сдавал честно, но готовился по dump ответов. Это было необходимо, так как работал в Терадата.

В общем, сертификаты могут быть нужны в следующих случаях:
1. У вас мало или вообще нет опыта, но вам надо показать обратное -> сдавайте сертификат
2. Вы работаете в консалтинге и вам необходим экзамен, так как это требование партнерства. Если все оплачивают и дают время на подготовку, то почему бы и нет.
3. Ваш работодатель оплачивает вам подготовку, экзамены и очень ценит сертификаты на годовой оценке, тогда конечно нужно получить парочку.

Я бы еще мог к себе добавить сертификатов по Azure и Databricks. Может быть добавлю потом. Никто, никогда не попросил меня прислать proof сертификата. Так что смело добавляйте 2-3 к себе по технологиям, которые вы хорошо знаете!
источник
Инжиниринг Данных
Переслано от Паша Финкельштейн...
Чатик, а вы знаете про конфу datalove, которая совсем скоро? https://datalove.konfy.care/
И вы только посомтрите какой там лайнап? Я не видел Холден уже больше года, например!
источник
2021 April 07
Инжиниринг Данных
источник
Инжиниринг Данных
источник
2021 April 08
Инжиниринг Данных
Детская книга про data science https://www.dominodatalab.com/childrens-book-florence-the-data-scientist-sweepstakes/ (вроде бесплатная)
источник
Инжиниринг Данных
Я потратил 4 месяца на full time изучение Databricks на Azure. Вчера написал письмо пользователям, что вот все готово, переходим с HDInsight/SQL Server на Databricks. А сегодня оказалось, что больше мы не используем Databricks, и теперь Synapse Analytics. У которого тоже есть managed spark, delta lake, но все это еще местами сыровато. Все мои планы про крутые кейсы на databricks, про collaboration и продвижение продукта среди студий Microsoft улетучились. С завтрашнего дня начинаю ковырять Synapse. Чувствую себя примерно, как переходить с Tableau на Power BI, и вам обещают, что все будет так же и даже лучше🤪 Последние 4 месяца я в голове строил планы про архитектуру решения, возможные use cases, общался с другими командами и убеждал их в превосходстве Databricks над другими решениям, и многое другое, а теперь все это стало не актуальным, надо будет разобраться как это сделать на Synapse.

В любом случае опыт хороший получил по Databricks. Принципы Spark, pyspark и delta lake останутся неизменны. Но есть недостатки, например максимальная версия, которая есть у Synapse -> Spark 2.4.

Из хорошего, будет легче в datalearn засунуть Databricks и Synapse Analytics.
источник
Инжиниринг Данных
С виду полезная книга
источник
Инжиниринг Данных
Переслано от Alexander Morozov
источник
Инжиниринг Данных
Переслано от Alexander Morozov
источник
Инжиниринг Данных
источник
2021 April 09
Инжиниринг Данных
#datamesh будет мероприятие, может будет интересно, название веселое)) https://www.linkedin.com/events/howthe-ck-heck-doyoubuildadatam6780462587961319424/
источник
Инжиниринг Данных
источник