Size: a a a

Инжиниринг Данных

2020 March 25
Инжиниринг Данных
25 марта будет вебинар от основателя курсов по Data Literacy - Avoiding Data Pitfalls - COVID-19 Edition https://zoom.us/webinar/register/1615850941130/WN_bwd7GEDtRcWIlZFBd0smzQ
источник
Инжиниринг Данных
Классная штука для Tableau - создание палитры https://color.tableaumagic.com/
источник
2020 March 26
Инжиниринг Данных
31 марта будет вебинар про Data Literacy как новый скил. Будут учавствовать 2 компании Spotify и Unbounce.
https://brainstation.io/event/online-event-data-literacy-march2020
источник
2020 March 27
Инжиниринг Данных
Так как конференцию отменили в San Diego - EDW20, то ее перенесли на октябрь в Чикаго,  но предложили записать запись вебинара. Мне уже и почти нечего шарить с вами, не успеваю контент новый создавать🤗 Но на картинку всегда силы найдутся
источник
Инжиниринг Данных
Амазон набираем много студентов на стажировку, в основном в Америке. Я собеседую студентов для BI intern. Я даже не смотрю их резюме и не знаю на каком они курсе.

Тут интересный момент, когда мы готовимся проходить собеседование, для нас это центр вселенной, мы все готовы ради прохождения собеседования, особенно если на кону стоит хорошая компания и завивисит наше будущее. А вот люди, которые проводят собеседование делятся на 2 группы - Hiring Manager (заинтересованное лицо) и все остальные, кто участвует в раунде собеседований. Они как правило настолько перегружены задачами, приоритетами, что для них это "еще один митинг на 60мин" в их тяжелом графике.

В моем случае, я сначала напрягался из-за этих собеседований, но потом просто стал говорить со студентами о всем вподряд, рассказывал им как провалил собеседование в Тесла.

На стажировке BI 3 типа вопросов:
1) Статистика (Например мы хотим открыть новый дата центр AWS, как понять, где его открыть, какие данные нужны, и что с ними делать. Или, мы хотим поменять функцию поиска, как понять, что это улучшит поиск, а не ухудшит).

2) Теория БД (primary key, joins, SQL functions). Потом сам SQL, нужно исправить неправильный SQL.

3) Amazon Leadership Principals. Например, расскажи про ситуацию, когда ты взял инициативу в свои руки, и додела проект (Ownership).

Сначала я был строг. Но потом подумал, что студенты и так прошли тяжелый путь, чтобы попасть на собеседование, и я стал всех поддерживать и никого не запарывал. Если, кто-то не знает SQL или статистику, я просто накидываю ссылок на курсеру и прошу прислать мне подтверждение о прохождении.
источник
Инжиниринг Данных
Меня попросили ссылки скинуть, которые я скидывал студентам.

Если вы хотите работать с данными, то навык номер один это SQL. Поэтому, неважно, что вы будете делать, нужно знать SQL. Статистика это уже завивисит от задачи, я ее не знаю, а вот кто-то знает и успешно использует.

SQL:
Intro to SQL
Lean SQL
Solve SQL Challenges
Мой любимый, отечественный - sql-ex.ru Только там теперь жесть какая-то с рекламными баннерами.

Статистика:
Basic Statistics


А вот остальные курсы, которые будут полезны, практически все они бесплатные!
Аналитика:
Basic Data Processing and Visualization
Data Visualization and Communication with Tableau
Data-driven Decision Making with PWC
Data Analysis and Presentation Skills: the PwC Approach Specialization
Strategic Business Analytics Specialization
Business Analytics Specialization
Business Analytics Executive Overview
Excel to MySQL: Analytic Techniques for Business Specialization
Building High-Performing Teams
Doing Business in China Capstone

А по AWS много материалов у AWS.
Overview of AWS: AWS Cloud Practitioner Essentials (Second Edition) - 6hours
Data Analytics Fundamentals 3.5 hours
Amazon Redshift Tutorial (бесплатно)

Microsoft курсы на edx.
Analyzing and Visualizing Data with Power BI
Spark and Databricks

Google Cloud Platform:
Data Engineering, Big Data, and Machine Learning on GCP Specialization
Google Data Engineer
источник
2020 March 28
Инжиниринг Данных
Отличный пример как нужно презентовать экономическую целесообразность BI решения, The Total Economic
Impact Of Tableau BI or Analytics Solution
https://www.tableau.com/sites/default/files/whitepapers/the_tei_of_tableau_-_final.pdf
источник
Инжиниринг Данных
Сейчас все новости про COVID19. Все работают из дома, Северная Америка на карантине, практически все магазины закрыты. В России пока ещё все расскачивается, но если есть возможность, то лучше сократить перемещения, возможно вы не пострадаете, но можете заразить того, кто в группе риска. Свежая статья от NYTimes про Италию.
источник
2020 March 30
Инжиниринг Данных
У меня вопрос! Пока все дома сидят с детьми, можете посоветовать ресурсы для онлайн обучения? Матемика, русский, чтение Мне нужно 5 - 8 лет. Ресурсов много, но не понятно насколько хороший. Хотелось бы усадить детей, чтобы решал примеры и задачки. Накидайте в комментарии, заодно  и другим будет полезно.
источник
Инжиниринг Данных
Интересная мысль (не моя) - "Если мы не измеряем, то мы не контролируем" или как-то так.

Всвязи с COVID19 многие бизнесы встали в ступор, все их бюджеты, прогнозы, которые основаны на линейной регрессии и базовой статистики рухнули.  Если вы работаете с данными в своей компании, строите отчеты и тп, то первое, чем вы можете помочь своей компании, это добавить открытые данные по COVID19 к существующим метрикам.

Вот главный дата сет, все что вам нужно, это загрузить эти данные в ваше хранилище или BI и добавить корреляцию. Не факт, что это поможет, но это лучше, чем просто сидеть и ждать. Мы так сделали в Alexa.

Я использовал Matillion ETL, там есть коннектор к Google sheets. Можно попробовать Pentaho DI, Python, R. Есть так же Tableau Public дата сет.

Вот еще некоторые источники:
🎱https://coronavirus.jhu.edu/map.html

🎱New York Times’ US Data – https://github.com/nytimes/covid-19-data

🎱Our World in Data World Data https://ourworldindata.org/coronavirus-source-data
источник
2020 March 31
Инжиниринг Данных
Я написал пост про Covid19. Я решил внести свой маленький вклад, и единственное, что мне пришло на ум это сделать shared jobs для Matillion. Заодно посмотрим, как зайдет такой материал с точки зрения маркетинга. https://medium.com/rock-your-data/matillion-etl-covid-19-data-transformation-starter-kit-d9b986235c47
источник
Инжиниринг Данных
Пишут - хорошие книги
источник
Инжиниринг Данных
источник
Инжиниринг Данных
Есть 3 основный типа файла для big data:
💃AVRO
💃PARQUET
💃ORC

Я обычно сразу использую parquet и даже не заморачиваюсь. Но вы можете посмотреть, в чем разница https://blog.clairvoyantsoft.com/big-data-file-formats-3fb659903271
источник
Инжиниринг Данных
Прямо сейчас начался вебинар - Data Literacy: The New Essential Skill. Возможно узнать, что это такое и попрактиковать английский https://brainstation.io/event/online-event-data-literacy-march2020
источник
Инжиниринг Данных
источник
Инжиниринг Данных
Роли для работы с данными и их потребности.
источник
Инжиниринг Данных
источник
Инжиниринг Данных
Шаблон документа, чтобы вы могли донести идею до коллег, команды и не использовать power point
источник
2020 April 01
Инжиниринг Данных
Одна из крупных и модных компаний DataRobot начала сокращать персонал, я даже откликался к ним на вакансию AI Solution Architect, но так и ничего не слышал. Но в целом, если посмотреть список компаний, которые увольнают тысячи людей, то они явно что-то знают, что мы не знаем.  По Rock Your Data консалтинг, почти все лиды, которые были, сдулись и пропали. А вот Amazon пока держится, даже сток не сильно упал.
источник