Телеграмм чат группы rockyourdata страница 158

Size: a a a

Инжиниринг Данных

11276 membersпожаловаться на группу

2021 November 23

Инжиниринг Данных

Бесплатный курс на 10 часов по анализу данных в Python - How to Analyze Data with Python, Pandas & Numpy

freeCodeCamp.org

How to Analyze Data with Python, Pandas & Numpy - 10 Hour Course

Data Analysis is an in-demand field but it can be hard to get into as a beginner. We've just released a 10-hour beginner-friendly video course to teach people how to analyze data with Python, Pandas, and Numpy. This course offers a coding-first introduction to data analysis. Besides the video content,

источник

255319:21пожаловаться #1

Инжиниринг Данных

Термин Data Observability становится все популярней.

Data Observability, an organization’s ability to fully understand the health of the data in their system, eliminates data downtime by applying best practices of DevOps Observability to data pipelines. Like its DevOps counterpart, Data Observability uses automated monitoring, alerting, and triaging to identify and evaluate data quality and discoverability issues, leading to healthier pipelines, more productive teams, and happier customers. (Из этой статьи
What is Data Observability?)

В facebook прошлел Data Observability Learning Summit 2021

И совсем недавно увидел продукт Datafold, компания созданная нашими основателями. И недавно они получили раунд инвестиций в 20 млн. Насколько я понял, у них была цель выйти на российский рынок, так как их сотрудник спамил дата народ на хабре и предлагал писать статьи на русском за денюшку. А может быть у них были другие цели. С одной стороны это круто, что есть еще один новый продукт с русскими корнями, а с другой стороны, зная сколько там дата всяких продуктов(The 2021 Machine Learning, AI and Data (MAD) Landscape), понимаешь какая высокая конкуренция.

Medium

What is Data Observability?

Hint: it’s not just data for DevOps.

источник

262919:36пожаловаться #2

2021 November 24

Инжиниринг Данных

https://youtu.be/KgdWvtppH50

YouTube

Why You Should Become A Data Engineer And Not A Data Scientist - Picking The Right Data Career

There are a lot of data career choices.

You can become a data scientist, a data engineer or a data analyst to name a few.

But which one is right?

In this video I will talk about why you might want to become a data engineer instead of a data scientist.

If you enjoyed this video, check out some of my other top videos.

What I Wish I Knew Before I Became A Data Engineer
https://www.youtube.com/watch?v=FvCInKiLJVg

Data Engineering Project Ideas
https://youtu.be/LJkVvNWlO0g

If you want to help support the channel and you were going to sign up for Udemy or Datacamp anyways, then consider checking out the courses below.

Data Engineering Bootcamp - Datacamp

http://datacamp.pxf.io/0Jm43J

Data Warehousing Basics - Udemy
https://bit.ly/3wg94E2

If you'd like to read up on my updates about the data field, then you can sign up for our newsletter here.

https://seattledataguy.substack.com/

Or check out my blog
https://www.theseattledataguy.com/

Tags: Data engineering projects, Data engineer project ideas, data…

источник

188322:33пожаловаться #3

Инжиниринг Данных

25 Ноября в 7 вечера новый крутой вебинар! https://youtu.be/CAdkL9vM6Do

Не пропустите!

источник

177123:21пожаловаться #4

2021 November 25

Инжиниринг Данных

через 5 мин начинаем:
https://youtu.be/CAdkL9vM6Do

YouTube

ADX(KUSTO): INTERACTIVE BIG DATA ANALYTICS / GOR HAYRAPETYAN

📌 Описание:
Мы рассмотрим как устроен Кусто и где его можно применить. Поговорим о том к какой категории баз данный относиться Кусто и как он отличается от других решений в своей категории. Также за счет каких решений Кусто эффективнее и быстрее. Напишем несколько запросов на Kusto Query Language․

📌 Биография спикера:
Я работаю дата инженер хотя по образованию я биофизик. Сданными а работал еще до того как перешёл в IT 7 лет назад. Во время моего первого (и последнего post-doc) я очень увлекся Python и Linux, и решил продолжить в этом направлении, а через 2 года работы разработчиком начал работать Hadoop и с этого началась моя карьера дата инженера. В течение последних 5 лет я работал как в стартапах (Disqo, Krisp) так и в более известных компаниях (TeamViewer). А сейчас я в Microsoft (бывший Skype), так как мне было интересно как там в Big Tech.
🔗 Телеграм канал спикера https://t.me/data1984 про DE и прочее.

🔔 Подписывайтесь на канал "Datalearn" чтобы не пропустить остальные части и ставьте лайки!

📕…

источник

269318:53пожаловаться #5

2021 November 26

Инжиниринг Данных

люблю читать про онлайн обучение. https://vc.ru/marketing/324935-nas-prodolzhayut-obmanyvat-servisy-onlayn-obrazovaniya-na-chernuyu-pyatnicu-v-2021

vc.ru

Нас продолжают обманывать сервисы онлайн-образования на «Чёрную пятницу» в 2021? — Маркетинг на vc.ru

В 2020 я сделал обзор Чёрной пятницы в популярных EdTech проектах: Skillbox, GeekBrains, Нетология, HTML Academy, SkillFactory, Hexlet, Я.Практикум. Мне стало интересно, как изменилась стоимость курсов и профессий за год, а также какие скидки дают нам образовательные онлайн-сервисы в 2021 году.

источник

215819:50пожаловаться #6

Инжиниринг Данных

Использование Slow Change Dimension Type 1, 2 в dbt.

Medium

Modelling Type 1 + 2 Slowly Changing Dimensions with dbt

If you ever had the trouble of trying to model different types of Slowly Changing Dimensions on a single dimension with dbt, continue reading on. If not, check out these resources to get an idea on…

источник

201620:09пожаловаться #7

2021 November 27

Инжиниринг Данных

Теперь как пользователь dbt, обязательно послушаю доклады на их конференции https://coalesce.getdbt.com/

источник

289722:02пожаловаться #8

Инжиниринг Данных

Как я провожу собеседования на позицию дата инженера? Обычно в 3 этапа:

Этап 1: behavioral interview основаны на Amazon Leadership Principles
После Амазона, я стал использовать вопросы из behavioral interview. 3-4 вопроса, которые начинаются с фразы «Расскажи мне ситуацию, когда ты….». Такие вопросы очень хорошо помогают понять контекст, глубину и личностные качества кандидата. Чаще всего все тонут при использовании слова «МЫ» вместо «Я». То есть кандидат в команде, что-то делал, а сам не очень. Примеры вопросов:

‍⚓Tell me about the most complex problem you’ve ever worked on (Dive Deep)
‍⚓Tell me about a time when you took on something significant outside your area of responsibility, and why was that important? (Ownership)
⚓Tell me about a time when you were able to deliver an important project under a tight deadline. (Deliver Result)
⚓What’s the coolest thing you’ve learned on your own that you’ve then been able to apply in your job and perform your job further? (Learn and be Curious)

Этап 2: технический + концептуальная архитектура решения
Сначала я спрошу свои любимый вопросы:
⚓Чем отличается ETL и ELT?
⚓Чем отличается MPP и SMP?
⚓Чем отличается Data Warehouse и OLTP?
⚓Что такое Lake house?
⚓Какие методы для моделирования хранилища данных ты знаешь?
⚓Какие методы ты использовал для Data Quality в data pipelinese?
⚓Как ты будешь решать проблему производительности BI и/или ETL?

Далее можно сделать white boarding – то есть расшарить экран и порешать задачки на SQL. Python я не люблю спрашивать. Если мне нужен python, то скорей всего для Apache Spark. С Airflow я не работал. SQL для меня это язык №1 для работы с данными, все должны его знать на хорошем уровне.

И в конце можно поговорить про концептуальную архитектуру. Например, у нас есть такой-то бизнес, например облачный продукт. Бизнес-пользователи хотят знать базовые показатели/метрики. На входе есть несколько систем – Sales Force, Facebook, Google Analytics, OLTP (бэк енд). Как ты будешь строить аналитическое решение и какие инструменты будешь использовать.

Этап 3: домашнее задание
Я люблю давать полезные и интересные проекты. Например:

1. Запусти тестовый аккаунт Redshift/Big Query/Snowflake
2. Используй заданный data set (NY Taxi, GitHub или другие)
3. Построй ETL с помощью своего любимого инструмента, чтобы загрузить данные в хранилище данных и построить таблицу фактов
4. Подключи свой любимый BI инструмент и нарисуй дашборд

Такое задание позволяет оценить понимание end-to-end аналитическое решение и особенности знаний кандидата. Можно попросить использовать конкретный стек, и рассказать, как его скачать и установить.

PS По необходимости можно менять в сторону Spark, Streaming, BigData. Но как правило этого достаточно, чтобы понять насколько хороший специалист и насколько хороший у него кругозор.

Day One Careers Blog

Amazon Interview Questions (Leadership Principles) - Vetted (2021)

A comprehensive list of behavioural Amazon interview questions vetted by an ex-Amazon Hiring Manager and interviewer. Updated for 2021.

источник

305023:03пожаловаться #9

2021 November 28

Инжиниринг Данных

Хорошая статья про оконные функции от Databricks, рассказывают теорию и показывают примеры для SQL и PySpark.

Databricks

Introducing Window Functions in Spark SQL

In this blog post, we introduce the new window function feature that was added in Spark 1.4.

источник

256818:52пожаловаться #10

Инжиниринг Данных

Переслано от Евгений Воробьев...

Всем привет! Готов еще один перевод, посвященный Apache Spark, в котором кратко описаны основные составляющие части фреймворка. Поддержите пожалуйста лайками и голосами)

https://habr.com/ru/post/592067/

Хабр

Apache Spark, объяснение ключевых терминов

ПереводКак отмечено в статье Survey shows huge popularity spike for Apache Spark:«Apache Spark - это Тейлор Свифт программного обеспечения в мире больших данных. Технология с открытым исходным кодом...

источник

252619:11пожаловаться #11

2021 December 03

Инжиниринг Данных

Переслано от Ilya Koshi

@dimoobraznii мой перевод наконец прорвался на хабр https://habr.com/ru/post/593327/
Из шапки заставили удалить ссылку на даталерн, только внизу осталась

Хабр

От «data-driven» к «data-driving» в инжиниринге данных

Всем привет! Это мой дебют на хабре с переводом классной статьи по теме инжиниринга данных. Оригинал статьи:From Data Driven to Driving Data— The dysfunctions of Data EngineeringДля тех кто уже имеет...

источник

266320:44пожаловаться #12

2021 December 04

Инжиниринг Данных

ML-Engineering-Ebook-Final.pdf

(3.42 Мб)

#whitepaper про ML engineering от Databricks. В документе выдержки из книги Machine Learning Engineering in Action

источник

228206:57пожаловаться #13

Инжиниринг Данных

Tableau Evangelist (это такая роль в компании вендора, которая продвигает технологии и на своем примере показывает как это здорово использовать продукт) - Andy Cotgreave показал свои 4 любимые книги за 2021:

Atlas of the Invisible (James Cheshire and Oliver Uberti)

Living in Data (Jer Thorp)

How to Make the World Add Up (Tim Harford)

The Big Picture (Steve Wexler)

За последнюю книгу я не сомневаюсь, что она хорошая, Стив уже много раз был Tableau Zen Master и плохого не посоветует. Я его знаю лично, один раз он выступал для Amazon Tableau User Group, которую я вел, другой раз я был на его выступлении в Boston User Group и это было как в театре!

Источник https://www.linkedin.com/pulse/my-favourite-data-books-year-andy-cotgreave/

источник

231008:25пожаловаться #14

Инжиниринг Данных

Новый пятый митап для аналитиков от AvitoTech пройдёт уже 14 декабря.

Темы и спикеры 🔥:

👾 Неожиданные результаты в ожидаемых A/B-тестах — Евгений Чумаченко, Авито;
👾 Как устроена аналитика чат-ботов автоматизации обслуживания — Александр Конрад и Екатерина Петрова, Тинькофф;
👾 Антифрод на рынке такси. Определение мошеннических действий через анализ связности графа поездок— Даниил Казанцев, Ситимобил;
👾 Аналитика перформанса в Авито — Георгий Фандеев, Авито.

Регистрируйтесь по ссылке и до встречи онлайн: clc.to/neD4cA

PS пост поддержал приют для собак #реклама

источник

223112:01пожаловаться #15

Инжиниринг Данных

Переслано от Stanislav

Всем привет.
Наблюдая со стороны все больше внедрений DBT на просторах русскоязычного комьюнити в рамках развития @dbt_users решили провести митап и поделиться опытом :)
14 декабря в 19-00 в онлайне (с прискорбием :() ребята из Wheely, Space307 и NabuMinds расскажут:
- зачем нужен dbt
- как просто построить современный стек в облаках
- использовать как надежного помощника аналитикам и инженерам при стандартизации расчетных метрик
- как искать узкие места в графе выполнения :)
Слоты фиксированы по времени, можно подключаться на любой канал. Ссылка на ютуб придет как обычно перед началом митапа.
До встречи :)
https://space307.team/dbtmeetup

space307.team

dbt meetup

источник

131723:00пожаловаться #16

2021 December 05

Инжиниринг Данных

Destroy the idea that you have to be constantly working or grinding in order to be successful. Embrace the concept that rest, recovery & reflection are essential parts of the progress towards a successful happy life. (c)

источник

9904:06пожаловаться #17

Инжиниринг Данных

Новый релиз Delta Lake 1.1.0 https://github.com/delta-io/delta/releases/tag/v1.1.0

GitHub

Release Delta Lake 1.1.0 · delta-io/delta

We are excited to announce the release of Delta Lake 1.1.0 on Apache Spark 3.2. Similar to Apache Spark™, we have released Maven artifacts for both Scala 2.12 and Scala 2.13. The key features in th...