Size: a a a

Инжиниринг Данных

2020 May 23
Инжиниринг Данных
Огого - 20 мая 10 лет BigQuery! https://www.youtube.com/watch?v=O4_q2fQ1sJw&feature=youtu.be
источник
2020 May 24
Инжиниринг Данных
Для Северной Америке главный интерес сейчас вокруг миграции DW (не важно откуда и куда, но главное все мигрировать и модернизировать), обычно это будет одна из 4х платформ Redshift, Azure Synapse, Big Query, Snowflake. (Или это просто мой feed и мой bias)
источник
Инжиниринг Данных
источник
Инжиниринг Данных
Проблемы с данными
источник
Инжиниринг Данных
Из комментариев:

Dmitry Pimkin
13:56
По алгоритмам и структурам данных есть два очень крутых курса на русском:
https://stepik.org/course/1547/syllabus
https://stepik.org/course/217/syllabus
Они даже переведены на английский и достаточно популярны на Coursera: https://www.coursera.org/specializations/data-structures-algorithms
источник
Инжиниринг Данных
Знакомый подписчик рассказывает от том, как собрать governance as a code на основе Open Policy Agent https://ritfest.ru/2020/abstracts/6857 . Есть идеи как использовать данный продукт в хранилищах данных?
ritfest.ru
Александр Токарев на РИТ++ 2020
При разработке крупных программных продуктов, даже применяя agile-подход, надо обеспечить соблюдение архитектурных принципов как в части конфигураций инфраструктуры, так и в части программного кода. Оптимальным способом решения данной задачи является подход governance as a code.При данном подходе правила проверки каждого артефакта, будь то конфигурация k8s, список библиотек или даже описание сценария CI/CD, описаны специальным кодом проверки правил, имеют свой жизненный цикл, подвержены тестированию и ничем не отличаются от обычного программного продукта.Мы расскажем, как и что можно проверять в процессе разработки программного обеспечения, как данный подход позволяет разрабатывать более безопасные и качественные приложения и почему было решено не использовать такие очевидные решения как SonarCube, а разработать собственное решение на базе Open Policy Agent без дополнительных пакетов над ним.Вместе мы обсудим, когда же выбрать admission controller, когда использовать "чистый" Open Policy Agent, а когда всё же…
источник
2020 May 25
Инжиниринг Данных
источник
Инжиниринг Данных
Обзор вакансий data engineer, аналитик, bi разработчик на hh, indeed, amazon. На что я обращаю внимание, и заодно можно разглядеть 2 типа инженера.https://www.youtube.com/watch?v=A18WOwkInoQ (подписывайтесь!🤗)
источник
Инжиниринг Данных
А вот про архитектуру аналитического решения https://youtu.be/_M8yxr2Inyo
источник
2020 May 26
Инжиниринг Данных
источник
Инжиниринг Данных
С сентября в University of Victoria я буду преподавать Cloud Computing для студентов MBA и для курсов повышения квалификации. Скорей всего это будет AWS Educate + Azure. Заодно можно будет и на русском сделать этот курс для data learn
источник
Инжиниринг Данных
Data Learn начинался как супер ресурс для Data Engineering. Но программа получилась такая, что она пойдет даже тем, кто вообще без опыта (и мне даже так легче, последовательно). Реальный DE начнется в модуле 5-6. Но зато всем будет понятно, что это.

Если есть простые вещи, просто пропустите и мы дойдем до вещей по сложней. Зато, возможно ваши знакомые кто, слышал про ИТ и думает, что это только программирование, computer science и Machine Learning, смогут отрыть для себя новый мир, где нет высоких входных требований, и от простого идти к сложному.

В общем небольшой обзор Excel. Это такой опциональный вариант, для аудитории, кто совсем без опыта. Уверен много классных ресурсов по Excel (скиньте в комменты ссылки).

Один из учеников - Павел Новичков создал дашборд для примера и пишет пошаговую инструкцию, как можно сделать такой же.
источник
Инжиниринг Данных
Учите Python? Попался классный ресурc Learn Python on AWS Workshop
источник
2020 May 27
Инжиниринг Данных
источник
2020 May 28
Инжиниринг Данных
источник
Инжиниринг Данных
Пообщался с командой, которая будет строить центральное Озеро Данных для Amazon Human Resources. Первое требование - coding для Data Engineer.  То есть нужно знать SQL и Python. Про R вообще не слышно, как будто нишевой продукт.
источник
Инжиниринг Данных
источник
Инжиниринг Данных
Вот некоторые из реальных business cases применения Machine Learning, которые могут применяться к компаниях:
1. Ranking (ранжирование) - на сайте Amazon вы вводите ключевое слов и получаете список продуктов. Задача Amazon показать наиболее релевантный продукт клиенту.

2. Recommendation (рекомендации) - показать клиенту то, что ему нужно, желательно только один продукт.

3. Classification (Классификация) - создание категорий и подкатегорий продуктов.

4. Regression (Регрессия) - используется для численных значений, например прогноз продаж.

5. Clustering (Кластеризация) - группировка клиентов по схожим признакам, например для рассылки email с рекламой.

6. Anomaly Detection (Предсказание сбоев) - Можно использовать серверные логи в дата центре, чтобы предсказать следующий отказ.

7. Natural Language Understanding - Alexa трансформирует звук в текст, и извлекает семантику и выполняет конкретное действие.

8. Computer Vision (компьютерное зрение) - распознавание изображений, например по фотографии можно определить категорию продукта.

Напишите в коментах еще примеры
источник
2020 May 29
Инжиниринг Данных
источник
Инжиниринг Данных
Парадо́кс дней рожде́ния. В группе, состоящей из 23 или более человек, вероятность совпадения дней рождения (число и месяц) хотя бы у двух людей превышает 50 %. Например, если в классе 23 ученика или более, то более вероятно то, что у какой-то пары одноклассников дни рождения придутся на один день, чем то, что у каждого будет свой неповторимый день рождения
источник