Size: a a a

Инжиниринг Данных

2021 September 02
Инжиниринг Данных
Я погугли, что за зверь такой Ментат - A Mentat is a fictional profession or discipline in Frank Herbert's Dune universe. Mentats are humans trained to mimic computers: human minds developed to staggering heights of cognitive and analytical ability.
источник
Инжиниринг Данных
источник
Инжиниринг Данных
Tableau (SalesForce купила Lintao). Я знаю Nicolas, так как он согласился выступать на моей Amazon Tableau User Group в 2018году. Он сделал хорошую презентацию про Dashboard best practices и рассказал про свой продукт - Lintao - это был набор шаблонов Табло для индустрий, с метриками и графикими. То есть нам просто надо подключить данные, и почти готовый дашборд. Я даже брал его шаблоны и вставлял в Proposal Rock Your Data. Кто бы мог подумать, что так у него все круто сложится.

В целом все community это очень круто. Всегда помогает расширять кругозор, знакомиться с новыми людьми, и нести пользу людям. Не знаю, почему так мало желающих выступать на datalearn?🙄Это же крутая возможность завявить индустрии о себе и получить опыт.

Кстати, сегодня провел первый Xbox DE Talk, на котором Zenimax (те кто делают Doom и Fallout) рассказывали про их опыт с Databricks и Spark. Из всех студий Xbox было 3 дата инженера + 10 инженеров Zenimax.😣 Пока слабый обмен опытом, это не Амазон с 4000+ человек.
источник
Инжиниринг Данных
The Evolving Role of the Data Engineer Change and Continuity
in Data Practices

What’s a data engineer?
And how to be (or hire) a really good one
By some estimates, data engineering comprises 80% to 90% of the work organizations do with data. But the role of data engineer, and even the term itself, is pretty new and evolving rapidly. If you are (or want to be) a data engineer—or you’re responsible for building or managing data teams—this report will clearly explain the role and the skills and best practices you need to be a successful data engineer.

And the best part? It’s free, courtesy of O’Reilly.
What’s a data engineer?
And how to be (or hire) a really good one
By some estimates, data engineering comprises 80% to 90% of the work organizations do with data. But the role of data engineer, and even the term itself, is pretty new and evolving rapidly. If you are (or want to be) a data engineer—or you’re responsible for building or managing data teams—this report will clearly explain the role and the skills and best practices you need to be a successful data engineer.

And the best part? It’s free, courtesy of O’Reilly.
источник
Инжиниринг Данных
Сегодня вечером собираемся с Димой Аношиным, Анастасией Котовой и Артуром Высоцким поболтать про реалии современного BI: обсудим инструменты и тренды. Митап пройдет в рамках технических дискуссий от проекта Техпора. Не знаю, что из этого получится, но думаю будет интересно услышать разные точки зрения. Если хотите задать вопросы — приходите в 20:30 в трансляцию на Youtube, там же останется и запись.

Описание и программа митапа.
#выстуление
источник
Инжиниринг Данных
Напоминаю про сегодняшний вебинар 🙂
Буду рад рассказать полезные штуки и поотвечать на вопросы онлайн!

Бонусом для пришедших будет инсайдерская информация по крутой образовательно-практической программе (в виде стажировки) в крупной российской компании 🙂
источник
Инжиниринг Данных
YouTube
Как подготовиться в первым собесам в DS и найти вакансии / Роман Васильев
Как подготовиться в первым собесам в DS и найти вакансии?
Вебинар проведёт Васильев Роман, Senior Data Scientist в компании Магнит. Роман когда-то руководил наймом и развитием стажёров DS-ов в российской телеком-компании, а сейчас развивает уже полноценную команду в одной из крупнейших ритейл-компаний РФ.

Вы услышите ответы на вопросы:
1. Что нужно изучить чтобы идти на первые собеседования?
2. Где искать вакансии нвоичкам в DS?
3. Как грамотно подготовить резюме?
4. Как выстроить подготовку, что повторить?
5. Чего ждать на собеседовании?

🔗 Канал спикера в ТГ: https://t.me/start_ds

-----------------------------------------------------------------------------------------------------------------

🔔 Подписывайтесь на канал "Datalearn" чтобы не пропустить новые видео и ставьте лайки!
📕 Записывайтесь и проходите курс Инженера Данных.
⚠️ КУРС БЕСПЛАТНЫЙ!
🔗 Записаться вы можете на нашем портале https://datalearn.ru/

👍🏻 Запись на курс даст вам возможность не только просматривать видео, но и получить доступ к закрытым…
источник
2021 September 03
Инжиниринг Данных
Вчера был очень насыщенный день по ивентам, сразу 2.
1. Как подготовиться в первым собесам в DS и найти вакансии? - идеальная информация для начинающего data scientist, полный FAQ по всем вопросам, очень качественно и по делу. Для парктикующих DS может быть полезным тоже.
2. Современный BI - для начинающих BI разработчиков идеально. Для практикующих можно на 2х и останавливаться на интересные моменты. (им не хватает крутых обложек, как Рома рисует для datalearn😜)
источник
Инжиниринг Данных
Приготовил презентация по редшифту, опять получился большей контент. Зато будет все и сразу по Редшифту и на русском. Из Википедии узнал что Redshift значит уход (shift) от Oracle (он же красный, red).

А я раньше думал, что это про космос. А так всё верно, сам делал проект rolling stone - миграция всего оракла DW на Redshift.
источник
2021 September 04
Инжиниринг Данных
Свежая статья из 2х частей про ELT инструмент DBT (кто не знает, это тулза, чтобы делать трансформации на SQL и запускать по очереди трансформации и отслеживать  зависимости). И он есть open source.  

PS Если Сергею @erfolg5862 хватит время, он добавит лабу про ELT на DBT к другим лабам редшифт.

PS посмотрел сезон Локи с детьми, как-то не проникся☺️
источник
Инжиниринг Данных
Нужна подсказка зала. Как элегантней всего исользовать Window Function, чтобы получить резульятат как в зеленой колонке.

То есть, у меня есть 2 события action и move. Только у move есть координаты. А action, который следует за move (должен наследовать координаты с последнего move, то есть где находился игрок).  Может быть сразу много actions вподряд. В иделе я сделаю на PySpark c withColumn, но можно и с SparkSQL или даже SQL начать.

Я использовал пока lag function и смотрел в прошлую строчку для action и брал значения. Но когда у меня много actions вподряд - это не работает. Можно потом еще чего-нибудь нагородить, чтобы закрыть нули, но межт есть более элегантное решение?  

А кейс очень простой и популярны в game: нанести точки на карту, чтобы смотреть поведение игроков на карте - где погибают, где блуждают и тп, чтобы дизайнеры могли улучшить игру.
источник
Инжиниринг Данных
Хей-хей, доброе утро, ребята! Надеюсь вы вчера перевернули календарь 🗓 и достаточно нагляделись на костры рябин🔥. Го слушать свежий эпизод подкаста Data Coffee!

У нас в гостях был Паша Финкельштейн из JB, поговорили о Spark, ноутбуках (и их проблемах), и немножко затронули другие data-инструменты.

#datacoffee #data #podcast #данные #подкаст

https://anchor.fm/data-coffee/episodes/15--Spark--Pandas--Scala--Zeppelin-e16r13v
Anchor
15. Spark, Pandas, Scala и Zeppelin (гостевой) by Data Coffee • A podcast on Anchor
Тема выпуска “Spark, Pandas, Scala и Zeppelin”
В гостях у подкаста `Data Coffee` developer advocate из JetBrains - Паша Финкельштейн (Twitter, LinkedIn, Telegram)
Подкаст `Data Coffee` — информационный партнёр конференции SmartData 2021. SmartData — это большая техническая конференция по Data Engineering. Десятки докладов, воркшопов, Q&A-сессий — первые доклады и имена спикеров уже появляются на сайте! Промокод на 2000 рублей: datacoffe2021JRGpc

Shownotes:
00:42 Чем занимается Developer Advocate
02:47 Итальянская обжарка убивает кофе
04:49 Что такое Spark
14:58 Много языков — это хорошо
19:06 Чем хорош Spark
21:01 Чем хороша Scala
24:10 Учить PySpark или сразу Scala?
27:23 Знакомство со Spark через Zeppelin
35:30 Что хуже — Jupyter или Zeppelin
43:08 Истории из проектов гостя
50:08 Big Data Tools от JetBrains

Обложка - https://scala-lang.org
Сайт: https://datacoffee.site, канал в Telegram: https://t.me/datacoffee, профиль в Twitter: https://twitter.com/_DataCoffee_
Чат подкаста, где можно предложить темы для…
источник
Инжиниринг Данных
Firebolt продолжает хайпить - как сказал SD "thank you for being me and not quite", с намеком, что можно самого себя похвалить, если выбрали Firebolt в качестве платформы.
источник
Инжиниринг Данных
🔉Внимание-внимание! Random Data Stream is Live

Я давно хотел затащить Егора Ларина (известного многим по чату Табло) к себе в подкаст. Мы долго обсуждали с ним как бы сделать это интересным и полезным, а не просто обычные поболтушки. Так родилась идея сделать что-то типа стрима с разработкой дашборда. Егор загорелся этой идей, но мы всё что-то тянули с ней. А вчера поиграли вместе онлайн в плойку и решили, что надо пробовать и не откладывать.

Итого сегодня в 20:00 по МСК стартуем стрим — будем делать рандомный дашборд или что получится, общаться и слушать музыку. Что из этого получиться 🤷‍♂️. Безумие и отвага! 🤘
#cтрим
источник
Инжиниринг Данных
⚠️⚠️⚠️На DataLearn Мы решили дать жару и на следующей недели будет 3 вебинара⚠️⚠️⚠️

🔥🔥🔥 1) RoadMap нейронных сетей
(7 сентября 2021 в 20:00 по мск)

📕Описание: Эмиль Богомолов инженер-исследователь научной группы Сколтеха, опытный разработчик машинного обучения. Работа Эмиля связана с компьютерным зрением и он является автором статей на международных конференциях, таких как WACV и CVPR.
В этом вебинаре базируясь на своём опыте расскажет о том, где применяются нейронные сети сегодня и как аналитику данных начать их изучение. Цель вебинара создать roadmap для интересующихся темой.
В конце лекции будет практика, на которой разберем на примере, как обучать нейронную сеть.

🔗 Ссылка: https://youtu.be/cq6dUisDeUU

🔥🔥🔥 2) DataVault / Anchor Modeling
(8 сентября 2021 в 20:00 по мск)
Спикер: Николай Голов

📕Описание: Николай у нас выступал с вебинаром про Snowflake, а теперь расскажет про Data Vault
Кто смотрел курс на Datalearn, тот мог заметить, что мы касались этой темы но не раскрыли ее

🔗Ссылка: https://youtu.be/-ZgzpQXsxi0

🔥🔥🔥 3) Angry Data Scientist - изучаем машинное обучение!
(9 сентября 2021 в 20:00 по мск)
Спикер: Роман Зыков.

📕Описание:
Достала реклама курсов, обещающих светлое будущее и полный кошелек. Давайте поговорим серьезно о изучении машинного обучения, чтобы выйти из хобби в реальную работу, которое приносит настоящую пользу.

Кто помнит Роман уже выступал у нас с вебинаром про data science и он также явлейтся автором бестселлера "Роман с DS", а теперь решил вести у нас рубрику "Злой Датасаинтист". Будет целая серия вебинаров
но как признается сам Роман, посмотрит на сколько его хватит.

🔗 Ссылка: https://youtu.be/DmqGfdQWP94

⚠️Мой коментарий такой: не планируйте на следующую неделю вообще никакие дела, а приходите и впитывайте информацию.
Уникальный контент от очень сильных людей в индустрии.

🔔 Да и подпишитесь на ютуб, чтобы не пропустить, если у вас горит красная кнопка "подписаться" на нашем канале это очень плохо, она должна быть серой :)
И про колоколчик не забываем :) 🔔
источник
2021 September 05
Инжиниринг Данных
Мы начнем наше погружение в современный мир аналитических хранилищ данных с Amazon Redshift. Этот продукт появился в 2012 году и породил целую индустрию облачных продуктов и решений. Сам по себе Redshift прост и удобен, и если вы в облаке AWS, то скорей всего вы будете использовать Amazon Redshift. Я использовал его много раз на различных проектах в Амазоне и за пределами, и он никогда не подводил. С развитием другой облачной DW, в последние годы, Redshift получил много новых фич, такие как ML, разделение storage&compute, и многое другое.

https://youtu.be/K0TOh-Pl3q0

Из видео вы узнаете:
📌   В чем заключается роль Инженера Данных
📌   В чем заключается роль BI инженера
📌   История Amazon Redshift
📌   S curve в технологическом прогрессе
📌   Решение по аналитики мобильного приложения на Amazon Redshift
📌   Решения миграции с Oracle DW на Amazon Redshift в Амазоне
📌   Дизайн таблиц и оптимизация производительности в Amazon Redshift
📌   Способы загрузки данных в Amazon Redshift (COPY, Bulk Insert, Row Insert)
📌   Работа с ETL или ELT для Amazon Redshift
📌   Утилиты для адмиинстрирования и мониторинга Amazon Redshift
📌   Встроенный ML для Amazon Redshift
📌   Про главный недостаток Amazon Redshift - колличество одновременных сессий
📌   Про Хранилище данных Амазон Алекса и трудности масштабирования
📌   Несколько примеров архитектуры из индустрии

На лабораторной работе вам нужно будет
📌   Создать свой кластер Amazon Redshift
📌   Настроить сетевой доступ к нему и подключиться SQL Client - DBeaver
📌   Сгенерировать данные утилитой TPC, той самой, которую используют для benchmarking все вендоры баз данных
📌   Загрузить данные с использование COPY и манифеста
📌   Оптимизировать таблицы и запросы с использование функционала Redshift - Distribution, Sort, Compression и Encoding

Так же, вы легко можете запустить другую виртуальную мащину и установить на нее Tableau Server и/или ETL решение. Или вы можете подключить свои решения с локальной машины. Вы можете загрузить данные superstore и построить модель данных, как было в модуле 4. Возможности безграничны, все в ваших руках, и главное ничего нового!

PS Redshift spectrum, пока пропустил специально, чтобы не усложнять.

Ссылки и дополнительные материалы к лекции:
- Amazon Redshift Paper
- Статья про S кривую и начало развития индустрии - The Modern Data Stack: Past, Present, and Future
- Статья 2012 года! - Amazon Redshift: новое хранилище данных на петабайты
- Мое выступление про 5 лет в Амазон
- Мое выступление 2018 года -  Роль BI-систем и DWH. Архитектура и кейсы
- Amazon Redshift Admin утилиты
-Мой пост про новое поколение Redshift - Meet a new generation of Redshift Data Platform — RA3
- AWS Online Tech Talks - Getting Started with Amazon Redshift - AWS Online Tech Talks
- AWS Redshift Architecture: Clusters & Nodes & Data Apps, oh my
- Гид по параллельному масштабированию Amazon Redshift и результаты тестирования
- Аналитический движок Amazon Redshift + преимущества Облака
- Мое выступление в КРОК - Pizza as a service: как Amazon на Redshift мигрировал
YouTube
DATALEARN | DE - 101 | МОДУЛЬ 6-3 ЗНАКОМСТВО С AMAZON REDSHIFT
Мы начнем наше погружение в современный мир аналитических хранилищ данных с Amazon Redshift. Этот продует появился в 2012 году и породил целую индустрию облачных продуктов и решений. Сам по себе Redshift прост и удобен, и если вы в облаке AWS, то скорей всего вы будете использовать Amazon Redshift. Я использовал его много раз на различных проектав в Амазоне и за пределами, и он никогда не подводил. С развитием другой облачной DW, в последние годы, Redshift получил много новых фич, такие как ML, разделение storage&compute, и многое другое.

Из видео вы узнаете:
📌   В чем заключается роль Инженера Данных
📌   В чем заключается роль BI инженера
📌   История Amazon Redshift
📌   S curve в технологическом прогрессе
📌   Решение по аналитики мобильного приложения на Amazon Redshift
📌   Решения миграции с Oracle DW на Amazon Redshift в Амазоне
📌   Дизайн таблиц и оптимизация производительности в Amazon Redshift
📌   Способы загрузки данных в Amazon Redshift (COPY, Bulk Insert, Row Insert)
📌   Работа с ETL или ELT для Amazon…
источник
2021 September 06
Инжиниринг Данных
источник
Инжиниринг Данных
источник
Инжиниринг Данных
Про сквозную аналитику и модели атрибуции я слышал много и часто, особенно от российских компаний. Решение от Databricks - Solution Accelerator: Multi-touch Attribution
источник
Инжиниринг Данных
Бесплатный тренинг по введению в AWS https://www.linkedin.com/events/awscloudpractitioneressentialsd6833148900984061952/
источник