Телеграмм чат группы rockyourdata страница 80

Size: a a a

Инжиниринг Данных

6805 membersпожаловаться на группу

2020 September 14

Инжиниринг Данных

Основные темы затронуты в этой книге:

источник

217423:08пожаловаться #1

Инжиниринг Данных

Ах, откуда столько информации? Это principal engineer дает презентацию в нашем орге.

источник

197223:09пожаловаться #2

Инжиниринг Данных

Очень прикольная мысль, Первое решение, которое создается как правило MVP, прототип которые делаем минимум вещей.

Вторая версия решения, это самое ужасное, что можно сделать.

А вот третья версия решения, уже ничего.

источник

200123:12пожаловаться #3

Инжиниринг Данных

источник

220123:34пожаловаться #4

Инжиниринг Данных

Классную штуку я нашел:
What is a Data Engineering Immersion Day?

Data Engineering Immersion Day has hands-on lab and modules focus on ingestion, hydration, exploration, and consumption of the data lake in AWS.

Introduction
Lab: Clickstream Anomaly Detection
Lab: DMS with ingestion
Lab: Transforming data with Glue
Lab: Athena and QuickSight
Lab: AI ML using Sagemaker
Lab: Data Lake Automation

https://aws-dataengineering-day.workshop.aws/

источник

246323:38пожаловаться #5

2020 September 15

Инжиниринг Данных

Класс! Microsoft создаёт подводный датацентр.

Innovation Stories

Microsoft finds underwater datacenters are reliable, practical and use energy sustainably | Innovation Stories

Microsoft retrieved the Northern Isles underwater datacenter from the seafloor off Scotland's Orkney Islands. Project Natick is proving the concept of underwater datacenters is feasible as well as logistically, environmentally and economically practical.

источник

215208:59пожаловаться #6

Инжиниринг Данных

источник

219920:36пожаловаться #7

Инжиниринг Данных

В 2013 году я был в книжном на Арбате. Там был компьютер, где можно было посмотреть книги. При мне кто-то искал книгу. И мне стало интересно, что за книгу искали и я решил купить ее тоже. Тогда я мечтал жить у океана и работать в Амазоне, я думал это просто нереально. Может и правда мысли материализуются? Как вы думаете?

источник

211821:02пожаловаться #8

Инжиниринг Данных

Свежий отчет по сравнению облачных хранилищ от Fivetran (облачный ETL, главный конкурент Matillion по Snowflake, Synapse, Redshift, BigQuery).

Я думаю, что на сегодняшний день уже performance это не главное. Показывать у кого быстрей отработает запрос не актуально. Цена, безопасность, интеграция с облачными сервисами и надежность - это важнее.

Fivetran

2020 Data Warehouse Benchmark: Redshift, Snowflake, Presto and BigQuery | Blog | Fivetran

Fivetran performed a data warehouse benchmark comparing price & performance of Amazon Redshift, Snowflake, Presto, and Google BigQuery.

источник

207921:43пожаловаться #9

Инжиниринг Данных

источник

222022:34пожаловаться #10

2020 September 16

Инжиниринг Данных

Крутая визуализация в табло с использования parameter actions. График превращается, график превращается в... https://public.tableau.com/profile/tam.s.varga#!/vizhome/SchoolWorkforceGenderGap/SchoolWorkforceGenderGap

источник

201901:43пожаловаться #11

Инжиниринг Данных

Статья описывает 3 возможных сценария для Spark на AWS.
1) Запустить EMR (Hadoop) и включить в нем Spark. Я такое делал. EMR использует EC2 (виртуальные машины) для вычислений и Spark для логики. Данные можно все хранить на S3, Hadoop FS не используется.
2) Использовать Glue (это такой AWS ETL, который внутри имеет Spark, можно двигать данные и трансформировать. Минимум интерфейса). ДЛя него не нужны виртуальные машины, потому что это serverless (SaaS) решение.
3) Использовать контейнеры на AWS Fargate. Это я не пробовал.

На Азуре будет:
1) HDInsight+Spark или лучше использовать DataBricks
2) Azure Data Factory (но там уже нужно использовать HDInsight или Databricks в качестве вычислений.)
3) Контейнеры на Azure.

Также и на Google Cloud. Я не знаю названий сервисов.

Когда такие возможности появятся у яндекс облака и mail облака, тогда можно уже строить решения на отечественном облаке.

====
Как вы полняли, один из ключевых навыков, это понимать назначение инструмента. Аналитическое решение это как конструктор из блоков. Нужно представлять архитектуру и правильно выбирать компоненты. Именно поэтому на datalearn мы рисовали смешные архитектуры в модуле 1 и потом будем усложнять их. Очень важно понимать, какое решение, для какой ситуации. А как кодить на spark или писать SQL/Python уже можно в процессе работы подтянуть. Но вы должны понимать, когда и почему Spark, а когда это "по воробьям из пушки".

Мы рассмотрим эти варианты 1 и 2 на datalearn.

Medium

Running Apache Spark on AWS

By Mariusz Strzelecki

источник

204202:49пожаловаться #12

Инжиниринг Данных

Snowflake вышел на биржу и стал публичной компаний. Это просто "пушка" а не хранилище данных. Захватили весь рынок Северной Америке это точно и в Европе тоже. Прикупить их акцией если сможете.

Кстати Rock your data стала первым партнёром Snowflake в Канаде ещё в 2017. Я написал первую книгу про snowflake с Apress и стал первым Super Data Hero в Канаде (это топ награда за участие в комьюнити). Ещё в 2018 году я делал воркшоп на матемаркетинге про Snowflake (никто не слышал про них). А теперь они вон как высоко поднялись и реально приносят пользу. К сожалению все свои достижения со Snowflake я не смог монетизировать или масштабировать. Книжки пылятся на полке, а snowflake внедряют в Канаде большие компании с 10+ летней историей на рынке. Это значит, что я не умею или не хочу продавать🙄

источник

204304:13пожаловаться #13

Инжиниринг Данных

Я уже говорил, что data engineer и data scientist это лучшие друзья, у каждого есть свои сильные стороны и вместе они могут решить задачу. В Амазон есть специальный сервис, где можно писать благодарности, за 4,5 год это моя первая, за созданные Redshift кластер, который я подключил ко всем сервисам и помог ускорить процесс создания моделей для customer perception.

Для SDE (разработчики ситуация наоборот, обычно спорим😤)

Что касается измерения perception, то это просто - опросы. А вот, чтобы создать методологию, выбрать вопросы, семплирование клиентов и потом сделать проекцию семпла на всех клиентов амазон, это уже сложно. Есть позиция Economist Scientist - это такой phd, почти профессор, кто знает толк в определенной области, он разрабатывает методологию, и data scientist уже делает модель, больше как рабочие руки. Ну а data engineer вообще черно рабочий, мне нужно предоставить данные по clickstream, server side и тп, все автоматизировать и настроить, для Северной Америки и Европы, не забыть про privacy.

источник

217104:33пожаловаться #14

Инжиниринг Данных

Роман Понамарев полностью взял контроль над вебинарами🚀 Вот ловите следующий и не пропустите:

Друзья, всем привет!
Пока Дмитрий готовит порцию новых видео, я вас помучаю вебинарами.
Дата вебинара: 18 сентября в 20:00 по мск
Наш следующий гость - это Марина Крюкова, она BI инженер в Amazon!

О спикере:
Марина Крюкова, работает Business intelligence engineer в Amazon с 2016 года. С июня 2020 года я занимается аналитикой для команды Prime video (международная экспансия) и отвечает за регион Бразилия. До этого 1,5 года работала в ритейле в департаменте Сonsumer electronics. Ее образование в сфере управления персоналом, до переезда в США жила в Москве и несколько лет работала рекрутером в компаниях LG Electronics и Xerox.
Тема вебинара - Изменение карьеры и работа в сфере аналитики в США

Содержание:
- Поиск работы в США
- Смена направления из Рекрутмента в Data
- Работа на позициях Business analyst/Business intelligence engineer

Ссылка на вебинар:
https://youtu.be/Aq-NT1Iw0ik
Несмотря на то, что вечер пятницы, как всегда будем стремиться давать вам максимальную пользу.
Как всегда стараемся для вас своими пушечными обучающими материалами.
https://youtu.be/Aq-NT1Iw0ik
Несмотря на то, что вечер пятницы, как всегда будем стремиться давать вам максимальную пользу.
Как всегда стараемся для вас своими пушечными обучающими материалами.
Не забудьте подписаться на канал и заклацать колокольчик!🙏

YouTube

ИЗМЕНЕНИЕ КАРЬЕРЫ И РАБОТА В СФЕРЕ АНАЛИТИКИ В США / МАРИНА КРЮКОВА

🔔 Наш следующий гость - это Марина Крюкова, она BI инженер в Amazon!О спикере:Марина Крюкова, работает Business intelligence engineer в Amazon с 2016 года. ...

источник

222621:03пожаловаться #15

Инжиниринг Данных

Сегодня я постараюсь купить акций SNOW. Никогда раньше не покупал, вы покупаете акции?

источник

214623:40пожаловаться #16

2020 September 17

Инжиниринг Данных

источник

234009:06пожаловаться #17

Инжиниринг Данных

928891784_cbf98405-8335-4a57-99cc-d079577daf88_1920x1080.mp4

(297.19 Кб)

источник

223309:11пожаловаться #18

Инжиниринг Данных

Как работают A/B тесты? А вот как. Кстати какой самый любимы ресурс по A/B тестам, где просто и понятно про них рассказано и на примере можно посмотреть?

Medium

How do A/B tests work?

A look inside one of the most powerful tools of the tech trade

источник

246909:13пожаловаться #19

Инжиниринг Данных

Вы можете узнать больше почему Snowflake так крут. 1 октября канадский офис будет делать deep dive, где можно узнать все особенности решения.

Snowflake

Snowflake Masterclass - Technical Deep-Dive | Snowflake

Join the local Canadian Sales Engineering expert team for an invitation-only 4-hour live webinar to learn how to transform your legacy data architecture

источник

251417:38пожаловаться #20