Телеграмм чат группы rockyourdata страница 43

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Инжиниринг Данных

6805 membersпожаловаться на группу

1
«
…
‹
38
39
40
41
42
43
44
›
…
»

2019 December 21

Инжиниринг Данных

Это весело, хорошие вопросы от McKinsey для собеседования. Меня в 2010 году на собеседование в KPMG спрашивали, сколько вагонов метро в московском метрополитене и сколько беременных женщин в метро ездит. Кстати Амазон такие вопросы никогда не задаёт.

McKinsey & Company Interview Questions Revised for 2020

If McKinsey were to hire you, and then you were to become a leading Democratic Presidential candidate, would you tell the press about a hypothetical project in Saudi Arabia?

источник

114201:10пожаловаться #1

Инжиниринг Данных

http://www.datasciencefree.com/cheatsheets.html

источник

127507:19пожаловаться #2

2019 December 22

Инжиниринг Данных

Удовольствие за 20 баксов 😝 🚀 https://www.youtube.com/watch?v=-o1CKbY9SdE

Rock Your Data Intro

Rock Your Data is a consulting and technology firm that delivers secure and scalable cloud analytics solutions in North America. We help organizations to mak...

источник

103105:41пожаловаться #3

Инжиниринг Данных

Screenshot_20191221-204743.png

Про Data Engineers и Data Strategy. Хотя если по простому, то имеется ввиду, что нужно сначала создать data foundation, то есть хранилище данных с BI и ETL. Раньше не было data Engineer, был ETL и DWH разработчик, и data mining специалист (data science).

источник

116707:47пожаловаться #4

Инжиниринг Данных

Apache Spark.pdf

Learning Spark with Python - ebook

источник

125709:28пожаловаться #5

Инжиниринг Данных

Если интересно про Амазон, то вот мое недавнее выступление в Mail ru https://www.youtube.com/watch?v=qhiZaQl_kbA

Как технологии помогают Amazon быть самой клиентоориентированной компанией на Земле?

Дмитрий Аношин, Data Engineer, Amazon Alexa, Boston поделился принципами работы одной из самых успешных компаний в мире.

источник

133521:31пожаловаться #6

2019 December 24

Инжиниринг Данных

В статье автор сравнивает ETL и ELT. В канале я уже много раз ссылался на эти абреавиатуры. Согласно википедии, ETL уже используется с 1970х. Главное отличие ETL от ELT, что нам нужны вычислительные мощности (computing) чтобы, читать данные и трансформировать, то есть мы все данные пропускаем через приложение ETL. Поэтому это дорого (нужно сервер и нужно его обслуживать), во-вторых это может быть узким местом во времени обработки. Самые популярные решения это Informatica Power Center, MS SSIS, SAP BODI и другие аналоги от IBM, Oracle, SAS.

В противовес, есть концепт ELT, когда мы используем вычислительные мощности аналитического хранилища данных (Teradata, Exadata, Netezza, Redshift, Snowflake and so on). По сути все трансформации описаны с помощью SQL, а сам ELT иснтрумент оркестрируют, в какой очереди запускать трансформации и какие зависимости. Как результат, дешевле, быстрее и более гибкий.

В конце концов, не важно, что вы используете, лишь бы работало хорошо, обеспечивало SLA, проверяло качество загруженных данных и сообщало о поломках.

В Alexa я использую Matillion ETL для всех бизнес трансформаций и метрик. Наши product managers очень довольны, так как сами могу делать трансформации. Athena для SQL интерфейса в озеров данных на S3. Так же частично Amazon Glue для сбора метаданных озера данных. Из интересного, хотел бы использовать Apache Airflow, но нет времени с ним ковыряться.

Так же работаю иногна со Spark, когда много данных и нужно Big Data Computing. Причем трансформации описываю на SQL. Данные в озере данных всегда в Parquet формате и обязательно партиционированы. С новой фичей Redshift - UNLOAD to Parquet стало легче выгружать данные из Redshift в озеро данных.

В в Alexa очень итересно с точки зрения данных, в качестве источника дынных для меня это Redshift 128 нод (максимальный размер) и озеро данных, то есть миллиарды строк, все это дело надо соединить и посчитать метрики качества на уровне событий и сохранить результат в своем кластере Redshift. А часть данных нады выгрузить в свое озеро данных для front end сервисов. Главная цель, помочь внутренним бизнес подразделениям выявлять проблемы в поведении Alexa и качества моделей.

PS хотел про ETL/ELT написать, а получась гораздо больше, теперь я точно могу сказать, я работал с большими данными, и они растут по экспоненте.

Datasciencecentral

ETL vs ELT: Considering the Advancement of Data Warehouses

ETL stands for Extract, Transform, Load. It has been a traditional way to manage analytics pipelines for decades. With the advent of modern cloud-based data wa…

источник

110101:58пожаловаться #7

Инжиниринг Данных

Последние новости про Amazon, хотя на фотке Маск)) Я был на презентации этого проекта, и даже подумал, может им нужен Data Engineer? С точки зрения карьеры в корпорации, чтобы вырасти, нужно попасть в начале, то есть например с Alexa, если в нее попасть лет 5 назад, шансы на рост есть. Это как стартап, либо он рванет и все вырастут вместе с ним, либо будешь маленьким винтиком в большой машине. Вообще тема с аналитикой спутников, солнечных батарей и ветряных мельниц очень перспективная.

Business Insider

Amazon wants to skip a regulatory line to launch 3,236 high-speed internet satellites, but SpaceX is crying foul

Amazon missed a regulatory deadline 3 years ago for permission to launch internet-beaming satellites. Now the tech giant is asking the FCC for a pass.

источник

103402:38пожаловаться #8

Инжиниринг Данных

"Data without analysis is a wasted asset. Analytics without action is wasted effort." (c)

источник

105009:10пожаловаться #9

Инжиниринг Данных

AWSOME days - онлайн конференция от AWS, где можно узнать про AWS и облачные вычисления, такой entry level.

Amazon Web Services, Inc.

AWSome Day Online Conference

источник

100609:42пожаловаться #10

Инжиниринг Данных

баян наверное, но мне нравиться карлсон

источник

178010:00пожаловаться #11

Инжиниринг Данных

Попалась вакансия Junior Data Engineer в Москве, в компанию Welltory и добавили 3 часа назад, хороший старт. https://vc.ru/s/welltory/98550-junior-data-engineer

Вакансия Junior Data Engineer компании Welltory на vc.ru, Удалённо

Мобильное health-приложение, №1 в России про здоровье, 40 тысяч пятизвездочных отзывов и 3 миллиона пользователей по всему миру. Помогаем людям улучшить свое здоровье, повысить продуктивность и эффективность занятий спортом с помощью анализа данных.

источник

100321:42пожаловаться #12

Инжиниринг Данных

Вчера я писал про Alexa. Последние несколько дней я засел с задачей, с одной стороны простой, но с другой стороны требующей множества итерация. Каждая итерация занимает почти 1 день. Из 3х Redshift clusters так как данные храняться по AWS Regions, нужно выгрузить данные и поместить в parquet формат в озеро данных и партиционировать. При этом нужно обогатитт данные метриками из других источников.

К сожалению у меня нет возможности использовать UNLOAD команду и приходится, использовать внутренний ELT инструемент, который может загружать данные в мой Redshift. Дальше, я могу обогатить мои данные и сделать UNLOAD to Parquet with PARTITIONS. Использовать Glue (сбор метаданных) и Athena как SQL. При этом мне нужно быть удалять устаревгие данные. Для Glue Crawler я использую BOTO3 (python) библиотека AWS и удаляю файлы, именно для этого мне нужны партиции, чтобы удалять старые данные.

Есть и альтернативный метод, я его пробовал, но отказался из-за отсутствия партиционирования. Через ELT сервис внутренный я могу сохранить на внутренний S3, дальше использовать EMR+Spark SQL (внутренний) и сделать тоже самое, но в конфигурации SQL нет возможности выгрузки в партиции и неудобно скрещивать со своими данными и еще не понятно, кто будет Glue запускать и удалить старые данные.

Так как мой Redshift очень маленький, то все очень медленно. В общем сейчас я воспользуюсь преимущетсвом облака, я просто увеличу размер клстера в 2 раза и перейду с DS (storage optimized) на DC (compute optimized), это займет прилично времени, но зато потом сохранит много времение, и добавит нам места и скорости.

источник

102323:15пожаловаться #13

Инжиниринг Данных

источник

91223:15пожаловаться #14

Инжиниринг Данных

На DC не перейду, там вместо 2TB HDD, 160GB SSD, 2,5 TB SSD будет в 10 раз дороже. Я тогда просто удвою количество нод. За 10 минут все сделал!

источник

98123:21пожаловаться #15

2019 December 25

Инжиниринг Данных

Сегодня местное рождество! Всех с праздником! PS как хорошо когда есть талантливый график дизайнер, кстати не кому не нужен на проект?:)

источник

97400:48пожаловаться #16

Инжиниринг Данных

Я не написал про еще один event, который мы сделали в Москве вместе с Moscow School of Business Analytics в офисе Крок. Митап был про AWS, Azure, проекты, которые я делал, эмиграция, зарплаты и тп, было классно Вот видео.

Миграция аналитики предприятия в облако AWS

Это запись с митапа 20.11.2019. Дмитрий Аношин расказывает о переносе аналитики в облако и о своем опыте работы в Канаде и других странах.

Группа на Meetup.com:
https://www.meetup.com/ru-RU/Moscow-Business-Analysis-School/

источник

104809:54пожаловаться #17

Инжиниринг Данных

А сегодня ребята на Хабре написали интересную статью про выступление, спасибо им за труды!

Pizza as a service: как Amazon на Redshift мигрировал

Привет, меня зовут Виктория, и я отвечаю за маркетинг в КРОК Облачные сервисы. Теперь мы регулярно проводим у себя облачные митапы. Я недавно попала на крутейш...

источник

121609:55пожаловаться #18

Инжиниринг Данных

Если вы интересуетесь Google Cloud Platform или используете ее, то вот список все новшеств связанных с аналитикой в 2019.

Google Cloud Blog

Cloud data analytics year in review, 2019 | Google Cloud Blog

Cloud data analytics highlights from 2019 include data warehouse, streaming, and BI news. See how smart analytics at Google Cloud made strides.

источник

108521:56пожаловаться #19

2019 December 26

Инжиниринг Данных

источник

136900:01пожаловаться #20

1
«
…
‹
38
39
40
41
42
43
44
›
…
»