Телеграмм чат группы rockyourdata страница 26

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Инжиниринг Данных

6805 membersпожаловаться на группу

1
«
…
‹
21
22
23
24
25
26
27
›
…
»

2019 August 01

Инжиниринг Данных

Небольшой ролик про девайсы AWS и автомобиль для транспортировки данных в облака. А вы как думали, можно загрузить несколько петабайтов в облако?

How Amazon Uses Explosive-Resistant Devices To Transfer Data To AWS

Demand for cloud computing from providers like Amazon Web Services continues to rise from both companies and consumers that rely on remote storage and comput...

источник

89123:14пожаловаться #1

2019 August 03

Инжиниринг Данных

https://bootcamp.berkeley.edu/blog/7-data-analytics-books-you-should-read/

Berkeley Boot Camps

17 Data Analytics Books You Should Read in 2020 | Berkeley Boot Camps

17 must read books on Data Analytics to help you leverage the power of Data. Learn about Big Data, Artificial Intelligence, Machine Learning and more.

источник

81506:10пожаловаться #2

2019 August 04

Инжиниринг Данных

Всем знают, что обычно при создании хранилищ данных, нужно подумать о модели данных. Есть много вариантов - Dimensional Modelling via Kimball, 3rd Normal Form via Inmon, Data Vault and so on. На собеседованиях часто спрашивают в чем разница и какие техники существуют. Вот одна из статей на эту тему.

С другой стороны, бизнесу нужен результат здесь и сейчас, у них нет времени ждать пока вы создадите нужную модель данных. И часто, все модели вообще игнорируются, и это не смертельно. Если вы смоглы помочь бизнесу быстро получить результат, это намного лучше, чем согласовывать модель данных несколько месяцев. Опасность в том, что нет модели = нет порядка, вы создаете хаус внутри хранилища, и только вы знаете, где что находится. Так что это такая грань, и вам решать как быть. Я в этой ситуации использую ELT tool Matillion, который помогает мне разрабатывать быстро и включать в работу бизнес пользователей.

Например в Алексе, где я сейчас, именно такая ситуация, за последние несколько лет мой департамент Applied Modelling and Data Science нагородил много кастомных решений, и теперь все хором говорят, что им нужна правильная модель данных, а что в ней должно быть и почему, никто не знает. Ну я могу им рассказывать, как модель данных важна, и мы понимаем друг друга с полу слова😆 Так же у другой команды есть Redshift кластер, в котором 128 нод, это максимально возможный кластер и он не справляется с объемом и кол-вом запросов. И в этой ситуации решение - это микс хранилища данных и озера данных, то есть уйти от реляционной модели данных, где есть в этом необходимость. Что в принципе и сделал Amazon.com в течение последних трех лет под названием проекта Rolling Stone. Все реляционные базы данных Оракл были заменены на AWS DynamoDB (NoSQL).

И последнее, про модели данных. Как правило, когда мы говорим о модели данных, мы подразумиваем релационную модель данных (Schema on Write), то есть у нас есть система источник, база данных с таблицами, и таргет, хранилище данных с таблицами, с помощью ETL/ELT мы загружаем данные ИЗ сорса В таргет. Если у нас, в таблице в системе источнике добавится столбец, или поменяется тип данных, то все сломается, так как данные изменились, а схема нет. Поэтому есть альтернатива - Schema on Read, то есть мы можем обновлять схему каждый раз, когда меняется источник и ничего не сломается. Обычно это в случие неструктурированных данных. Более подробно можно почитать в Snowflake Ebook.

источник

110705:15пожаловаться #3

2019 August 05

Инжиниринг Данных

https://www.matillion.com/blog/redshift/looking-under-the-hood-at-how-amazon-redshift-works/

Looking under the hood at how Amazon Redshift works

When considering best practices for Amazon Redshift, it is really useful to understand exactly how Redshift works under the hood.

источник

73202:08пожаловаться #4

Инжиниринг Данных

А вы уже добавили в резюме?

источник

70317:45пожаловаться #5

Инжиниринг Данных

Вакансия в Австрии, визу дают. Больше деталей не знаю.

источник

71518:05пожаловаться #6

Инжиниринг Данных

Переслано от S P

Job_Advertisement_IT_Consultant.docx

источник

88618:05пожаловаться #7

2019 August 06

Инжиниринг Данных

Работает консультантом? Вот список книг, который (возможно) даст вам новые идеи. Я заказал себе все книжки. Кстати использовал Абебукс (Амазон дочка) которая продает б/у книги по 4-5 долларов вместо 20-30.

blog.dce.harvard.edu

5 Books for Aspiring Consultants

Interested in consulting? Here are 5 must-read books to get you primed for business.

источник

71923:21пожаловаться #8

2019 August 07

Инжиниринг Данных

https://www.ted.com/talks/matt_walker_sleep_is_your_superpower?language=en

Sleep is your superpower

Sleep is your life-support system and Mother Nature's best effort yet at immortality, says sleep scientist Matt Walker. In this deep dive into the science of slumber, Walker shares the wonderfully good things that happen when you get sleep -- and the alarmingly bad things that happen when you don't, for both your brain and body. Learn more about sleep's impact on your learning, memory, immune system and even your genetic code -- as well as some helpful tips for getting some shut-eye.

источник

68406:51пожаловаться #9

Инжиниринг Данных

google.com: Migrating Teradata and other data warehouses to BigQuery.
https://cloud.google.com/blog/products/data-analytics/migrating-teradata-and-other-data-warehouses-to-bigquery

Google Cloud Blog

Migrating Teradata and other data warehouses to BigQuery

Check out the migration framework and architecture we suggest for moving your data warehouse, like Teradata, to Google Cloud BigQuery.

источник

72306:59пожаловаться #10

2019 August 08

Инжиниринг Данных

Workbook: The Tableau Chart Catalog
https://public.tableau.com/views/TheTableauChartCatalog/TableauChartExamples?:embed=y&:display_count=yes&:origin=viz_share_link&:showVizHome=no

Tableau Software

The Tableau Chart Catalog

The Tableau Chart Catalog #charttypes

источник

68203:23пожаловаться #11

Инжиниринг Данных

Хотел поделиться новостью, будем делать первый ивент с Майкрософт в Ванкувере про Azure Data Platform на весь день!https://dwiad.ticketleap.com/data-warehouse-in-a-daysept2019/

Cloud Data Warehouse in a Day

In this course, you will learn concepts, strategies, and best practices for designing a cloud-based data warehousing solution using Microsoft Azure SQL Data Warehouse, the petabyte-scale data wareh...

источник

60603:32пожаловаться #12

Инжиниринг Данных

Dice Insights: Data Analyst: Necessary Skills, Education, Training, Résumé.
https://insights.dice.com/2019/08/07/data-analyst-education-training-resume/

Data Analyst: Necessary Skills, Education, Training, Résumé

A data analyst is more important to an organization than ever. If you're interested in becoming a data analyst, here's a breakdown of necessary skills.

источник

66405:03пожаловаться #13

Инжиниринг Данных

https://medium.com/nightingale/credit-where-credit-is-due-mary-eleanor-spear-6a7a1951b8e6

Credit Where Credit is Due: Mary Eleanor Spear

Exploring the life and work of an overlooked mid-century dataviz pioneer who may have discovered the Box Plot 17 years before John Tukey.

источник

63414:55пожаловаться #14

Инжиниринг Данных

https://medium.com/permutive/petabyte-analytics-with-bigquery-hll-af0f7a70b66d

Taking BigQuery HLL to the extreme

BigQuery, HLL and the inclusion-exclusion principle

источник

62416:51пожаловаться #15

2019 August 09

Инжиниринг Данных

Как вы знаете, есть два основных типа загрузки данных в хранилище данных(или озеро данных), это batch (грузим пачками раз в сутки или в час) и streaming (поток данных). Как правило ETL/ELT поддерживает только batch. Для стрима нужно использовать другие решения. Самое популярное это Apache Kafka. Ее коммерческая версия это Confluent. Так же у облачных провайдеров есть свои решения. Самое популярное AWS Kinesis. А вот и ссылка с туториал по кафке

Announcing Apache Kafka Tutorials | Confluent

We’re excited to announce Kafka Tutorials! Learn about Apache Kafka, real-time data stream processing, KSQL, and more with complete code examples and guides.

источник

65804:52пожаловаться #16

Инжиниринг Данных

Большие данные стали ещё больше

источник

67805:19пожаловаться #17

Инжиниринг Данных

Вы слышали про DevOps? Это понятие пришло из разработки ПО, по простому это как мы разрабатываем ПО, есть ли у нас версионность кода, можно ли вместе менять код, где хранить код, как мы разделяем тест и прод и ТП. Это важно и в аналитике, часто когда мы меняем код (ETL, DW, BI) мы легко можем все поломать и бизнес пользователи не довольны. Отсюда и DevOps для аналитики. Для предикативных моделей тоже важно. https://www.red-gate.com/simple-talk/sql/database-devops-sql/introduction-to-devops-devops-and-the-database/

Database DevOps - Simple Talk

Robert Sheldon discusses the challenges involved with including the database in the DevOps pipeline and how to overcome them in Database DevOps.

источник

77616:36пожаловаться #18

2019 August 10

Инжиниринг Данных

AWS опубликовал новый блогрост про построение озера данных. Озеро данных это по-сути защищённое файловое хранилище где можно хранить данные в сыром виде и анализировать. Дёшево и быстро, но можно легко превратить все это в болото данных если не подумать о сборе метаданных, такой вот справочник, что и где храниться. Другая сложность, что в озере сложно редактировать историю данных(если вам надо обновить что-то в прошлом) поэтому хорошо использовать вместе с хранилищем данных.

Amazon Web Services

Build, secure, and manage data lakes with AWS Lake Formation | Amazon Web Services

A data lake is a centralized store of a variety of data types for analysis by multiple analytics approaches and groups. Many organizations are moving their data into a data lake. In this post, we explore how you can use AWS Lake Formation to build, secure, and manage data lakes.

источник

72616:06пожаловаться #19

Инжиниринг Данных

Полезный гайд как в питоне работать с экселельными файлами https://towardsdatascience.com/intro-to-reading-and-writing-spreadsheets-with-python-b635ae514ab8

Intro to Reading and Writing Spreadsheets with Python

[For Complete Beginners] A tutorial on how to read, transform and write spreadsheets in Python

источник

83517:48пожаловаться #20

1
«
…
‹
21
22
23
24
25
26
27
›
…
»