Телеграмм чат группы rockyourdata страница 82

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Инжиниринг Данных

7374 membersпожаловаться на группу

1
«
…
‹
77
78
79
80
81
82
83
›
…
»

2020 September 25

Инжиниринг Данных

И еще один сервис, который вы можете запустить бесплатно (на облачные кредиты) - Yandex Data Proc. То есть вы можете запустить кластер Hadoop со Spark. Отличный вариант потренироваться на больших данных и Spark. То есть вместо того, чтобы учить как настраивать hadoop, hdfs, как крутить всякие настройки, вы можете сразу перейти к делу и сосредоточиться на решение проблемы. Пару кликов, и вы можете уже писать PySpark или Scala для обработки массива данных. Мне кажется хорошая история для собеседования, рассказать как вы интересуетесь современными технологиями и сравнили AWS EMR и Yandex Data Proc. https://cloud.yandex.com/docs/data-proc/concepts/

Yandex.Cloud Documentation | Yandex Data Proc | Relationship between service resources Data Proc

Data Proc lets you use distributed data storage and processing for data using Apache Hadoop ecosystem services.

источник

231418:51пожаловаться #1

2020 September 26

Инжиниринг Данных

Линейная регрессия на sql? Не вопрос! До этого я только в табло ее делал😬

How to do linear regression in SQL | Mode

A step-by-step guide to get a simple regression analysis done in pure SQL with relatively little pain.

источник

218803:00пожаловаться #2

Инжиниринг Данных

Все слышали про IP адрес? Вы можете всегда узнать какой у вас IP адрес, набрав в google "What's my IP", и получите что-то вроде 205.251.233.106, цифры могут быть любые. Когда мы делали домашнее задание по 3му модулю - подключение БД postgres к локальному клиенту, то мы просто открывали firewall между нашей БД и клиентом SQL полностью (public access). Так никогда не делают, обычно прописывают конкретный range IP адрессов, для этого используют CIDR Notation. Вы на практике познакомитесь с ней в модуле 5 (облачные вычисления) и 6 (облачное хранилище данных. А вот пока для ознакомления статья, как это работает.

Напишите примеры использования CIDR, если на работе сталкиваетесь при кейсах аналитики, доступа сервисов и тп.

Understanding CIDR Notation and IP Address Range

This article will help you become familiar with IP addresses and CIDR notation.

источник

219608:43пожаловаться #3

Инжиниринг Данных

На ресурсе datalearn мы хотим собрать информацию о самых лучших телеграм или youtube каналах, блогах или сообществах для наших студентов, подписчиков и посетителей сайта.

Много талантливых ребят делятся опытом и рассказываю об интересных проектах, мероприятиях и вакансиях связанных с аналитикой. Мы решили собрать их вместе! Если у вас есть телеграмм канал и в нем больше 500 подписчиков, значит у вас хороший контент и им необходимо поделиться со всеми!

Пожалуйста, заполните опрос или перешлите кому будет интересно.

Datalearn | Data Channels

На ресурсе datalearn мы хотим собрать информацию о самых лучших телеграм или youtube каналах, блогах или сообществах для наших студентов, подписчиков и посетителей сайта.

Много талантливых ребят делятся опытом и рассказываю об интересных проектах, мероприятиях и вакансиях связанных с аналитикой. Мы решили собрать их вместе! Если у вас есть телеграмм канал и в нем больше 500 подписчиков, значит у вас хороший контент и им необходимо поделиться со всеми!

PS Мы готовы рассказать о вашем канале всем нашим подписчиками, а взамен вас попросим рассказать о ресурсе datalearn. Deal?:)

источник

216308:58пожаловаться #4

Инжиниринг Данных

Technical debt.pdf

Интересная статья про technical debt для ML, написанная сотрудниками google.

Technical debt - это метафара, которую ввели в 1992 году, она обозначает стоимость решения на долгой перспективе. То есть, чтобы быстро строить решения, двигаться быстро (fast time to market, quick wins). Вы сможете показать быстрый результат, особенно при использовании облачных вычислений, но со временем вам это встанет в копеечку, так как поддерживать систему будет все сложнее. И это не пусты слова, прямо сейчас я наблюдаю такую картину у нас в команде, нам необходимо создавать Onsite Feature Attributiin модель для маркетологов, чтобы они могли измерять эффективность кампаний. Мы двигаемся быстро, а это значит сотни ТБ данных разбросаны по AWS аккаунтам, и я все добавляю новые данные (даже не думаю, чтобы что-то ненужное удалить - потом удалю). Это стоимость хранения данных, которая еще не очень большая. А вот стоимость вычислений (compute) - сканировать данные (processing, querying) - это уже дорого, особенно если это GPU.

источник

294320:12пожаловаться #5

Инжиниринг Данных

Поэтому моя роль как data engineer, на основе информации выше, разбираться с этим, чтобы на выходе я мог написать что-то вроде (взял у Facebook data engineer и немного изменил):
- Managed a 10 PB+ data platform
- Consolidated and conformed company-wide growth metrics (across Amazon Events and marketing efforts) into a single, company-wide view.
- Optimized machine learning feature set generation pipelines (200+ TB/day) from having a 4 day latency to having a 1 day latency. While also dropping compute costs for those pipelines 4x.
- Reduced core notification data set latencies from 36 hours to < 8 hours.
- Migrated 50% of notifications pipelines from using Hive to use Spark, Presto, or real-time streaming.
- Cut compute cost from notifications pipelines by 40% over the course of 9 months.

+ надо обязательно упомянуть Privacy (GDPR, и все другие вещи, про удаление клиентских данных и compliance)

источник

216820:17пожаловаться #6

Инжиниринг Данных

Вышла новая книга по созданию и управление аналитическими командами - Data Teams. Я уже заказал. https://www.amazon.com/Data-Teams-Management-Successful-Data-Focused/dp/1484262271/ref=sr_1_1?dchild=1&keywords=data+teams&qid=1601141315&sr=8-1

источник

242920:30пожаловаться #7

2020 September 27

Инжиниринг Данных

Что вы любите больше? (В России я не пил кофе вообще, а теперь вот 1-2 капучино/латте в день) Интересно как вас:)

Анонимный опрос

18%

Черный чай

14%

Зеленый чай

14%

Воду

19%

Капучино

11%

Латте

13%

Американо

4%

Эспрессо

7%

Моего варианта нет:/

Проголосовало: 869

источник

237509:01пожаловаться #8

2020 September 28

Инжиниринг Данных

источник

250104:24пожаловаться #9

Инжиниринг Данных

источник

236205:39пожаловаться #10

Инжиниринг Данных

источник

240818:46пожаловаться #11

2020 September 29

Инжиниринг Данных

Интересная статья, которая сравнивает Azure Synapse (их хранилище данных) и Azure Databricks (Spark) - рассматривается что, для чего используется. На самом деле даже без Azure, можно просмо посмотрят, что когда используется. Это же самое важно, выбрать правильную технологию.

When to use Azure Synapse Analytics and/or Azure Databricks?

What is Azure Synapse Analytics?Azure Synapse Analytics is the Azure SQL Datawarehouse rebranded. Azure Synapse Analytics v2 (workspaces incl. Azure Synapse Studio) is still in preview. This version of Azure Synapse Analytics integrates existing and new analytical services together to bring the enterprise DWH and the big analytical workloads together. What are the Azure Synapse Components

источник

238108:04пожаловаться #12

Инжиниринг Данных

Статья про delta lake. Кто-то уже строил такое?

Engagement Activity Delta Lake

Unlike data in our other data lakes, engagement activity is mutable and the mutation ratio is high, which creates a huge challenge for us.

источник

236518:13пожаловаться #13

Инжиниринг Данных

Табло организует Tableau Day на русском 1 Октября.

источник

288120:32пожаловаться #14

Инжиниринг Данных

Оказывается, если на работе у вас есть лучшие друзья, то вы в 7 раз более эффективно работаете. Я с этим согласен, вспоминаю веселые проекты в России, где все дружили. За 5 лет в Амазоне у меня нет ни одного друга из Амазона🤨 Наверно поэтому я работаю в 7 раз хуже чем мог бы)))

Harvard Business Review

True Friends at Work

The case for making deeper connections with colleagues

источник

251721:18пожаловаться #15

Инжиниринг Данных

Apache Airflow 2.0 (это инструмент для создания Data Piplelines и он бесплатный, то есть open source). Многие инженеры используют его. Есть команды в Амазоне, которые его используют. Очень хочется сделать вебинар на data learn про Airflow для чайников. Если вы используете его на своей работе или проекте, может быть сделаете вебинар?

источник

233823:51пожаловаться #16

2020 September 30

Инжиниринг Данных

Amazon Plans Vancouver Expansion Where Talent Is Cheap - Причем Ванкувер один из самых дорогих городов в мире.

Теперь могу говорить, знакомьтесь, меня зовут Дмитрий, я талантливой и беру недорого🙌

Amazon Plans Vancouver Expansion Where Talent Is Cheap

Amazon.com Inc. expects to nearly triple its workforce in Vancouver, where software engineers are cheap, smart and plentiful.

источник

230105:49пожаловаться #17

Инжиниринг Данных

😊 Салют!

🙊 Бывает, что о важной, полезной конференции узнаешь уже по фотографиям с мероприятия, выложенных в сеть докладах и восторженных статусах коллег.

🔥 Есть способ не пропускать актуальные ивенты, загодя планировать время и бюджет на обучение.

🚀 Представляем канал наших друзей @gde_konfa, который поможет вам быть в курсе всех интересных конференций по маркетингу, project, product менеджменту, data science в Украине и не только! А теперь еще и много полезного online-контента: онлайн-курсы, конференциях и обучающие материалы.

⚠️ А еще, в канале часто публикуются уникальные промо-коды на ивенты.

источник

233107:37пожаловаться #18

Инжиниринг Данных

Инженеры данных часто задают вопрос: «Грузить данные в реальном времени (real time streaming) или пачками (batch)»

Если спросить у бизнес заказчика, то мы получим ответ - «нам нужно в режиме реального времени отслеживать данные и быстро реагировать!» Иногда это правда, а иногда нет.

При выборе решения следует задавать следующие вопросы:
«Кто будет поддерживать data pipeline? Понимает ли моя команда, как починить этот datapipeline, когда он сломается? » - Стрминговые решения часто сложнее классчической загрузки данных раз в день/раз в час.

Другой вопрос - «Будет ли кто-нибудь действительно просматривать эти данные в нерабочее время?» - если это правда, то в отчетах в реальном времени больше смысла. Если нет, то им, вероятно, можно обойтись без streaming решения.

Задавать правильные вопросы при создании аналитического решения абсолютно необходимо для его успешного внедрения.

У вас есть кейсы, когда вы создавали стриминговое решение? Может быть есть история, когда бизнес просил real time metrics, а на самом деле им не нужно было?

источник

238919:31пожаловаться #19

Инжиниринг Данных

https://www.forbes.com/sites/tableau/2020/09/29/the-path-forward-build-a-resilient-future-with-these-data-driven-habits/

Tableau BrandVoice: The Path Forward: Build A Resilient Future With These Data-Driven Habits

Every agenda, from enterprise-wide goals to individual aspirations, has been rewritten by the pandemic.

источник

247322:35пожаловаться #20

1
«
…
‹
77
78
79
80
81
82
83
›
…
»