Size: a a a

Инжиниринг Данных

2018 November 10
Инжиниринг Данных
Вот кстати самый крутой ресурс, который я встречал, в нем есть и математика и Computer Science, алгоритмы, и многое другое, по сути базовые вещи и они меняют формат подачи. https://brilliant.org/
источник
Инжиниринг Данных
В догонку к Snowflake - Cloud DW for Dummies.
источник
2018 November 13
Инжиниринг Данных
Как и обещал, расскажу про терминологию, постараюсь просто, чем проще, тем лучше, да?:)
Очень часто одно и тоже понятие, может иметь множество наименований. Как мы знаем, все, что мы делаем с данными, мы это делаем для того, чтобы добавить ценность бизнесу, работадателю, себе. Я всегда думаю о том, как моя работа может добавить ценности клиенту, коллегам, бизнесу. Я думаю, с этим все согласятся, но по факту, многие работают работу и особо не паряться, и в этом нет ничего плохого, у каждого человека своя история. Что-то я отвлекся, про термины, с которыми мы встречаемся ежедневно в той или иной интерапретации. Каждый термин имеет много определений, и каждый, кто работает в этой области может добавить или изменить что-то, поэтому не судите строго.

Business Intelligence (BI) - я рассматривают это как верхушку всего аналитического решения, которое упрощает доступ к данным для бизнес пользователей, то есть это инструмент для работы с данными, который позволяет пользователям без технических знаний, работать с данными (как правило подключаясь к базе данных или правильней сказать к хранилищу данных). Причем, пользователь видит знакомые для себя понятия, например Дата Продажи, Сумма Продажи, Кол-во товаров и тп. Если у бизнеса есть вопрос, то он сможет найти на него ответ с помощью BI решения. Поэтому, для простоты можно рассматривать это как инструмент, например Excel, Tableau, Qlik, Power BI, Прогноз и тп, все эти решения, в теории, должны облегчить жизнь бизнес пользователям и позволить им быстро принимать решения и отвечать на свои вопросы. Если очень упростить, то анализ ваших расходов в Интернет Банке, это тот же BI.

Self-Service BI - то есть, BI разработчики хотят, чтобы бизнес от них отстал с глупыми вопросами и сами все использовали BI инструмент, чтобы отвечать на свои вопросы, при этом они снабжают пользователей документацией, тренингами и мотивируют на подвиги. Звучит просто, но на практики (моей) работает плохо или совсем не работает.

Data Visualiztion - визуализация данных - неотъемлемая часть BI, так как доказано, что человек воспринимает графическую информацию лучше. Исключение из правили, график пирог (Pie Chart), лучше про него забыть:)

Data Warehouse (DW) - хранилище данных, ну или просто база данных. Когда у вас мало данных, всеравно, где их хранить, табличка в Excel или MS Access могут быть вашим хранилищем данных, куда вы потом подключите BI инструмент. Зато если у вас много данных, наверно, так много, что бесплатный postgresql не справляется, то вам нужно аналитическое хранилище данных, например teradata, или Vertica, или еще чего, что стоит дорого. Очень часто, мы слышим термин MPP (Massive Parallel Processing), то есть наше аналитическое хранилище данных нее просто, а умеет горизонтально масштабироваться, то есть представьте, у вас 1 стиральная машина и куча стирки, вы покупаете еще 2 машины и теперь можно  стирать одновременно в 3 раза больше, это и есть MPP архитектура и горизонтальное масштабирование (теперь вас будет сложней застать врасплох на собеседовании). Цель хранилища данных собирать данные или даже накапливать данные (исторически) для анализа, принятия решения или использования их для глубокой аналитики и прогнозирования.  Ну или просто большая база данных, где собираются данных о всех активностях вашего бизнеса. Обычно данные хранятся в таблицах, то есть столбцы и строки.  

SQL Structure Query Language – язык управления баз данных. То есть для того, чтобы работать с базой данных или хранилище данных (что в каком-то смысле одно и тоже), я имею ввиду, спрашивать (query – писать запросы) мы используем SQL (кстати на английском звучит СИКВЕЛ, а не ЭСКУЭЛ), например, покажите мне список продуктов: SELECT PRODUCT_NAME FROM PRODUCT;  Обычно, люди хотят BI, чтобы не учить SQL и чтобы BI создавал SQL за нас, когда мы перетягиваем мышкой (drag and drop).

OLTP – так принято называть транзакционную базу данных, например, кассовый аппарат это OLTP, бэк энд онлайн магазина (база данных), это OLTP. Это база данных, которая позволяет быстро делать операцию INSERT, то есть добавление новых с
источник
Инжиниринг Данных
трок, зато выполняет медленно аналитические запросы, поэтому нам нужна DW, чтобы мы могли задавать вопросы (писать аналитические запросы)

OLAP – В народе называют КУБ, бывает ROLAP (реляционный) и MOLAP (многомерный). По-простому, для меня это просто результат запроса сохраненный в КЭШ. Реляционный куб создается, когда мы делаем в BI drag and drop и создаем отчет (BI создал SQL, выполнил его, сохранил результат и мы работаем с ним), Многомерный куб создается отдельно, там прописываются иерархии и тп, и потом мы строим Кросс Таблицу (Pivot) и анализируем. И часто, там не обойтись без языка MDX, типа SQL но для многомерных кубов. Самый популярный продукт Microsoft Analyses Service. Я всегда обходил все это дело стороной, и вроде обошлось. В целом, если есть возможность, лучше с ним не заморачиваться, да и вообще для меня вся это OLAP терминология устарела.

Dimension – измерение, как правильно в BI инструменты поля/объекты типа Дата, Имя, Название Продукта и тп, являются измерениями.
Measure – мера, показатель, то есть все что можно агрегировать, кстати в SQL мы для этого используем GROUP BY, а в DW мы может создать таблицу фактов, где уже будут пересчитаны метрики, но это уже головная боль архитектора хранилища данных, если такой у вас имеется.

Staging – так называется область в DW, куда складывается черновые данные или копируются сырые данные из систем источников, например OLTP или Google Analytics, чтобы потом уже создать таблицу фактов и тп.

Data Model – модель данных (не путать с моделью для machine learning). Архитектор DW рисует модель данных, бывают разные подходу, тоже популярный вопрос на собеседование, все спрашивают про него, но мало кто использует, вот и я тоже, не очень использую. А ответ такое, бывает По Инмону, когда модель данных в 3й нормально форме, а бывает по Кимпбалу, когда у нас есть витрины данных. У Инмана, модель покрывает весь бизнес и ее легко дополнять, а вот у К. сложней, там витрина данных как правило покрывает один бизнес-процесс или департамент, зато быстрей внедрить. У К. как раз есть понятие Dimensional Modeling, то есть, когда у нас есть таблица фактов, а по краям Таблицы измерений, и у нас получается схема звезда. (На собеседовании, я бы спросила, а в чем отличие от схемы снежинка?), есть еще и другие подходы, например Data Vault, это уже advance level, я пока не пробовал.

ETL – extract transform load, то есть мы просто извлекаем данных, трансформируем и загружаем, обычно это делается с помощью ETL инструментов, где есть GUI и мы мышкой все можем сделать (можно и на языке программирования). На самом деле это процесс правильно называть Data Integration (интеграция данных) и может быть ELT, то есть мы данные извлекаем, загружаем в DW, и потом трансформируем, используя мощность аналитического DW. Есть бесплатные инструменты Talend, Pentaho DI, или платные Informatica или облачные Azure Data Factory, AWS Glue. Многие любят Python. Я люблю Matillion ETL (Cloud ELT для AWS Redshift).

Big Data – есть понятие большие данные, но сложно сказать, насколько данные должны быть большими, чтобы их так называли. Чаще используют так для названия инструментов для работы с большими данными, как правило это Hadoop и его аналоги. Мое мнение, что сейчас Hadoop уже не так популярен, и его любят люди, которые предлагают услуги с Hadoop, потому что это очень сложные и дорогие проекты. Например, говорят, что. AWS S3 убило слона, но спорить не буду. Например, до сих пор использую его, как вычислительную мощность, чтобы обрабатывать логи кликстрима, но можно и без него обойтись.

Data Lake – озеро данных, как правило дополняет современной аналитическое решение. Обычно это файловое хранилище, например AWS S3 или Azure Blob Storage (просто файловое хранилище, типа Google Drive, но работает в экосистеме аналитических решений)

Data Mining/Data Science/Machine Learning/AI – по этим ребятам лучше комментировать не буду, так как это уже смежная область, но добавлю, что они часто входят в аналитическое решение организации, и существует куча успешных бизнес кейсов по использованию этих технологий. Та
источник
Инжиниринг Данных
к же они встраиваются в BI решений, чтобы опять же упростить жизнь конечных пользователей. Например, NLP (управление голосом или текстом), умные JOIN между таблицами, прогнозирование – все это возможности Tableau. Так же по опыту замечу, что часто обычная статистика может принести ощутимую пользу, поэтому прежде чем создавать нейронную сеть, попробуйте найти скрытые зависимости в ваших данных с помощью статстики.
источник
2018 November 14
Инжиниринг Данных
Один из самых знаметых авторов, кто пишет о работе с данными и особенно о визуализации данных - это Стефан Фью (Stephen Few). Если у вас стоит задача создавать красивые и информативные дашборды (не важно где), то обязательно прочитайте его книгу ( у него их несколько). Иногда мне кажется, что он был консультантом Табло и помогал им создавать продукт. Хочу поделиться с вами интересной статьей, которая была написана 27 июня 2017 в его блоге - “Basta, Big Data: It’s Time to Say Arrivederci”, статья про хайп вокруг термина Big Data и о том как вендоры его используют, чтобы продавать свои решения подороже, но часто это все buzz words (маркетинг). https://www.perceptualedge.com/blog/?p=2670
источник
Инжиниринг Данных
26 ноября будет AWS re:Invent, это крупнейшая конференция в Северной Америке об облачных вычислениях, AWS продуктах, решениях, партнерсктх решения и многое другое. Очень интерсно смотреть Keynote сессии, по ним можно понять куда двигается рынок. Кстати, я планирую сдавать AWS Solution Associate экзамен, это такой вводный экзамен по AWS продуктам, не сложно получить, но говорит о том, что вы знакомы с облаком и AWS. https://reinvent.awsevents.com/learn/livestreams/
источник
2018 November 15
Инжиниринг Данных
AWS klades znanii, vot naprimer AWS Online Tech Talks, tut mojno naiti na lubuu temu webinar i samoe glavnoe vse mojno besplatno poprobovat. Ja naprimer tak uchil Amazon Redshift (besplatno na 2 mesyaca) https://aws.amazon.com/about-aws/events/monthlywebinarseries/
источник
Инжиниринг Данных
#проанглийский
Все знают, что английский язык очень нуже в ИТ, так как практически все решения западные или часто мы работает в иностранных компаниях, где есть иностранцы, и наш рост завивисит от анлглийского. Недавно, читал статью в Harward Business Review, и оказалось, плохой английский один из барьевро для карьерного роста в западных компаниях. Этого нет в требования, просто так показывает практика.

Какие есть варианты учить английский?
-Курсы английского 2-3 раза в неделю по 1,5-2 часа
-Курсы английского онлайн
-Курсы английского с носителем языка онлайн, обычно 1 час, 2-3 раза в неделю
-Поехать в школу на 3-4 неделю в Англию или на Кипр
-Доп курсы английского на работе (2-3 раза в неделю по 1 часу)
-Курсы английского выходного дня
-Интенсивы
-Возможно некоторые, пользуются гипнозом.

Эти варианты, первое, что приходит на ум. Все зависит от уровня английского, и если у вас был английский в школе или в университете как обычный предмет, то значит ваш уровень английского не на высоте. Возможно вы уже приноровились читать документацию, но писать и говорить это не просто.

Как было у меня? У меня английский был в школе, потом в Университете. Я знал топики, например о России или достопримечательностях, но я не умел писать и говорил очень плохо. Вообще всем знакомо понятие языковой барьер и он действительно существует.

Я пользовался многими вариантами, которые сверху, но они давали очень низкий КПД, и главаня причина это отсутвия эффекта погружения. Когда мы занимаемся английским, мы все равно находимся мыслями в русско язычном прострастве, продолжаем думать на русском и отвлекаться. Отсюда и отсутствие результата.

Что я делал:
1)Самое крутое, что я когда либо делол, это волонтерство через http://world4u.ru/, я выбирал проект в Европе, и ехал на 1-2 месяца, жил в интернациональном лагере, где говорил на английском. Так я победил свой языковой барьер. Цена вопроса виза+билет на самолет. Друзья ездили в Штаты работать, тоже было эффективно.
2)Начиная с 2010 года я искал работу за границей, иногда случались собеседования и оттачивал терминологию и рассказ о своей профессиональной деятельности. Лучший сайт для поиска https://www.indeed.com/worldwide тут можно любую страну выбрать и вперед, так же можно посмотреть на предложения. Кстати возможно смотреть аналитику по ключевым словам, например Oracle vs Redshift и тп.
3)Банальные вещи как: Смотрел сериалы с субтитрами, слушал подкасты, читал проф литературу на англ, было 2 репититора по Skype носители языка (больше как подготовка к IELTS). То есть максимум языка.

Был показательный случай. Я сдал IELTS тест на 6-6.5. Мне нужно было 7 по всем предметам для Австралии. 4ре месяца я занимался 7 дней в неделю английским, у меня былы курсы на работа, просто курсы, 2 преподавателя носители языка. В таком режиме нон стоп, я был 4 месяца, и что вы думаете? Я сдал IELTS на теже балы, только письмо на пол бала выше. Это был финиш, тогда я окончально осознал важность погружения, а все остальное очень не эффективно. В итоге, подался в Канаду, там были ниже требования:)

Кстати, если кому нужно IELTS прокачать, лучший вариант на rutracker org скачать PDF учебники по IELTS, там экзамены прошлых лет, обычно 4 экзамена в одной книге, можете попробовать свои силы.

Поэтому мой вам совет, если вам нужен английский, старайтесь найти вариант с полным погружением, ни одна вечерняя школа или носитель языка по скайпу вам не поможет, нужно минимум месяц куда-нибудь уехать, где нет русскоговорящих, тогда вы заполните пробелы и выйдите на новый уровень. Кстати на Кипр, ехать тоже не вариант, так там больше тусовка, чем школа.
источник
Инжиниринг Данных
источник
Инжиниринг Данных
В приложении презентация - Best Practices for Migrating Big Data
Workloads to AWS (Про миграцию решения для больших данных в облако). Здесь имеют ввиду On-Premise Hadoop (то есть Hadoop кластер, который наодиться у вас в компании и вы тратите много ресурсов на его обслуживание). Не смотря на то, что презентация про AWS, такое же можно сделать в Azure и Google Cloud. В России есть  Yandex/Mail Cloud, которые должны обеспечивать подобные решения. В целом презентация про подход.
источник
Инжиниринг Данных
Очень важный фактор - Разделение Вычислительных мощностей и Хранения данных. На воркшопе про Snowflake, я говорил про это в MPP базе данных, которое дает много преимущест, оно пришло из мира решений для Big Data
источник
Инжиниринг Данных
Если бы меня спросили, какой бы я дал 1 самый крутой совет, который подойдет всем, то это было бы Fake it, 'till you make it. Проверено, работает 100%)
источник
Инжиниринг Данных
источник
Инжиниринг Данных
Норм?

▪️ 82% (33) 🔥
🔸🔸🔸🔸🔸🔸🔸🔸

▫️ 7% (3) 😳


▪️ 7% (3) 🙊🙈🙉


▫️ 2% (1) 😭


▪️ 0% 😤🤬

👥 40 - всего голосов
источник
2018 November 16
Инжиниринг Данных
Сегодня я увидел статью с заголовком "BI тренды 2019", давайте посмотрит, в каком направление движется индустрия BI (имеется ввиду BI инструменты):
1 Рассвет понятного AI - организации все больше используют AI и ML, но для многих это лишь черный ящик, и возникает вопрос, а можно ли доверять? AI, ML должны помогать, но не заменять. Если посмотреть топовые BI инструменты, они предлагают статистические методы, например прогноз есть у всех (даже у в мое подразделении, бизнес используюьт Tableau прогнозирование для автоматизации бюджетирования, потому что это быстро, но вот насколько точно, это вопрос). Надеюсь, у вендоров есть идеи, как сделать результат более понятным и прозрачным для конечных пользователей.

2 Использование речи для взаимодействия с данными - Power BI представил такую возможность еще давно, а вот Tableau лишь только недавно, вы можете попробовать это новой бете. Идея проста - зачем кликать мышкой, давайте просто спросим: "Сколько продали вчера?" и инструмент предложит варианты отчетов. Как вы понимаете, тут много нюансов, но, если заменить SQL запросы обычными фразами, может чего и получиться. Я пока не планирую это использовать, мне бы просто документацию сделать по тому, что есть.

3 Решения должны приниматься с использование данных (я думал это из 80х), все новое это хорошо забытое старое.

4 Данные и аналитика должны иметь положительный эффект на общество - вот, например известный кейс Tableau - борьба с Малярией в Африке при помощи визуализации данных, и это действительно работает.  

5 Этика данных - всем видели новости про проблемы с персональными данными, GDPR. Без этого никуда, особенно сложно международному бизнесу, в каждой стране свои заморочки. Раньше были только с налогами, а теперь еще нужно шерстить все хранилище данных, чтобы соответствовать GDPR.

6 Процедуры по управления данными (data management and data goverance) - опять же это довольно старое понятие, но сейчас появляется много современных инструментов, которые позволяют управлять данными. Например Alation - это облачное решение, которое позводяет хранить информацию о ваших моделях жанных в DW и в Tableau. Помимо этого есть множество других процедур связанных с данными. Например, у меня до сих пор нет каталога данных, так как Excel или Confluence не эффективно, а автоматическое решение также требует кучу времени на внесение информации, так и живем.  

7 Истории - все уже знаю насколько круто рассказать историю подкрепленную графиками (данными). Получается, что даже в закоренелых компанию осознали, что визуализация, интерактивных дашборды это не только красиво, но и эффективно. Ну конечно у Tableau всегда было опция Story Telling.

8 Корпорация стали умнее и легче адаптирубтся к аналитическим решениям - возможно это мы могли слышать каждый год с начала использования BI решений. Но факт, остается фактом, все крупные организации понимают ценность BI решений и готовы инвестировать в решения и специалистов (а вы попрсоили оплатить тренинг?)

9 Демократия данных позваляет аналитикам данных (data scientist) использовать данные, чтобы вносить изменения в бизнес процессы. Имеется ввиду, что данных мы собираем много, и може найти insights, и так же можем правильно донести информацию до руководителей, что они все поймут и действительно примут правильные решения. В моем случае, мне понадобилось 2 года, чтобы донести ценность BI до высших руководителей

10 Мое любимое - Облачные решения ускоряю процесс создания аналитического решения и его адоптацию и внедрение. #rockyourdata
источник
Инжиниринг Данных
Вот и сам отчет, красивый. Другие вендоры тоже делают такое, но в целом AI и NLP будут в топе.
источник
Инжиниринг Данных
Вчера была проезентация - Best Practices on Scaling Amazon Redshift (лучшие практики по масштабированию Редшифт). Вообще слово "масштабирование" очень хорошее, не стесняйтесь его использовать, оно подойдет для любой технической и бизнес темы👻

Редшифт был создан в феврале 2013, как конкурент ведущей MPP базы данны Терадата, но он был создан в облачной инфраструктуре (AWS), то есть вам не надо покупать железо (сервера) за млн долларов, вы платите за то, что используете. Я всегда вспоминаю свои проекты по внедрению аналитической системы в Сбербанке, проекты были убыточные, вместо 6 месяцев длились 2 года, зато все получали свой lean (бережливы).

Если вы еще не пробовали Amazmo Redshift, так попробуйте, это бесплатно, у них на сайте есть step by step tutorial (1й создание кластера, создание таблиц, загрузка данных в них, 2й создание таблиц и загрузка 250млн строк и дальнеяшая оптимизация). Опять же зная Redshift на простом уровне, вы будете знать про MPP архитектуру и понимать как работает Big Query, Azure DW и другие облачные или аналитические продукты.
источник
Инжиниринг Данных
источник
Инжиниринг Данных
источник