Size: a a a

Инжиниринг Данных

2021 January 22
Инжиниринг Данных
Мы провели очередную Tableau User Group в Vancouver. Было 2 топика:

1. Data Visualization for Global Health at PATH: Jonathan Drummey, Data Visualization Specialist, PATH
2. Latest Feature in 2020.4, and a sneak peak of 2021.: Honto Ming, Tableau (тут можно подсмотреть про roadmap табло и новые фичи от Product Manager Tableau)
источник
Инжиниринг Данных
Я очень много рассказываю про облачные решения для аналитики (AWS, Azure, GCP). Они уже стали де-факто стандартом в Северной Америке, да и в Европе, наверно тоже. Есть и российские компании, которые создают облако, например Yandex cloud и Mail Cloud. Про mail я совсем не слышал ничего, а вот Яндекс переодически появляется в ленте. Я им недавно написал и предложил провести вебинар для нас, что рассказать про возможности облака, примеры и кейсы. Так же один из подписчиков Сергей Сорокин, который работает в яндекс облаке, скинул материлы по облаку, если вам интересно - Итоги Yandex Cloud за 2020.

Если у вас есть уже опыт или есть какие вопросы для вебинары, пишите в комментах.
источник
Инжиниринг Данных
источник
2021 January 23
Инжиниринг Данных
Знаете кто это? Это самый популярный мем сейчас!))
источник
Инжиниринг Данных
А тут было написано, что теперь адские отчёты в excel замёрзли, навсегда!))
источник
Инжиниринг Данных
И в google дата центре
источник
Инжиниринг Данных
Интересная ситуация с онлайн образованием. Наверно ещё и коллекторы придут, спросят с вас🙄 кредиты дело такое, лучше не связываться. Никто не попадал?

Я не против онлайн образования за рубли, но я за прозрачность и качество. Если мы платим кучу денег, то за эту кучу денег должны быть гарантии трудоустройства и контент должен быть очень высокого качества.
источник
2021 January 24
Инжиниринг Данных
Нашел ответ, как я все успеваю. Не самые лучшие новости🤪должно быть многим знакомо.
источник
2021 January 25
Инжиниринг Данных
Физкультура привет! Давайте усложним задачу #datalearn и до конца курса справимся с этим челенджем. Мне рассказал про него канадский морской котик (у нас тут военно морская база на острове) и половину моих знакомых в navy. Все же любят и знают Moby. В его песни Flower мало слов, и ключевые Up/Down. Задача отжиматься и стоять в планке. Это не просто. А вот пример из US Army. В общем до конца песни нужно не свалиться на пол😓
источник
Инжиниринг Данных
Напоминаю, что вебинар сегодня вебинар по гиту:
https://youtu.be/-CPiOe9rnh0
источник
Инжиниринг Данных
Если вы пропустили вебинар по Git, то он останется в записи. У вас будет отличная возможность потренироваться на примере Datalearn репозитория. Денис Волк делает отличное демо, что можно сделать, и зачем это нужно.
источник
Инжиниринг Данных
Если будет искать #datalearn на гугле или яндексе, не попадитесь в сети PPCшников Skillbox и других продавцов успеха и светлого будущего!
источник
Инжиниринг Данных
Свежий пост, где авторы рассказывают про концепт HeadlessBI
источник
2021 January 26
Инжиниринг Данных
Это одно из самых лучших место работы! Если я был бы в Москве, то мечтал бы работать в Яндекс🥰
источник
Инжиниринг Данных
У меня есть две огненные вакансии про BI и Табло в Яндекс.

📈 BI-аналитик в Яндекс Go
Это новая позиция для Яндекса. Ищем человека, который хочет быть на стыке аналитики и визуализации. Вашей задачей будет развивать отчётность большого направления — аналитики приложений Яндекс Go. Необходимо разрабатывать стратегию развития отчётности, собирать данные и делать классные отчёты. Больше всего задач именно про дашборды, но придется готовить и данные. Вы не будете делать все-все дашборды для подразделения, но будете внутренним центром экспертизы по визуализации и Табло внутри команды продуктовой аналитики. Я же буду помогать вам советами и менторством.

Позиция уровня мидл/джун. Нужны классные навыки создания отчётов, сильный SQL, питон как преимущество.

Руководитель — Андрей Кармацкий, которого я считаю нереально крутым специалистом по визуализации и сложным аналитическим инструментам.
Описание вакансии на сайте


📊 Эксперт по визуализации в Маркет
Это позиция уровня тим-лида или мидла, готового к росту. В Маркете есть большая установка Табло и необходимо создать центр компетенций по визуализации. По сути, такая же позиция как у меня в Такси — нужно управлять BI-системой как продуктом. При этом на первом этапе нужно сделать примеры классных отчётов руками, провести обучение, наладить процессы организации контента на сервере, создать задачи на развитие инфраструктуры.

Здесь понадобятся как сильные навыки управления проектами и постановки целей, так и отличные знания визуализации и Табло. Моя команда на первом этапе поможет с примерами того, как это построено у нас.

Руководитель — Максим Левко, отвечающий за развитие DWH и инфраструктуры аналитики в Маркете.
Описание вакансии на сайте


Обе позиции в Москве, но с крутым кандидатом готовы обсудить и другие города. Зарплата обсуждается после интервью. В Яндексе классный соц. пакет, приятные коллеги, премии, опционы и просто интересно.

Присылайте мне в личку CV и небольшой рассказ про себя, смогу разместить вас в рекомендательной системе, или откликайтесь на сайте.

Готов ответить на вопросы — @rbunin
#вакансия
источник
Инжиниринг Данных
Мне поручили разобраться с новой фичей Power BI - Deployment Pipelines. Разобрался, теперь могу вам рассказать.

В Power BI Service есть новое меню - Deployment Pipelines. Идея позаимствована из Azure Devopes, там тоже есть Pipeline. Эта фича очень сырая. Она позволяет использовать 3 среды (3 Workspace, все должны быть Premium) - Dev, Test и Prod.

Есть 2 сценария:
1) Наш существующий Workspace мы можем клонировать “назад” в Test и Dev. (При этом среда Test и Dev создадутся для нас).
2) Мы можем создать среду Dev, и с нее начать “deployment” на Test и Prod.

То есть, теперь есть возможность разделить среду разработки, тестирования и боевую. И дальше мы можем promote из одной среду в другую. Power BI будет сравнивать объекты (например отчеты, модели) и говорить нам, если расхождения.

Для каждого workspace мы можем дать права и роли. И наконец, мы можешь иметь разные подключения к базе данных, среда Dev будет подключена к базе данных на dev, а Prod и Test мы подключим к базе данных Prod. Я использовал SQL Server on-premise, и поэтому у нас есть gateway. Для того, чтобы изменить параметры подключения к SQL Server, в Power BI Desktop я заменил Host/database в строке подключения на параметры, которые можно заменить в deployment pipelines.

В целом идея хорошая, но очень сырая. Если отчетов 20-30, то еще нормально, а вот если их несколько сотен, я вообще не представляю, как можно справиться. Так же совершенно непонятно, как сравнивать объекты, но разные и разные, а чем разные не говорит. Версионность объектов тоже не поддерживает.

Но посыл хороший. В других BI я такого не встречал. Думаю доделают, докрутят и будет все чики-пики))) Для меня 2 главных преимущества:
1) BI команда, будет разделять dev и prod базы данных, и это будет обязательным упражнением, больше не будет shortcuts.
2) В боевой workspace у нас не будет мусора, а только актуальные отчеты.

PS вопрос по Power BI, как я могу получить статистику использования отчетов? Сколько просмотров и тп?
источник
Инжиниринг Данных
источник
Инжиниринг Данных
Сегодня попался интересный материал про генерацию уникальных значений - UUID (англ. universally unique identifier «универсальный уникальный идентификатор»). На википедии, даже есть статья.

UUID представляет собой 16-байтный (128-битный) номер. В каноническом представлении UUID изображают в виде числа в шестнадцатеричной системе счисления, разделённого дефисами на пять групп в формате 8-4-4-4-12. Такое представление занимает 36 символов:
- 123e4567-e89b-12d3-a456-426655440000

В моек контексте, использовалась функция в Python, при экспорте данных из Synapse хранилище через Databricks и было необходимо обеспечить уникальность CustomerKey. Можно еще зашифровать так данные.

Пример функции:

import uuid
from pyspark.sql.types import StringType
from pyspark.sql.functions import udf
uuidUdf = udf(lambda : str(uuid.uuid4()), StringType())
customerUpdatedDF = customerDF.withColumn("CustomerAlternateKey", uuidUdf())
display(customerUpdatedDF)
Wikipedia
UUID
UUID (англ. universally unique identifier «универсальный уникальный идентификатор») — стандарт идентификации, используемый в создании программного обеспечения, стандартизированный Open Software Foundation (OSF) как часть DCE — среды распределённых вычислений. Основное назначение UUID — это позволить распределённым системам уникально идентифицировать информацию без центра координации. Таким образом, любой может создать UUID и использовать его для идентификации чего-либо с приемлемым уровнем уверенности, что данный идентификатор непреднамеренно никогда не будет использован для чего-то ещё. Поэтому информация, помеченная с помощью UUID, может быть помещена позже в общую базу данных, без необходимости разрешения конфликта имен. Наиболее распространённым использованием данного стандарта является Globally Unique Identifier (GUID) фирмы Microsoft. Другими значительными пользователями являются Linux (файловая система ext2/ext3, LUKS шифрованные разделы, GNOME, KDE) и Mac OS X — все они применяют реализацию, полученную…
источник
Инжиниринг Данных
Евгений Кудашев, который делал вебинар про databricks, перешёл в Exasol в UK. Скоро они проведут user group для русско-язычной аудитории. И в будущем он планирует провести вебинар про Exasol для нас.
источник
Инжиниринг Данных
источник