Size: a a a

Инжиниринг Данных

2021 July 08
Инжиниринг Данных
Что такое BI? Выпуск 2015 года на примере Lamoda https://youtu.be/xYExt37a9Qg
источник
Инжиниринг Данных
Из нашего слака от Ruslan Mirzaev - хорошие SQL тренажеры:
- www.hackerrank.com и www.codewars.com
- для совсем маленьких есть https://sqlzoo.net/
источник
2021 July 09
Инжиниринг Данных
Еще давно у нас с Романом появилась гипотеза, что datalearn можно использовать для других целей, например для знакомств...нет, мы не хотим сделать Tinder, но зная специфику индустрии, насколько все занятые и просто не остается время на личную жизнь, а именно на ее организацию.

Вот например, наш общий знакомый Анатолий, который сделал курс по SQL-101 и который максимально помогает всем студентам datalearn - одинок. Он нас не просил, мы сами решили поробовать, и рассказать, что есть Анатолий, которого многие уже знают, и если в кратце, то он познакомился бы с девушкой из нашего сообщества. Анатолий, сейчас живет в Харькове и работает в EPAM в роли Инженера данных, в будущем он планирует перебраться в Европу или Северную Америку, с его опытом и знаниями, а главное мотивацией, это будет легко осуществить.  Поэтому, уважаемые девушки, если вам интересно пообщаться с Анатолием,  познакомиться, рассказать о себе, то вы можете написать Анатолию напрямую в telegram (@Balakiriev_Anatolii) или facebook.  

Анатолию 33 и он обожает парашютный спорт и помогать другим, поэтому нам бы хотелось помочь ему тоже в этом не простом деле😇

PS если мы еще будем помогать людям находить друг друга, то будет вообще шикарно!
источник
Инжиниринг Данных
источник
Инжиниринг Данных
Отличный канал по аналитике в excel https://www.youtube.com/channel/UCRhUp6SYaJ7zme4Bjwt28DQ
источник
Инжиниринг Данных
источник
2021 July 10
Инжиниринг Данных
Очень хорошая статья от Даши из Ламоды и много полезных ссылок https://habr.com/ru/company/lamoda/blog/564626/
Было бы круто сделать вебинар на эту тему.
источник
2021 July 11
Инжиниринг Данных
В слаке появился интересный вопрос - дискуссия. Я решил вынести на общий обзор. Это больше про то как не надо делать аналитику и как не надо организовывать работу аналитического отдела. Мне кажется корень проблемы - отсутствие бюджета на "правильный" подход. Как результат в короткой перспективе можно получить отчетики и ответы на бизнес вопросы, а вот в долгую это не работает, а когда ключевой специалист уйдет на ЗП в 1,5 - 2 раза (непонятно, что его держит, мы можем подсказать как быть🤫) - карточный домик рассыпиться. И чтобы заменить его понадобиться 3-4 человека. Вот сам текст:


🙃 И снова интересный вопрос

Вопрос про обязанности DE, можете поделиться какая у вас должность и что в нее входит, а так же что в это время делает анлитики BI analysts, data analyst, DS?

====
Что происходит у меня - у меня должность DE, в команде есть еще один DE, мы с ним распределили работу таким образом
Я, больше уклон в архитектуру/инженерию/BI, по конкретики:
Работаю с аналитиками у нас их три человека (BI manager (wf), Analyst/DS, J analyst)
Принцип такой, они спрашивают, а если у нас вот такая информация, если есть я им добавлю в их хранилище из нашего озера или у нас появляется какая-то новая программка из которой нужно тянуть данные. Так же частенько просят посмотреть SQL или просто написать им кверю чтобы получился конкретный DF.
Работаю над архитектурой DWH+DataLake всё на AWS, прорабатываю JOB/Crawler контролю структуру будущих таблиц
организовую будущие mart-ы(полки) для аналитиков в RedShift.

Так же работаю с финансами, как я понимаю только из-за того что у меня есть PHD по экономики... С ними мы делаем DashBoard в PowerBI, а так же запустили процесс сверки движения наших денежных потоков с нашими партнерами.
Пытался процесс отдать аналитикам, но в связи с изменениями в структуре данных или изменения логики нужно постоянно, что-то изменять в PowerBI или перепроверять какие ошибки есть в предоставленных данных от партнеров. По-этому, если изменений нет, аналитик может сам обновить PowerBI и всё ок, но уже как полгода, приходиться постоянно внедряться в процесс.

Так же на мне лежит обязанность за PowerBI, все отделы хотят от меня получить супер-пупер дашборд, но у меня физически не хватает времени, плюс в компании до этого всё было в Excel. Analyst/DS помогает с этим, что-то пробует делать для маркетингового департамента, у нее это основное направление маркетинг+прогнозы...

Еще всегда нужно помогать бизнесу, разобраться как должно работать бизнес-логика, этим занимаемся вдвоем со вторым DE, он просит себя называть Data Advocat )
Думаю +/- понятно что да как и вот конфузная ситуация, в которой мне кажется аналитик (Manager BI) не прав

Этот человек вместо аналитики занимается выгрузками, одно и тоже уже год (столько я в компании работаю), на предложение перевести это на PowerBI, желание нет, год прошел, и чтобы автоматизировать процесс, она выклянчила в отдел еще +1 аналитика Junior(J) Analyst - она студент, но смекалистая и теперь сидит занимается этим бредом :face_with_rolling_eyes:

В компании был переезд на другую платформу при которой у нас меняется структура данных, БД практически всё что касается данных, а так же где-то 50% бизнес-логики. И чтобы организовать аналитическую инфраструктуру, было предложено им за два месяца покопашится в сырых данных (5шт*MySQL) выбрать нужны таблицы, сказать мне, а я их сложу в одно место. Получилось это произвести только с одним Analyst/DS, а вот с Manager BI мне говорит, что якобы она должна сказать, что ей нужно Revenue в таких вот разрезах и я сам должен найти все эти таблицы и дать так как она хочет. А я считаю, что аналитик должен понимать сущность возникновения данных и понимать логику их формирования, самому открывать таблицы смотреть на данные и говорит, что мне из вот этой таблицы нужно вот это, а из этой вот это....

Подскажите кто прав и как у вас организовано взаимодействие между бизнесом, аналитиками и вами!
всем любви!
источник
2021 July 12
Инжиниринг Данных
На связи Рома Бунин, отвечаю за BI и Tableau в Яндекс Go. Ищу к нам в команду супер человека — инженера по автоматизации/админа технической части Табло сервера. Мне говорят, что такого человека не существует, но я оптимист. =)

Кого мы ищем
Ищу инженера для нашей BI-платформы, который любит упрощать жизнь пользователей через автоматизацию, готов самостоятельно искать и устранять проблемы и отвечать за техническую часть сервера. Необходимо стать оунером нашего сервера и развивать большую экосистему процессов вокруг него. В основном мы делаем это за счёт написания автоматизаций на Питоне с использованием API Табло и внутренних сервисов Яндекса.

У нас небольшой внутренний продукт и вы будете сразу видеть результат своей работы. Не могу продать вам модные фреймворки и супер сложные задачи, но точно обещаю интересные и важные для бизнеса. А ещё самое продвинутое и крутое решение для BI-системы как продукта в стране. Ближайшие проекты: бот поддержки, автоматизации для онбординга пользователей, оптимизация скорости работы сервера.

Нужно знать Питон, Докер и GIT. В идеале иметь опыт работы с Табло и развитием технической инфраструктуры сервера. Полное описание вакансии на сайте.

Что уже сделано
Чтобы лучше понять о чем речь, можно посмотреть эти видео. В первом видео Максим Воронов рассказывает о том, что он уже успел сделать. Максим же сможет помочь вам на первых порах. Ещё недавно я рассказывал как в целом у нас построена работа с Табло сервером со стороны аналитиков.

Условия
Позиция в Москве, офис в Сити с смешанным графиком. Готовы обсуждать и полностью удалённую работу или помощь с переездом из других городов. В Яндексе классный соц. пакет, приятные коллеги, премии, опционы и просто интересно.

Присылайте мне в личку CV и небольшой рассказ про себя, смогу разместить вас в рекомендательной системе, или откликайтесь на сайте.

Готов ответить на вопросы — @rbunin
#вакансия
источник
Инжиниринг Данных
Яндекс + Табло Сервер + Питон = ❤️
источник
Инжиниринг Данных
Ссылки про вакансию Романа (забыл вставить в пост):
- Ближайшие проекты: бот поддержки, автоматизации для онбординга пользователей, оптимизация скорости работы сервера.
- Полное описание вакансии на сайте
- В первом видео Максим Воронов рассказывает о том, что он уже успел сделать. Максим же сможет помочь вам на первых порах. Ещё недавно я рассказывал как в целом у нас построена работа с Табло сервером со стороны аналитиков.
- Присылайте мне в личку CV и небольшой рассказ про себя, смогу разместить вас в рекомендательной системе, или откликайтесь на сайте.

Готов ответить на вопросы — @rbunin
источник
Инжиниринг Данных
Если вы следили за основными новостями в tech, то возможно помните, как в 2016 году Adam Selipsky ушел из AWS и пришел в Tableau,  и сразу там влиять на компанию и продукт, например он принес идею писать narratives вместо Power Point (кстати в Microsoft у нас, именно это и делается - слайды, слайды ...), и перевел продукт на подписку. А потом уже заключил сделку с Salesforce о поглощении Табло.

Его место в AWS занял Andy Jassy, который теперь будет CEO Амазон,  а новый CEO AWS будет Adam Selipsky.

Сегодня прочитал интересную статью про состояние AWS на сегодняшний день, согласно которой, главная опасность для AWS - это бюррократия ( а я думал это только в отчественных госах и сбере😛). В AWS уже 75+ тысяч сотрудников и пришлом много продажников из традиционных SAP, Microsoft и тп, и появлись новые правила.

Согласно статье, для Адама будет главной задачей решить проблему с бюррократией.

“Adam is good at balancing different cultures,” McIlwain said. “He brought the value of what he had learned at AWS to Tableau, and now he also has this whole lens into Salesforce too.”


Так же в статья есть отсыл к аналитике в AWS. Несмотря на то, что AWS продает современные сервисы для аналитики, внутри до сих пор используются эксельки для отчетности (Weekly Business Review).

One of those people, a former AWS salesperson, estimated he spent around 70% of his work hours on paperwork, which included writing a business review every week, month and quarter.

Я и сам знаю от бывшых коллег, что работа в AWS на позициях с датой не самое лучшее место. (я имею ввиду аналитиков\инженеров, которые создают внутреннюю отчетность и дата продукты для своих команд). У меня было много знакомых из AWS команд и я им не завидовал, так же как и не завидовал командам из финансов.

“Part of the reason they are making changes and adding new leadership principles is because we have a lot of internal processes that don’t scale,” one current AWS employee said. “A lot of AWS still runs on spreadsheets.”

По опыту очень знакомо, когда есть много всяких запросивков и экселек и это все не масштабируется и не автоматизировано (классика внутри комманд Амазона)
источник
2021 July 13
Инжиниринг Данных
15 июля новый вебинар от Денис Соловьев - Разбор сервисов Google Cloud для построения аналитических решений

📌 Разберём/вспомним Cloud Service Models
📌 Разберём группу сервисов Compute  
📌 Разберём группу Storage и Databases
📌 Рассмотрим сервисы для Big Data решений
📌 Рассмотрим сервисы для CI/CD
📌 Рассмотрим другие полезные сервисы Google Cloud
📌 Посмотрим на примеры аналитических архитектур на Google Cloud

🔥 У Дениса есть свой канал, где он рассказывает очень крутые штуки, описывает кейсы и дает крутые материалы по инжнирингу данных...

🔗 Ссылка на его ТГ: https://t.me/smart_data_channel
YouTube
Разбор сервисов Google Cloud для построения аналитических решений / Денис Соловьев
🔔 План:
📌 Разберём/вспомним Cloud Service Models
📌 Разберём группу сервисов Compute
📌 Разберём группу Storage и Databases
📌 Рассмотрим сервисы для Big Data решений
📌 Рассмотрим сервисы для CI/CD
📌 Рассмотрим другие полезные сервисы Google Cloud
📌 Посмотрим на примеры аналитических архитектур на Google Cloud

🔥 У Дениса есть свой канал, где он рассказывает очень крутые штуки, описывает кейсы и дает крутые материалы по инжнирингу данных...

🔗 Ссылка на его ТГ: https://t.me/smart_data_channel

🔔 Подписывайтесь на канал "Datalearn" чтобы не пропустить новые видео и ставьте лайки!

📕 Записывайтесь и проходите курс Инженера Данных.
⚠️ КУРС БЕСПЛАТНЫЙ!
🔗 Записаться вы можете на нашем портале https://datalearn.ru/

👍🏻 Запись на курс даст вам возможность не только просматривать видео, но и получить доступ к закрытым материалам, а также возможность выполнять домашние задания, отдавать их на проверку и получить сертификат прохождения курса.
источник
Инжиниринг Данных
источник
Инжиниринг Данных
Хороший ли Цукенберг лидер? Походу неочень https://techonomy.com/2021/07/zuckerberg-not-worthy/
источник
Инжиниринг Данных
Бесплатный вводный курс по AWS (5 часов)
источник
Инжиниринг Данных
Не самая лучшая реклама mail ru cloud в статье про создание аналитического решения. Я ее прочитал бегло, мне показалось, что автор статьи явно далек от аналитики и главное, хотел разрекламировать облако. После такой статья, я бы точно mail cloud не использовал. Часто вижу набор несвязанных терминов.

С точки зрения эффективности AI (AI ли?), у них:

По сравнению с прогнозами, которые формировались ранее с помощью Excel Enterprise, точность новых алгоритмов оказалась на 17,5% выше для регулярных продаж и на 21% — для промопродаж. Это внушительный прирост по меркам нашей отрасли.

Отличные показатели, я бы сразу писал бы 48,75% эффективности, чего мелочится! И это на Oracle Exadata, на котором еще и OLTP живет. Все благодаря Excel Enterprise.

Картинка с сырыми данными в виде стейков, на красном фоне - это конечно не уважение к веганам!)
источник
Инжиниринг Данных
Когда я был в Alexa, а алекса находится в Amazon Devices (включая kindle и другие девайсы), на одной из презентаций в Seattle по результатам квартал, куда я зашел перекусить 🤫, рассказали о планах Амазон запустить спутниковый интернет - Kuiper, примерно такая же идея как у StarLink (некоторые товарищи ждут интернет от Маска, потому что он обещал дать бета доступ Канадцам, а если вы живете в ###нях, то вам только такой интернет и нужен😝)

Я тогда загорелся идеей пойти инженером данных в спутники или в Amazon Solar/Wind - куда-нибуть поинтересней, но им пока не нужны аналитики и инженеры данных.

Зато сегодня увидел новость, что Амазон купил команду из Facebook , я не знал что ФБ тоже в том направление работал:

Last year Facebook launched what it told regulators was a single experimental low-earth-orbit satellite called Athena in order to determine whether it could efficiently transmit internet signals to underserved areas using millimeter wave frequencies.  

А вообще это новая для меня идея, когда компании покупают сотрудников у другой крупной компании.

It’s not unheard of for big companies to buy groups of employees from one another, just as they often buy small startups to beef up staff in various parts of their business. For instance, in 2015 Uber acquired more than 100 maps-related employees from Microsoft, along with some intellectual property.
источник
2021 July 14
Инжиниринг Данных
У Ашана с AI пока не срослось, а вот чувак сделал умную поливалку, отличный AI кейс! Я так хотел кошек отгонять, которые писали в детскую песочницу🤬
источник
Инжиниринг Данных
источник