Size: a a a

Инжиниринг Данных

2021 October 11
Инжиниринг Данных
Посмотрел видео про Airbyte, где берут интервью у фаундеров в марте 2021. Они как раз получили инвестиции - 26 млн$. Airbyte - это сейчас open source набор коннекторов для вашего ETL/ELT инструмента. Они сказали несколько интересных вещей:
- они пилят community edition до 2022 года и планирует уже до конца 2021 поддержать 300 коннекторов
- на инвестиционные деньги они развивают community, и оно растет. Например 20% всех коннекторов создано в сообществе

Они рассказали про идею создать унифицированный список коннекторов и озвучили проблемы индустрии, где каждая компания должна самостоятельно создавать коннектор для Google, Facebook, SalesForce и тп, если они не используют коммерческие решения. Их open source и продукт просто замечательны.

Но мне стало любопытно про их стратегию. Ведь бесплатно деньги никто не дает на благотворительность в мире аналитики. Скорей всего они (инвесторы) преследуют уже известный опыт других open source продуктов:
- Spark -> Databricks
- Airflow -> Astronomer
- SuperSet -> Preset
- dbt -> dbt cloud

И таких примеров должно быть много. Но в случае с Airbyte все развивается очень быстро, вот вам деньги, создайте community, потом давайте сделаем коммерческий продукт и заработаем много денег. Как вы думаете, как будет развиваться продукт, и что его ждет в будущем?
источник
Инжиниринг Данных
Умение анализировать данные полезно всем

Мы каждый день сталкиваемся с большим количеством данных и важно уметь делать правильные выводы на их основе. Для этого не обязательно разбираться с языками программирования. Для задач, не посильных Excel существуют специализированные решения — платформы продвинутой аналитики.

Loginom — low-code платформа позволяющая решать задачи интеграции, очистки, подготовки данных, моделирования, визуализации без программирования. Loginom позволяет бизнес-пользователям самостоятельно решать большинство востребованных задач: автоматизация принятия решений, кредитный скоринг, противодействие мошенничеству, прогнозирование спроса, прогнозирование оттока клиентов, очистка и дедупликация данных, кросс-продажи, сегментация клиентов...

Практические кейсы применения аналитики данных в бизнесе можно будет увидеть на ежегодной конференции по продвинутой аналитике Loginom Days, которая пройдет с 19 по 21 октября в онлайн-формате.

Представители бизнеса поделятся реальными кейсами трансформации бизнеса:

* Process Mining — глубинный анализ и оптимизация бизнес-процессов
* Системы поддержки принятия решений в процессы кредитования
* Снижение оттока клиентов и увеличение LTV с помощью Machine Learning
* Цифровой советчик дуговой плавильной печи — предсказание поломок и выдача рекомендаций

Участие бесплатное, регистрация по ссылке https://day.loginom.ru/

PS Пост поддержал приют для собак Зоорассвет в Москве.
источник
Инжиниринг Данных
У нас ещё один замечательный и полезный перевод статьи - Будущее BI за открытым ПО, та самая которую написал создатель Airflow и Superset.

Про автора: Влад Кощеев работает в Газпром BI-разработчиком, полгода назад окончил бизнес-информатику в СПбГУ и поступил в магистратуру ИТМО на мобильные и облачные технологии.

Поддержите лайком статью!
источник
2021 October 12
Инжиниринг Данных
Прикольный пост про карьеру Бизнес Аналитика. Обычно все про технические роли и прикладные задачки, а тут вот про то как стать БА - So You Want To Be A… Business Analyst https://medium.com/ft-product-technology/so-you-want-to-be-a-business-analyst-fc28596411f5
источник
Инжиниринг Данных
Я недавно шарил пост про канал - Кибер Самурай или, что-то типа того, мы договорились сделать посты по обмену. Это оказался какой-то скам🙅‍♂️,  по ощущуниям как гопники развели на телефон у метро🤣
источник
Инжиниринг Данных
Новости из мира Spark:
1) Databricks в Spark 3.2 анонсировал Pandas API. Раньше для этого мы использовали Koalas, а теперь можно from pyspark.pandas import read_csv
2) PayPal рассказал о новой библиотеке - Dione -  an indexing Library for data on HDFS and Spark.
источник
Инжиниринг Данных
Если вы используете Juputer Notebooks, то вам будет интересно почитать про движки рендеринга для ваших ноутбуков - nbconvert и Voilà

https://blog.jupyter.org/looking-at-notebooks-from-a-new-perspective-bfd06797f188
источник
Инжиниринг Данных
источник
Инжиниринг Данных
Новый перевод для вас: Apache Airflow и будущее инжиниринга данных: вопрос и ответы (В этом посте представлен перевод статьи на Medium от Maxime Beauchemin и Taylor D. Edmiston.)


Автор русской версии: Владимир Метенев, работает аналитиком в Belkacar. Пару лет назад перешел в сферу анализа данных и DS.
источник
Инжиниринг Данных
Прособеседуйте команду рекламных продуктов Яндекса

13 октября Яндекс проведёт онлайн-встречу Adtech, на которой вам попробуют доказать, что реклама — это прежде всего продукт, который состоит из сложных технологий, интересных задач и вызовов.

Приходите общаться с топовыми спикерами из продуктовых команд Яндекса:

- Руководителем рекламных продуктов Верой Лейзерович
- Руководителем нового рантайма и больших данных Алексеем Шлюнкиным
- Руководителем отдела качества рекламы Алексеем Штоколовым
- Руководителем службы конкурентного и бизнес-анализа Сергеем Линeвым

Если вы захотите присоединиться к команде, то 23 и 24 октября в Яндексе проведут Fast Track — онлайн-встречу, на которой можно будет пройти две технические секции и получить быстрый оффер в компанию.

- Зарегистрироваться на встречу с командой рекламных технологий
- Зарегистрироваться на Fast Track

PS пост поддержал приют для собак Зоорассвет в Москве
источник
2021 October 13
Инжиниринг Данных
Картинка, которую мы заслужили?))
источник
Инжиниринг Данных
Возможно вам понадобится использовать Scala для вашего аналитического решения. Скорей всего вы будете использовать Apache Spark.

Вот вам необходимые ресурсы, что подтянуть знания:
1. Курс Big Data Analysis with Scala and Spark (бесплатно на курсере)
2. Главный ресурс на гитхабе про Scala для Spark - Just Enough Scala for Spark
3. Еще один курс от Dean Wampler - Apache Spark Scala Tutorial
4. Databricks курс в их GitHub - Just Enough Scala for Spark
5. [Russian Speaking] Scala User Group
6. Телеграм чат @apache_spark
7. Just Enough Scala for Spark with Dean Wampler Spar Summit video

Все бесплатно и от лучших в индустрии.
источник
Инжиниринг Данных
У всех одинаковые возможность, но не все ими пользуются. Это я к чему? Хотел рассказать про недавний случай из Data Learn. В 3м модуле у нас есть выпускное задание от Романа Бунина, одного из ТОП экспертов по визуализации и Табло в России, у него еще есть отличный канал Reveal The Data, где он, в отличие от меня не спамит читателей так часто😜

Хочу показать пример выполнения задания и фидбек от Романа.

1. Задание:
Использовать данные Airbnb UK и построить дашборд в Табло, с инсайтами, конечно и удобным интефейсом.

2. Решение:
Андрей Созинов создал такой дашборд - https://public.tableau.com/views/airbnb_16332740965890/Dashboard

3. Фидбек от Романа:
Супер молодец, что сделал задание! Кайф.
Что можно улучшить.

Бизнес-польза/Аналитика:
— Нет никакого провала до уровня конкретных объектов → выбрать конкретный объект или сравниться с конкретным объектом не получиться. А это была одни их основных задач.
— Основная метрика анализа — загрузка, а она стоит третей в таблице и её нет на карте. Кажется, что дашборд должен был строиться вокруг неё.
— Просто вынести фильтры с параметрами недостаточно. Это не дает возможность сравнить разное количество спален, например. Чтобы сравнить метрики для 1 и 2 спален, придется перекликивать туда-сюда и запоминать метрики.
Дизайн
— Норм, но в целом всё прям супер просто.
— Зеленные строки пересекаются по цвету с зелёными областями на карте, появляется паразитная логическая связь. Можно подумать что в каких-то районах лучше, чем в других. Для подсветок в таблице и т.п. лучше использовать цвета, которые не привязаны ни к какой метрике/срезу.
— Идея выводить тайтл с районом прикольная, но выгядит не супер понятно, пока района не выбран.
Табло
— Фильтры как-то очень хитро сделаны, не понял зачем сделал сет. Можно было просто эти поля кинуть в фильтр.
Если до этого не работал в Табло, то супер хорошая первая работа. Мой вариант этого дешика на картинке ниже.


PS Роман часто ищет к себе Data Engineers и BI Engineers, спрашивайте его, не стесняйтесь!
источник
Инжиниринг Данных
источник
2021 October 14
Инжиниринг Данных
AWS SageMaker становится все популярнее для задач production ML или простого data science. https://towardsdatascience.com/industrializing-an-ml-platform-with-amazon-sagemaker-studio-91b597802afe
источник
Инжиниринг Данных
#dataengineering
источник
Инжиниринг Данных
Слышали вы про Shopify? Это такой конструктор интернет магазинов, где есть куча интеграцией. Можно продавать свои продукты, а можно делать drop shipping. Я сам создавал интернет магазины на Wix, WordPress и Shopify. Последний самый дорогой, но и самый приятный.

Сегодня увидел новость про появление Enterprise решений в маркетплейс. То есть это уже другой уровень магазинов и сразу подумал, что им не хватает там приложения data warehouse as a service. То есть пару кликов, и у вас готовые отчёты по вашим данным, и ваши данные живут в моей Redshift или Snowflake. Идея очень старая, и многие продукты так и работают. Но может быть кто-нибудь хочет со мной сделать плагин? Я вот только не по плагинам специалист.
источник
Инжиниринг Данных
Не думайте, что это только вы обманщик, и у вас симптом самозванца. На другой стороне тоже не пушистые зайчики😵
источник
2021 October 15
Инжиниринг Данных
🔥🔥🔥Давайте поприветствуем подписчика #10000 !!!🎊🎉
Дорогой друг, @kender_T ты как нас нашел?🤗

С ноября 2018 года прошло 3 года почти. Изначально я создал канал для лабы под Snowflake+Tableau workshop на 1м матемаркетинге. Ещё тогда про snowflake никто не знал даже в Канаде. А теперь, у всех по снежинке)))
источник
Инжиниринг Данных
Все приветики! Накидайте плиз материалы по домашнему обучению детей? А то вдруг путешествовать захотим или еще чего🤪
источник