Size: a a a

Инжиниринг Данных

2021 September 25
Инжиниринг Данных
Twilio сделало интерактивную игру, в который вы можете учить программирование https://www.twilio.com/quest

Top-Secret JavaScript Test Lab
At a remote research station deep within The Cloud, TwilioQuest scientists study the raw and untamed power of the JavaScript programming language. Join the research team and prepare yourself for an explosive discovery!

Mysteries of the Pythonic Temple
Uncover the secrets of the Python programming language as you explore the ancient Pythonic Temple, the last surviving structure of the fabled City of Python.

OSS Elephpant
Explore a colony ship of techno-anarchist PHP developers known as the OSS Elephpant. Assist the ship's onboard AI to restore critical systems and save the colonists, while learning the PHP programming language!

The Flame of Open Source
The evil Legacy Systems have stolen the legendary Flame of Open Source and hidden it in the center of a maze in an enchanted forest! Reclaim this lost power and clear the way for all developers to contribute to open source.
Top-Secret JavaScript Test Lab
At a remote research station deep within The Cloud, TwilioQuest scientists study the raw and untamed power of the JavaScript programming language. Join the research team and prepare yourself for an explosive discovery!

Mysteries of the Pythonic Temple
Uncover the secrets of the Python programming language as you explore the ancient Pythonic Temple, the last surviving structure of the fabled City of Python.

OSS Elephpant
Explore a colony ship of techno-anarchist PHP developers known as the OSS Elephpant. Assist the ship's onboard AI to restore critical systems and save the colonists, while learning the PHP programming language!

The Flame of Open Source
The evil Legacy Systems have stolen the legendary Flame of Open Source and hidden it in the center of a maze in an enchanted forest! Reclaim this lost power and clear the way for all developers to contribute to open source.
источник
Инжиниринг Данных
Доброго утречка, уважаемые слушатели! Подкаст “Data Coffee”🎙 спешит порадовать вас свежим эпизодом.

Поговорили в этот раз про open source BI-инструмент — Apache Superset. Не пропустите😉

#datacoffee #data #podcast #данные #подкаст

https://anchor.fm/data-coffee/episodes/18--Apache-Superset-e17q7ol
Anchor
18. Apache Superset by Data Coffee
Тема выпуска "Apache Superset"!

Подкаст `Data Coffee` — информационный партнёр конференции SmartData 2021. SmartData — это большая техническая конференция по Data Engineering. Десятки докладов, воркшопов, Q&A-сессий — первые доклады и имена спикеров уже появляются на сайте! Промокод на 2000 рублей: datacoffe2021JRGpc

Shownotes:
00:35 Кофе с заменителем молока, который приходится любить
02:09 Что такое Apache Superset и зачем его использовать
07:27 Основные функции и типы источников данных
12:12 Насколько сложен инструмент для менеджеров и аналитиков
13:42 Кастомизация
18:47 Внутреннее представление данных и загрузка своих csv/xlsx
20:41 Что можно сделать с данными после их получения
26:16 Доступ и полномочия
29:28 Способы запустить локально и развитие продукта
31:50 Динамические дашборды и Jinja-шаблонизация
34:47 Как обновляются дашборды, realtime и GIS-данные
39:35 Насколько стабилен Superset и чего в нём не хватает
45:27 Зачем забирать данные из Elasticsearch в Superset
46:49 Superset as a Service
49:41…
источник
Инжиниринг Данных
Отличные примеры про использование error handler in Python "Python Try and Except Statements – How to Handle Exceptions in Python" https://www.freecodecamp.org/news/python-try-and-except-statements-how-to-handle-exceptions-in-python/
источник
2021 September 26
Инжиниринг Данных
источник
2021 September 27
Инжиниринг Данных
источник
Инжиниринг Данных
Инженеры PayPal сравнивают BigQuery и Dataproc with Spark (как я понимаю это Hadoop кластер, такой же как AWS EMR, Azure Hdinsight). Вопрос интересный - условно классическое хранилище данных против big data озера данных.
источник
Инжиниринг Данных
Статья написано про конкретный пример - пароли в Python, то есть о том, что нельзя хранить их в коде. На самом деле топик достаточно обширный. В облаках я уже привык использовать решения для безопасности, где я могу хранить ключи - AWS Secret Manager или Azure Key Vault. А как вы храните пароли, если не используете облако?

Другая проблема - это ротация паролей и ключей каждые 90 дней. Например, AWS Secret может сам меня ключ IAM secret key и подставлять в код - идеальный сценарий. У Azure, да и AWS можно вообще обходится без паролей, что тоже очень хорошая практика. Но интересно как с этим on premise?

"Stop Hardcoding Sensitive Data in Your Python Applications | by Ahmed Besbes | Sep, 2021 | Towards Data Science" https://towardsdatascience.com/stop-hardcoding-sensitive-data-in-your-python-applications-86eb2a96bec3
источник
Инжиниринг Данных
Наконец-то созрел сделать подборку аналитических блогов в телеграме в виде новой статьи блога. Однако, чтобы было интереснее подборка составлена не вручную, а на основе графа связей, построенного с помощью Python. В качестве стартовой точки были взяты тексты телеграм-канала Интернет-аналитика и выделены те аналитические каналы, на которые Леша Никушин в нем ссылался. Получился список таких каналов и процедура проделана еще раз, итеративно: мы взяли тексты всех записей этих каналов и распарсили их, нашли упоминания всех других аналитических телеграм-каналов. С парсингом текстов помогал стажер Андрей, а затем я построил граф связей на основе полученных данных, используя тулзу из Georgia Tech.

В результате по показателю degree (количество связей), топ-10 каналов выглядит так:
1. Интернет-аналитика @internetanalytics
2. Reveal The Data @revealthedata
3. Инжиниринг Данных @rockyourdata
4. Data Events @data_events
5. Datalytics @datalytx
6. Чартомойка @chartomojka
7. LEFT JOIN @leftjoin
8. Epic Growth @epicgrowth_chat
9. RTD: ссылки и репосты @rtdlinks
10. Дашбордец @dashboardets

По-моему, получилось супер-круто и визуально интересно (тул немного глючит, поэтому сделайте зум-аут в правом нижнем углу), а Андрей – большой молодец! Кстати, он тоже начал свой канал «Это разве аналитика?», где публикуются новости аналитики.

Забегая вперед: у этой задачи имеется продолжение. С помощью Марковской цепи мы смоделировали в каком канале окажется пользователь, если будет переходить итеративно по всем упоминаниям в каналах. Получилось очень интересно, но об этом мы расскажем в следующий раз!
источник
Инжиниринг Данных
Иногда в контексте встреч на работе встречается слово - vanilla, нет, это не про мороженное!

Vanilla software - In computer science, vanilla is the term used to refer when computer software and sometimes also other computing-related systems like computer hardware or algorithms are not customized from their original form, i.e., they are used without any customizations or updates applied to them.

Vanilla software has become a widespread de facto industry standard, widely used by businesses and individuals. The term comes from the traditional standard flavor of ice cream, vanilla.

According to Eric S. Raymond's The New Hacker's Dictionary, "vanilla" means more "default" than "ordinary".
источник
Инжиниринг Данных
В августе вышла новая книга - Tableau Strategies (книжка не для новичков).

Содержание:
1. Categorical Analysis
2. Quantitative Analysis
3. Making Comparisons
4. Working With Time
5. Key Performance Indicators
6. Building Impactful Tables
7. Working With Geospatial Data
8. Advanced Mathematical Concepts
9. Constructing Dynamic Analyses
10. Advanced Data Modeling
11. Advanced Interactivity
12. Building Dashboards And Data Products
13. The Broader Tableau Ecosystem
14. Industry Frameworks

https://learning.oreilly.com/library/view/tableau-strategies/9781492080077/
источник
Инжиниринг Данных
У нас в чатике Инжиниринг Данных много интересных дискуссий про зарплатные ожидания, про страны для миграция, про условия труда и тп. Когда у меня есть время повтыкать в телефон, например в очереди, то очень помогает с пользой скоротать время🙃 В общем, получилось классно.

Последняя тема была - курсы по математике для Data Science. Тема безусловно важная и в наши дни по ней очень много ресурсов. А я хотел рассказать про свой опыт по этому вопросу, но только в 2014 году.

Если отмотать время назад, то в 2010-2011 годах не было data science, но был data mining (всем известные методы регрессии, кластеризации, классификации) на основе математических моделей. В индустрии обычно банки использовали data mining для моделей кредитного скоринга и там работали математики, как правило. Я же работал в 2010 году в банке, и для меня кредитный и риск отдел это была элита.

Про data mining я узнал из книжки (must have для студентов datalearn) - Паклин Н.Б., Орешков В.И. - Бизнес-Аналитика От Данных К Знаниям (можете найти ее легко). В книге 3 части:
1) В целом про аналитику, BI, DW, ETL. Концепция, для 2010 года это была находка, ничего больше не было, кроме Кимбала и Инмана, а там уснешь пока их прочитаешь.
2) Про data mining методы, как работает математика и все такое. Ну я особо не вникал.
3) Бесполезная часть про их продукт deductor. Насколько я понимаю этот продукт неплохо справляется с задачами. Не знаю как у него сейчас дела. Кто знает?

Затем, работая в Терадата, некоторые консультанты побежали изучать Data Science напримере продукта Teradata Aster,  там использовали R в основном. Несколько ребят неплохо развились в этом направлении и потом разъехались по миру.

Я был полностью погружен в изучение SQL и SAP Business Objects. Но тренда на дата саенс набирал обороты и я нашел хорошую книгу по этой теме - Doing Data Science 2013 год. Прочитал ее, но ничего не использовал. В это же время на курсере вышло много курсов по Data Science, причем все были на R. В то время, только ленивый не смотрел курсеру и не учил R.

В 2014 году я решил, что пора более углубленно изучать data science, НО!!! Мне нужен курс по математике сначала. А такого контента не было и в помине. Я пошел на Авито и стал писать репетиторам по математике, потом переписывался долго и упорно с ними. Но никто не мог понять, что мне нужно и как мне помочь. На этом, мое изучение data science закончилось и я стал больше фокусироваться на End to End решениях и интеграции данных из Source в облачное DW. А про роль Data Engineer я узнал только в 2016 году, а понял, что это такое, только в 2017.

Сейчас уже обратная проблема, как найти нормальные материалы в океане курсов и книг.
источник
2021 September 28
Инжиниринг Данных
Собеседование в X5 для инженера данных. Я бы его точно завалил. Classы я совсем не использую, но, наверно, в условиях высокой кастомизации и концентрации on-premise решений, без них уже не обойтись.
источник
Инжиниринг Данных
28 сентября день рабочего стола! С чем я вас и поздравляю! Присылайте свои рабочие места в комментарии. #деньрабочегостола
источник
Инжиниринг Данных
Коротенькая книжка от отца хранилищ данных (при поддержки Databricks) - Building the Data Lakehouse
By Bill Inmon, father of the data warehouse. Странно, но книжка не полная, а лишь 35 страниц. Где ещё 170 не знаю🙄
источник
Инжиниринг Данных
Следующий урок в Datalearn будет про Snowflake. У них как раз будет конференция Snowflake Build 4-5 Октября сразу в 3х регионах. Как минимум я вам рекомендую послушать Keynote (на любой конференции они интересны и полезны), чтобы знать куда движется аналитический продуктовый мир. https://www.snowflake.com/build/?utm_campaign=Teradata
источник
Инжиниринг Данных
Хорошая идея для всех отечественных конференций - кофе в подарок. Я зарегистрировалс на Databricks событие - Building an Open, Petabyte-Scale Data Platform With Databricks, а они такие добрые, прислали карточку на 5$!)
источник
Инжиниринг Данных
Я всегда говорю - собеседования это хорошо, лишний раз пообщаться с умными и интересными людьми никому не навредит😉

Я обратил внимание на разницу в вопросах между РФ и Северной Америке. Вот некоторые вопросы:
- Ваш пол - sex (3 варианта ответа)
- Как вы себя идентицируете - gender identity (11 вариантов ответа)
- Какой вы рассы (10 вариантов)
- Ваша сексуальная ориентация (7 вариантов)
- Есть ли у вас инвалидноть (disability)
- В штатах обязательно еще вопрос про ветеранский статус.

Конечно в каждом вопросе есть Other и I don't want to answer.

В РФ обычно один вопрос - какие зарплатные ожидания.
источник
2021 September 29
Инжиниринг Данных
Совсем недавно Amazon анонсировал много классных новых устройств. Есть видео, где за 1 минуту вам все покажут и расскажут.

Когда я был в Амазоне, я был подписан на beta alexa, и мне каждый месяц присылали всякие новые девайсы попробовать. Но когда я уходил, все попросили сдать:(
источник
Инжиниринг Данных
Вот это я понимаю реклама курсов!
источник
Инжиниринг Данных
А вот служба поддержки разочаровывает 🙃
15 дней на ответ совсем не о том.

P.S. пытаюсь поставить clickhouse-jdbc-bridge на управляемую версию CH от Я.Облака, чтобы писать запросы к другим базам из CH. Хитрый замысел.
источник