Телеграмм чат группы begtin страница 105

Size: a a a

Ivan Begtin

2020 September 07

Для тех кто интересуется как устроено пространство работы с данными (data engineering) то весьма неплохая дорожная карта дата инженерии на Github [1]. Правда, я вот лично, могу сказать что я лично владею в основном другим стеком инструментов да и большинство devops и dataops инженеров тоже, поскольку в реальном мире ты, как правило, совмещаешь очень много ролей и профессий, и лишь немногие очень чётко и узко сфокусированы на развитии только в одном профессиональном направлении.

Что бы я отметил:
- есть очень большая разница в инструментах которые выходят из систем связанных с работой с онлайн пользователями и, например, с инструментами и средой работы с открытыми данными. Системы выходящие из цифровых стартапов почти все заточены на сбор данных систем аналитики, статистики, счетчиков и тд. Они как правило готовые или полуготовые, с кучей интеграций и работой в реальном времени.
- инструменты работающие с открытыми данными куда сложнее, даже если источников относительно немного, всегда есть проблема в том что публикующие данные меняют свои сайты, форматы, схемы предоставления данных. Сами данные публикуются изначально в различных формах. От данных в виде HTML таблиц, то Excel файлов упакованных в RAR или 7z архивы и тд. Есть несколько стартапов которые пытаются гармонизировать данные и решать эту проблему, но не то чтобы очень успешно. Также нет и универсального инструмента по сборке данных (data build tool).
- в принципе, с инструментами беда, особенно для государства. В России 2-3 решения имеющие коммерческую природу и чаще используется стек работы с данными Apache поскольку и Java специалистов много и инструменты вроде Hadoop'а уже входят в программы обучения во многих ВУЗах.

Интересно было бы поговорить о цельных стеках по data engineering в России. Кто какие инструменты использует и для каких задач.

Ссылки:
[1] https://github.com/datastacktv/data-engineer-roadmap

#data #dataengineering

GitHub

datastacktv/data-engineer-roadmap

Roadmap to becoming a data engineer in 2021. Contribute to datastacktv/data-engineer-roadmap development by creating an account on GitHub.