Size: a a a

Инжиниринг Данных

2020 December 02
Инжиниринг Данных
Правдивая история. Недавно знакомый рассказывал как его не взяли пожарным по этим же причинам - белый гетеросексуальный мужчина. На них квоты не было…
источник
Инжиниринг Данных
Еще одна компания по data, получила хорошие инвестиции. Раньше не слышал про них. Сервис занимается мониторингом data pipelines и ML моделей.

“Our users were in a constant battle with ETL (extract transform load) logic,” said Benamram, who spoke to me from New York (the company is based both there and in Tel Aviv, and also has developers and operations in Kiev). “Users didn’t know how to organize their tools and systems to produce reliable data products.”

Databand’s approach is to use big data to better handle big data: it crunches various pieces of information, including pipeline metadata like logs, runtime info and data profiles, along with information from Airflow, Spark, Snowflake and other sources, and puts the resulting data into a single platform, to give engineers a single view of what’s happening and better see where bottlenecks or anomalies are appearing, and why.
источник
Инжиниринг Данных
Переслано от Nikolay Golov
Добрый день :) ... Не реклама.
У нас новая статья вышла, про архитектуру хранилища ManyChat на базе Snowflake + Anchor Modeling, возможно читателей канала "Инжиниринг данных" заинтересует.
https://habr.com/ru/company/manychat/blog/530054/
источник
2020 December 03
Инжиниринг Данных
Отцы основатели хранилищ данных и методов работы с данными уже не молодые. https://liliendahl.com/2020/12/02/the-start-of-the-history-of-data-and-information-quality-management/amp/
источник
Инжиниринг Данных
Agile разработка продукта (data product) от Slalom _built (это подразделение, которое занимается внедрением, они очень красиво упаковали свой консалтинг - Build as a Service).
источник
Инжиниринг Данных
источник
Инжиниринг Данных
Я заметил интересную особенность - рост аудитории телеграмм канала “Инжиниринг данных” или ютуб “datalearn” очень медленный. Сначала это расстраивало, но потом я понял это даже хорошо, так как тут меньше хайпа как с AI/ML. Тут реальные вещи и знания, которые решают конкретные задачи, ну и конкуренция на рынке меньше, так как все ломятся в data science🤗
источник
Инжиниринг Данных
Из канала slack data learn, который про SQL
источник
Инжиниринг Данных
Всем привет!

Меня зовут Денис Соловьёв, я web-аналитик и Data Engineer в компании Promodo. Я решил создать канал про Data Engineering, аналитику и данные в целом, так как уверен, что полезный контент помогает находить оптимальные решения для бизнеса и развить критическое мышление.
Благодаря этому, мы развиваем индустрию и делаем этот мир немножко лучше 🌎
Это, так сказать, миссия нашего канала)

Здесь я буду публиковать посты, ссылки, видео и подкасты, которые затрагивают общие принципы работы с данными, полезные инструменты из арсенала инженеров данных и аналитиков, облачные технологии а также главные тренды data-индустрии.
Я хочу, чтобы читатели не просто зацикливались на конкретных инструментах, но и понимали, как их переложить на конкретные задачи бизнеса и приносили реальную бизнес-ценность. Поэтому постараюсь дополнять материалы примерами кейсов, где имеет смысл применять тот или другой инструмент.

Также побуждаю всех к здоровой дискуссии в комментариях, так как именно в дискуссии рождаются крутые идеи для оптимизации существующих решений и создания классных продуктов.

Я планирую каждый пост помечать хештегом. Пока есть идея размечать посты по уровню сложности: #easy, #medium и #hard. Возможно, потом придумаю какую-то систему для объединения постов в темы. Обязательно об этом расскажу)

И напоследок немного о себе:
- финансист по образованию, но свой карьерный путь начал в digital-маркетинге
- 1 год работал менеджером по платному трафику, потом стал руководителем отдела
- руководить мне не понравилось, и я начал изучать всё, что касается данных
- люблю строить современные аналитические платформы в облаке
- анализировать умею, но больше кайфую от инжиниринга
- отдыхаю, проводя время с близкими людьми)

P.S. Пожалуйста, в комментариях относитесь друг к другу с уважением. У всех разный уровень знаний и навыков, но все мы учимся и канал как раз для этого и создан.
источник
Инжиниринг Данных
Сейчас многие хотят в штатах работать, может в 2027, все захотят в Китае быть, если они станут топ страной, хотя там уже будет все автоматизировано и роботизировано. Интересное выступление, не знаю насколько оно правидивое. А может к 2027 Россия встанет с колен, ну или точнее после 2036.
источник
2020 December 04
Инжиниринг Данных
Импортозамещение? Open-source? Интересно зачем покупать Postgres Pro за 267млн рублей, наверно кто-то потом дачу новую построит себе и не одну. Сколько можно облачных сервисов гонять в облаке за эти деньги. Кто-нибудь знает, что это за pro?
источник
Инжиниринг Данных
Недавно я скидывал про анонс мероприятия от СЕО Microsoft про аналитику. Он презентовал Azure Synapse Analytics. Это облачное хранилище данных от Microsoft с интеграцией других продуктов Azure. Когда мы будем делать Redshift на Datalearn, сделаем synapse тоже.
источник
Инжиниринг Данных
3х недельная конференция от AWS - reInvent. Будем много про аналитику.
источник
Инжиниринг Данных
Amazon Quicksight неплохо прокачался за год!
источник
Инжиниринг Данных
Небольшой Q&A про data engineering.
источник
2020 December 05
Инжиниринг Данных
Snowflake подарил книжку (я же data hero) - The rise of the data cloud.
источник
Инжиниринг Данных
В США случился новый и несколько неожиданный наезд на Facebook, который может коснуться и других технологических компаний -- и уж точно не останется без их внимания. Министерство юстиции объявило, что выдвигает обвинения против Фейсбука; компания виновна в том, что с 2018 года последовательно дискриминировала граждан Америки при найме, предпочитая им иммигрантов. Компания при этом помогала с получением временных рабочих виз.
"Our message to all employers -- including those in the technology sector -- is clear: you cannot illegally prefer to recruit, consider, or hire temporary visa holders over U.S. workers."
Интересно, насколько пострадает ФБ и как изменится практика глобального найма, которая не только для ФБ характерна

https://abcnews.go.com/Business/justice-department-alleges-facebook-discriminated-american-workers-lawsuit/story?id=74523040
источник
Инжиниринг Данных
источник
2020 December 07
Инжиниринг Данных
Adobe’s experience platform data lake currently processing ~1 million batches per day, which equates roughly to 13TB of data and 32 billion events. Data management at scale brings unique challenges of data reliability, read reliability, and scalability. Adobe writes an excellent post with an overview of the data lake and the effective usage of Apache Iceberg to manages the data lake.
источник
Инжиниринг Данных
Сегодня можно будет посмотреть dbt101 на английском. Важный элемент экосистемы инженера данных, можно не использовать, но надо знать, что это такое.
источник