Size: a a a

Инжиниринг Данных

2022 February 03
Инжиниринг Данных
Авито написали как у них эволюционирует хранилище данных.
источник
Инжиниринг Данных
через 40 минут начинаем:
https://youtu.be/4voLlzLT3uM
источник
2022 February 04
Инжиниринг Данных
На мой взгляд индустрия онлайн образования деградирует в качестве. Уж очень много народу устремилось туда в погоней за хялявными деньгами, продавая несбыточные мечты таких же халявных денег учащимся. Здесь отслеживается четкая закономерность болезни роста - чем больше бизнеса становится, чем хуже качество. Меня постоянно догоняет реклама всяких курсов и марафонов как халявней, и с меньшими усилиями поучиться, и повысить свой доход.

Я потратил 35 лет своей осознанной жизни в поисках способа учиться быстрее и эфффективнее. Почти бился об стену, чтобы найти священный грааль. И знаете не нашел…  Кроме адских усилий, мазолей на пальцах от исписанных листов бумаги. Чтобы поступить на Физтех из самой обычной провинциальной с обычными учителями школе пришлось набраться очень большого терпения, засучить рукава и решать в течение года олимпиадные задачи по физике и математике  по 4 часа каждый день (без репетиторов). Аналогично было и с английским, со спортом (да, да, ничего не заменит тренировки, просто их нужнее сделать чуть умнее.) И с машинным обученим, c музыкой, и с рекомендательными системами. Ничто не заменит собственные умственные усилия для достижения чего-то. No pain, no gain.

За последние 12 месяцев я прошел две специализации на Coursera и еще один курс по Reinforcement learning. Плюс еще несколько у меня за плечами (Scala, и курс по алгоритмам). По ним я увидел несколько закономерностей. Лучшие курсы все-таки получаются у людей, кто много делали практику, но и очень много преподавали!  Именно поэтому я не буду делать свой курс. Раньше я презирал теоретиков, и очень любил практиков. Но похоже без них нельзя сделать практику интересней - они все время сорвенуются и пытаются обогнать друг друга.
Второе - самый лучший критерий оценить собственное понимание - это решить задачу с нуля. Просто взять чистый листый бумаги и с минимум подсказок решить задачу хотя бы в первом приближению. Любую задачу, ну а если еще можете объянить ее решение - то это уже большой шаг вперед. То же самое касается музыки и языков. Музыка - можете сыграть что-то простое с листа? Можете на слух подобрать мелодию и сыграть, можете подыграть кому-то? Язык - можете объяснить кому-то что-то и т.д. И самое интересное про курсы - в большинстве случаев я уже через месяц начинал забывать, а что собственно там было. Это как после хорошей книги - книга понравилсь, но она всего лишь расширила ваш кругозор, ничего более. Но в следующий раз я знаю, куда мне пойти, чтобы быстро ответить на мой вопрос, который я встречу на практике.


PS:
-К сожалению, даже хорошим качественным курсам приходится  использовать обычные “продажные” техники маркетинга, которые эксплуатируют нашу страсть к халяве, чтобы пробиться через шум всех остальных. По каждому курсу Coursera, который я прошел, я напишу мини-отчет в ТГ канале книги по каждому - буквально в несколько предложений.
⁃ Один мой хороший знакомый, который читал речь аудитории в 30000 человек на стадионе (конечно без презентации) сказал - относись к этому как к театральному представлению. Люди запомнят больше того, кто их развлек больше. [Это и есть маркетинг знаний]
источник
Инжиниринг Данных
Получил сегодня такой фибдек. Конечно тут мало заслуги datalearn, и автор превзошел все ожидания. Его пример показывает, что все реально! Может не тем мы занимаемся? Надо бежать в системные аналитики=)

Больше года пытаюсь пройти даталерн, все время что то отвлекает.
Начал, когда ещё в Сбере работал системным аналитиком.
В системные аналитики я случайно попал, вначале показалось интересным, но со временем понял, что хочу кодить.
Вот и начал даталерн изучать.
В Сбере ЗП была 114к, вроде бы хорошо, но через полгода начал собеседоваться и попал в интегратор с зп 230к. И подумал, что может быть ещё лучше. И тут как раз ты начал активно развивать тему с несколькими работами, моя жена заметила твой один из первых постов про 2 работы.
Так я и нашел свою 2 работу с ЗП 300к по ИП. Правда так же системным аналитиком. Получается 500к в мес, вроде не плохо. Еще в июне 2020 года ЗП была 45к.
Сейчас хочу найти 3 работу, так как свободное время ещё осталось. План на год суммарная зп на 800к и одна из работ должна быть иностранной (для этого хожу к репетитору по английскому)
В прошлый год ставил цель 220к, перевыполнил план в 2 раза=)
Хотел сказать тебе спасибо за курс, за канал и за много полезной инфы. Благодаря этому я понял, что можно иметь больше)
Я все ещё не теряю надежды стать дата инженером)
источник
Инжиниринг Данных
Всем привет, ко мне обратились ребята из Германии, у них небольшой бизнес на Амазоне. Они задумывались о создании аналитического решения с 0. Мы с ними пообщались и придумали такую штуку. Взять несколько активных студентов даталерн и за бесплатно сделать реальный проект на AWS. Создать хранилище и ETL. Собрать данные и проверить гипотезы.  Это будет реальный опыт + бест practices от меня. Ну и все потом задукоментировать на хабре и может вебинар сделать.

Так как у нас slack мертвый, я даже не знаю кто у нас активный, а кто нет, кто делает дз, а кто нет. Напишите мне в слаке, и скиньте ваш прогресс по datalearn. Нужно пройти модуль 1,2,3,4,5,6. В 6 только Redshift.

Необязательно делать все домашки, но хоть что-то. Кстати никто не сделал все домашки.
источник
2022 February 05
Инжиниринг Данных
"В чем сила брат? В деньгах? Сила в правде, у кого правда, то и сильный"

Решил записать покаст про насущную проблему

В этом подкасте я размышлял на тему вопроса - "Сколько нужно зарабатывать, чтобы жить комфортно?" Ответ очевидный, чем больше, тем лучше. Но в действительности, я пришел к выводу, что если после всех базовых потребностей остается 50% от вашей зп, то это можно считать это хорошим показателем, лично для меня. Так как жить от зарплаты до зарплаты, это как носить воду в друшлаке. Не вариант. Надеюсь мои идеи и мой опыт сможет вам посмотреть на вопрос заработка с другой стороны и понять, где же у вас line in the sand.

PS если вам говорят, что ваша зарплата "в рынке" это можно воспринимать как личное оскорбление, и значит вы далеко ниже реального рынка😜


https://anchor.fm/dmitry23/episodes/ep-e1dun3p
источник
Инжиниринг Данных
Сейчас в Канаде активно набирает движение Freedom Convoy 2022.
Они подробно публикуют апдейты у себя в инстаграмме.

Мои родители меня спрашивают про это движение при каждом со звоне. В российских новостях этому уделяют больше внимание, чем  в Канадских оффициальных.

Все началось очень просто, водителей, которые гоняют в штаты попросили сидеть на карантине 2 недели, если нет прививки, даже если они не выходят из машины. К счастью, у них есть своя ассоциация водителей и они решили, сказать государству - "а не офигели ли вы там случайно?" Сели в траки (прям как в фильме резиновый утенок) и поехали в Оттаву.  

Пока они ехали, Трюдо сказал, что эти водители "‘Fringe minority’ in truck convoy with ‘unacceptable views’ don’t represent Canadians". Ведь людей без привок меньше 10 процентов. Но не тут то было, люди сказали "enougth is enogth". И Вышли на улицу, вышли ради своих детей, ради своих свобод. Они решили мирно высказать свое мнение и донести свою позицию до госудрства. Это движение anti mandate и ограничений. Кто хочет носить маску и сидеть дома, пусть сидит, кто не хочет, пусть живёт нормальной жизнью. Но государство не слышит. Или им это не выгодно в прямом и переносном смысле.

Илон Маск, написал "fringe minority is actually the government". Илон, ты красавчик! Дай пять ✋

Кто не в теме, думает, что это движение антиваксеров и плоскоземельщиков. Именно это по оффициальным новостям и крутили. Но это совершенно не так. Это движение и единенение канадцев за их свободы и права. Канада была знаменита своими свободами, есть оффициальный документ - Canadian Charter of Rights and Freedoms.  В пандемию все свободы пропали. Тут сильно развит малый бизнес, который был закрыт в пандемию и многое другое.

Последние пару лет мы стали уже париться про то, что Канада может быть и не такой прекрасной как нам казалось.  Некоторые наши знакомые вернулись в Россию, другие в штаты.

Благодаря этим людям, Канадцы сплачиваются, выходят на улицу, и мирно бастуют. Люди ездят с флагами по всей стране. Это прекрасное ощущение единения простых людей, которые мирно и настойчиво отстаивают свои права.

В России пришла бы гвардия, отфигачила половину людей, других посадили, чтобы им было не повадно. В Беларуссии наверное похожая ситуация. Здесь ситуация другая, даже полицейские лояльны к движению, они не зависят от системы, они канадцы и любят свою страну.

Пока обходится все мирно. Несмотря на большое колличество провокаций, канадцы оперативно решают вопросы. Они чистят улицы, убирают мусор, кормят бездомных. Люди приносят еду, предоставляют ночлег.

Лично для меня и для многих наших знакомых это движение вернуло нам веру в канадцев и Канаду и мне действительно приятно себя ощущать канадцем и поддерживать таких людей.

Неважно какие будут результаты этого движения, о котором знает весь мир, меня переполняют чувства радости и поддержки к этим людям и мне приятно осозновать, что в Канаде столько добрых и замечательных людей! 🇨🇦
источник
Инжиниринг Данных
▶️3️⃣8️⃣
Ещё один эпизод в копилку “технических”. Мы добрались до Snowflake и послушали правильного для этой темы человека! В гостях подкаста Data Coffee🎙 был Антон Ревяко — автор канала “Сингулярности не будет”, фаундер holistic.dev, dwh.dev и parsers.dev, заводила в snowflake чатах и канале со snowflake новостями.

Затронули следующие темы:
— что у Snowflake “под капотом”🏗
— что такое data marketplace🛍
— masking policies🎭
— зачем нужны статические анализаторы🔍
— а также история двух кофеен и другое

Слушайте подкаст🎧, пейте кофе☕️, и конечно же наслаждайтесь☀️!

#datacoffee #data #podcast #данные #подкаст #news

https://anchor.fm/data-coffee/episodes/38--Snowflake-Data-Cloud-e1dued5
источник
2022 February 06
Инжиниринг Данных
Data learn Update. Я знаю вы ждете главу 7 про Spark. У меня уже все готово в голове. Я покажу Spark, расскажу попростому зачем он и что это такое, без всяких там RDD (их упомяну но использовать не хочу), чтобы вы смогли быстро понять, что за зверь и как его использовать/используют.

Проблема задержки в моем курсе по Cloud Computing в универе. Прошло 3 недели, еще 3 осталось. В неделю у меня 2 урока по 2 часа. То есть, то, что я могу рассказать за 30 минут, мне надо рассказывать 4 часа. Я так много могу говорить только про Аналитику в Облаке, а все остальное было очень кратко. То есть мне надо дико увеличивать объем слайдов с 20-30 до 150-200! Это занимает столько время, что у меня не остается на data learn и вообще даже на просто отдохнуть.

Помимо data learn мне нужно было въехать с 0 в Terraform, и я могу сказать, мне эта штука очень понравилась (вместо того, чтобы кликать мышкой в консоле облака, мы пишем код и terraform создает ресурсы для нас). Уже 2 недели ковыряю его на AWS, и есть результаты. Вчера начал на Azure, все завелось с 1го раза. Обязательно добавлю это дело в курс. ну и CI/CD тему тоже хочется получе понять. Я еще не видел ниодного доступного объяснения про DevOps для кейсов аналитики. Либо глубоко, либо поверхностно. И то и другое бесполезно, приходится вгрызаться в эти знания на Production. Зато потом смогу дености своим языком и будет всем счастье!))

Заметьте, даже и мысли не было использовать платные курсы! 😜
источник
Инжиниринг Данных
Переслано от Alexandra
Приглашаем на бесплатный онлайн-митап Microsoft. Тема — «Microsoft Virtual Training Day: основы Power Platform».  
9 февраля в 12.00 (МСК)

За 2,5 часа вы узнаете, как:
> создавать многофункциональные приложения;
> анализировать бизнес-производительность в режиме реального времени;
> анализировать данные и автоматизировать рабочие процессы для максимальной эффективности;
> использовать Dataverse для безопасного хранения данных и управления ими.  

Вебинар впервые пройдёт на русском языке!

Зарегистрироваться можно уже сейчас: https://bit.ly/35HQHAh
Количество мест ограничено!
источник
Инжиниринг Данных
Тема злободневная. https://habr.com/ru/post/650003/
источник
2022 February 07
Инжиниринг Данных
​​#Spark #Streaming #BigData #Structured

Spark Structured Streaming  - это масштабируемый и отказоустойчивый механизм потоковой обработки данных на основе движка SparkSQL (см. официальную документацию Spark). Движок Spark SQL заботится о том, чтобы поток данных обрабатывался постепенно и непрерывно, обновляя конечный результат по мере поступления новых потоковых данных.

По итогу мы можем работать со стандартным инструментарием SQL-запросов через DataFrame API или операции Scala в DataSet API, чем Spark Structured отличается от Spark Streaming. Ключевая идея структурированной потоковой передачи состоит в том, чтобы обрабатывать поток данных в режиме реального времени как таблицу, которая постоянно обновляется - добавляются новые записи.

Эта неограниченная по глубине таблица продолжает увеличиваться по мере поступления новых данных и непрерывно обрабатывается с помощью долго выполняющегося запроса. Результаты обработки записываются в выходную таблицу. Каждый интервал триггера (скажем, каждую секунду) к входной таблице добавляются новые строки, которые в конечном итоге обновляют таблицу результатов (выходную таблицу).

На вход Spark Structured Streaming принимает файлы или данные из Kafka. Вывод данных определяет то, что именно будет записано во внешнее хранилище. Существует несколько режимов в Spark Structured Streaming:

⚙️ Режим добавления: во внешнее хранилище будут записаны только новые строки, добавленные в таблицу результатов с момента последнего триггера. Это применимо только к запросам, в которых не предполагается изменение существующих строк в таблице результатов.

⚙️ Режим обновления: во внешнее хранилище будут записываться только те строки, которые были обновлены в таблице результатов с момента последнего триггера.

⚙️ Полный режим: вся обновленная таблица результатов будет записана во внешнее хранилище. Storage Connector должен решить, как обрабатывать запись всей таблицы.

Какие же основные достоинства у этого механизма по сравнению с обычным Spark Streaming?

📍Мы используем DataFrame/DataSet вместо RDD, что обеспечивает более высокий уровень абстракции и позволяет гибко манипулировать данными, включая поддержку всех этапов оптимизации SQL-запросов

📍Начиная со Spark 2.3, в Spark Structured Streaming вместо микропакетной обработки поддерживается непрерывная, которая работает с минимальной задержкой (до 1 миллисекунды), что существенно ускоряет обработку данных.

📍Повысилась надежность и отказоустойчивость за счет условий восстановления после любой (!) ошибки - например, через воспроизводимость источника данных в случае сбоя.

📍Обработка времени события - времени, когда событие действительно (вне Spark) произошло. Это позволяет повысить точность вычислений и обработать события, которые пришли в Spark с опозданием.

Таким образом, для полноценной отказоустойчивой потоковой обработки, на мой взгляд, лучше использовать Spark Structured Streaming.
источник
Инжиниринг Данных
Eсть такой известный в узких кругах древний как бивни мамонта постер - Модель BI Зрелости от авторитетных ребят из TDWI. Прошло прилично времени, много BI продуктов родились и умерли, но постер все еще хороший и таки актуальный:

... сейчас кажется 95% компаний прям таки столпились на краю второй пропасти ("chasm") для шага из teenager в adult стадию. В этой точке сходятся кривые гибкости и стандартизованности. Выход - сложные переговоры и консолидация аналитики и BI ландшафта. Где-то в этой же точке происходит переход от Self-Service к Customized Delivery, открывающий перспективу роста для числа casual users в бизнесе. Похоже на правду.

Кажется авторитетные ребята шарят и уже тогда что-то знали..

P.S. Всем BI Зрелости в новом году)🎅 Побольше адекватности и драйва! С наступающим!

P.S. Всем BI Зрелости в новом году)🎅 Побольше адекватности и драйва! С наступающим!

Постер в высоком разрешении
🔗 TDWI_BI_Maturity_Model_Poster

#biстратегия
источник
Инжиниринг Данных
Пост про подходы проектирования современного озера данных. И есть еще запись от AWS про схожую тему - Modern Data Lake Storage Layers
источник
Инжиниринг Данных
Всем привет!
В четверг (10 февраля) в 19:00 по мск вебинар.
Мы познакомимся с платформой по подготовке данных - Alteryx.
Тема: Знакомство с Alteryx на практике.

Чем будем заниматься:
Познакомимся с Alteryx и постараемся понять зачем он вообще нужен за такие-то деньги ($5к Individual User/Year).
За пару минут спарсим ~15 Гб данных и поразмышляем о вине и мифах он нем.  
А именно, на основе собранных данных ответим на вопросы:
- Правда ли, что французское вино всегда лучше чилийского
- Действительно ли белое больше подходит к рыбе, а красное к мясу
- Определим всегда ли старое вино лучше молодого
- И есть ли корреляция между ценой на вино и его качеством

Спикер - Георгий Виноградов,
Head of Data Management at Novartis

Контакты спикера:
https://www.linkedin.com/mwlite/in/georgiy-vinogradov-b4208756
@vinogradov_g

Ссылка на вебинар:
https://youtu.be/G5B61Swflf4

Ставьте колокольчик, чтобы не пропустить
источник
2022 February 08
Инжиниринг Данных
Data-driven организация с BI культорой))
источник
Инжиниринг Данных
После недавнего поклощения - колличество сотрудников в MS Gaming
источник
Инжиниринг Данных
data tool = octopus?)
источник
Инжиниринг Данных
мы слышали много раз про dbt tool, у них большое сообщество и есть конференция Coalesce, следующая будет в 2022 году. Имя на слуху. А что если назвать data компанию coalesce? Удобно же, будет хорошая "органика". И действительно, есть такая компания - coalesce announces 5.82m$ seed funding (reimagine data transformations). Я бы назвал компанию reInvent если че))
источник
2022 February 09
Инжиниринг Данных
Пробило чего-то сегодня на такой вот текст размышления, куда двигаться и в какой индустрии развиваться. https://vc.ru/future/362168-konec-duopolii-ili-kuda-dvizhetsya-tech-industriya
источник