Size: a a a

Инжиниринг Данных

2020 May 06
Инжиниринг Данных
Привет знатокам Spark. У меня вопрос. У меня есть файлов CSV (обычная таблица) 400Гб в S3. Я запустил EMR+Spark. Выбрал 4 рабочих ноды r5a.4xlarge (128GB RAM каждый).

В ноутбуке создал  data frame
df = spark.read.format("csv").option("header", "true").option("delimiter", '|').load("s3://redshift/intent-CSV/")

а затем создал SQL VIew и написал запрос с фильтром по тексту:

df.createOrReplaceTempView("idataset_csv")
agg_sql = """SELECT *
     FROM dataset_csv
         WHERE text LIKE '%music%' and locale = 'en_US'
         and date between '2020-03-31' and '2020-04-05'
     """
log_aggregates_DF = spark.sql(agg_sql)
log_aggregates_DF.show()


Запрос выполнялся не очень быстро 20-40 секунд. Я хочу, чтобы он выполнялся за 1 секунду. Оперативки больше 500Gb. Я еще попробую загрузить Parquet вместо CSV - она весит 50гб вместо 400.

В общем мне нужно SQL запросы но супер быстро, что можно подкрутить? Пишите в коментах, спасибо! А я потом расскажу про кейс и добавлю похожий в курс.
источник
2020 May 07
Инжиниринг Данных
источник
2020 May 08
Инжиниринг Данных
Предложили написать книгу про Snowflake. Это отличная возможность написать книгу на английском про облачное хранилище данных. Я думаю это где-то 250-450 старниц. Cookbook жто набор упражнений:
- загрузить данные в DW
- подключить data bricks
- streaming
- и многое другое.

В общем, если хотите написать книгу, то это отличная возможность потратить следующие 6 месяцев с пользой. Книга это отличный актив к резюме.

Я пока не соглашался, но если соберется народ, человека 3, то можно написать.
источник
Инжиниринг Данных
А вот про Snowflake на русском, правда статья 2015 года. Много изменилось с тех времен. https://habr.com/ru/company/lifestreet/blog/270167/
источник
2020 May 09
Инжиниринг Данных
источник
2020 May 10
Инжиниринг Данных
источник
Инжиниринг Данных
Новинки табло, особенно интересно - новая модель данных.
источник
2020 May 11
Инжиниринг Данных
Завтра будет онлайн вебинар для Microsoft community, где я расскажу про Azure Data Platform https://cloud.pass.org/MeetingDetails.aspx?EventID=15182
источник
2020 May 12
Инжиниринг Данных
Мне кажется 10 лет назад было проще войти в профессию, не было контента, не было множества решений и программ для аналитики. Вот посмотрел, что есть на udemy для data engineering - 10к результатов, там и big data с Hadoop, и ML, в общем каждой твари по паре. Как у вас с этим дела обстоят?
источник
2020 May 13
Инжиниринг Данных
Создал первое видео. Оказалось сложно говорить по теме и сделать краткое intro.  В итоге зачитал, но зато по делу. Подписывайтесь на канал тоже;)
источник
Инжиниринг Данных
Продолжение, но уже без бумажки!)) https://youtu.be/LHajrS_WaRA
источник
2020 May 14
Инжиниринг Данных
На youtube мне теперь рекомендую множество курсов - про SQL, про Python, сегодня даже про Burning Man посмотрел с детьми. Мне очень понравилась эта лекция про Python. (Если уже хотите питонить, то думаю очень полезный курс)

Лектор классно заметил, что не надо учить синтаксис языка. А именно это мы и делаем (мы это люди без ИТ образования). Нужно учить фундаментальные вещи. Точно также как и в data engineering, мы не учим инструменты, мы учим фундаментальные вещи в аналитике. Просто пример, я работаю в Alexa, со мной работает много крутых Data Scientist, Applied Researchers, Phd из топовых университетов, но при этим мои знания им полезные, и я им помогаю творить, опираясь на базовые принципы интграции данных, способов хранения и обработки данных.
источник
Инжиниринг Данных
Получается интересно, внутри курсов, рекламируются другие курсы🤣. (это в нашем слаке от datalearn) Скинули про карьерный bootcamp. Есть народ, кто проходил курсы и остался доволен или наоборот не довлен? Я видел одним глазком data science 😴
источник
Инжиниринг Данных
17 июня можно узнать, как работает Azure Synapse DW https://info.microsoft.com/Virtual-Event-Azure-Synapse-Analytics-How-It-Works-Registration.html
источник
Инжиниринг Данных
Здесь будем делать учебник по Data Engineering https://github.com/Data-Learn/data-engineering и выкладывать инструкции и ресурсы
источник
Инжиниринг Данных
Автор рассказывает как он от Microsoft BI переквалифицировался в Data Engineer https://dustinvannoy.com/2020/04/07/journey-of-a-data-engineer-part-1/
источник
Инжиниринг Данных
Как Amazon запускает новые продукты? Если коротко, то для этого нужно много писать, писать и переписывать, и снова писать, долго и "болезненно", чтобы в итоге появился на свет документ под названием PRFAQ. Вот отличная статья, где расскажут, что это такое. Я и сам недавно это проходил, когда предложил создать новую платформу данных для всех метрик качества Alexa. Чтобы идея зашла, я потратил месяца 2 со своим менеджером, чтобы создать такой документ и "продать его" Senior Leadership. По другому, никто не будет слушать, а power point мы не используем.

Кстати при собеседовании на позиции, начиная со старшего разработчика, вас проверяют на writing skills.  

На курсе, я хочу затронуть этот пример PRFAQ
источник
2020 May 15
Инжиниринг Данных
А вы смотрели Дудя про Кремнивую Долину? Оказывается в 2019 летом уже было видео с такими же героями🤪
источник
Инжиниринг Данных
Эта книга — азбука компьютерных технологий. Шаг за шагом автор знакомит читателя с сущностью кодирования информации, рассказывает об истории возникновения компьютеров, на практических примерах помогает освоить основные концепции информационных технологий, подробно излагает принципы работы процессора и других устройств компьютера. Написанная живо, доступно, иногда иронично, книга богато иллюстрирована, состоит из 25 глав и предметного указателя. Издание адресовано в первую очередь студентам вузов (как гуманитарных, так и технических), а также всем, кто интересуется принципами создания и работы компьютеров.
http://flibusta.site/b/535358
источник
Инжиниринг Данных
Есть такой ресурс в России - TAdviser. Я их знал еще в 2010 году. Никогда не вдавался в подробности, но думал, что они крутые ребята, пишут про аналитику и ИТ решения. Оказалась это еще один ресурс, целью которого продавать рекламу и зарабатывать на конференциях. Может я не прав, кто нибудь знает про них?

Как-то давно я регистрировался к ним как спикер. Недавно мне прислали письмо:

Дмитрий, добрый день!

9 июня 2020 года TAdviser проводит онлайн-конференцию «Big Data и BI Day».


Я подумал, что это отличная возможно онлайн рассказать про решения в Amazon, про облачные решения для DW/Big Data/Data Lake.

На что я олучил ответ:

Дмитрий, здравствуйте!
Руководство нашей компании отнесло Ваше выступление к категории платных

Я им объяснил, что я ничего не продаю и сам от себя, но не помогло. Я подумал, что это шаражка какая-то из разряда сетевого маркетинга. Подлитесь опытом про ресурс?
источник