Телеграмм чат группы rockyourdata страница 60

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Инжиниринг Данных

6805 membersпожаловаться на группу

1
«
…
‹
55
56
57
58
59
60
61
›
…
»

2020 May 06

Инжиниринг Данных

Привет знатокам Spark. У меня вопрос. У меня есть файлов CSV (обычная таблица) 400Гб в S3. Я запустил EMR+Spark. Выбрал 4 рабочих ноды r5a.4xlarge (128GB RAM каждый).

В ноутбуке создал data frame

df = spark.read.format("csv").option("header", "true").option("delimiter", '|').load("s3://redshift/intent-CSV/")

а затем создал SQL VIew и написал запрос с фильтром по тексту:

df.createOrReplaceTempView("idataset_csv")
agg_sql = """SELECT *
      FROM dataset_csv
          WHERE text LIKE '%music%' and locale = 'en_US'
          and date between '2020-03-31' and '2020-04-05'
      """
log_aggregates_DF = spark.sql(agg_sql)
log_aggregates_DF.show()

Запрос выполнялся не очень быстро 20-40 секунд. Я хочу, чтобы он выполнялся за 1 секунду. Оперативки больше 500Gb. Я еще попробую загрузить Parquet вместо CSV - она весит 50гб вместо 400.

В общем мне нужно SQL запросы но супер быстро, что можно подкрутить? Пишите в коментах, спасибо! А я потом расскажу про кейс и добавлю похожий в курс.

источник

195708:34пожаловаться #1

2020 May 07

Инжиниринг Данных

Прикольная вакансия https://www.amazon.jobs/en/jobs/1113645/startup-business-development-russia-and-cis

источник

167502:20пожаловаться #2

2020 May 08

Инжиниринг Данных

Предложили написать книгу про Snowflake. Это отличная возможность написать книгу на английском про облачное хранилище данных. Я думаю это где-то 250-450 старниц. Cookbook жто набор упражнений:
- загрузить данные в DW
- подключить data bricks
- streaming
- и многое другое.

В общем, если хотите написать книгу, то это отличная возможность потратить следующие 6 месяцев с пользой. Книга это отличный актив к резюме.

Я пока не соглашался, но если соберется народ, человека 3, то можно написать.

источник

158207:14пожаловаться #3

Инжиниринг Данных

А вот про Snowflake на русском, правда статья 2015 года. Много изменилось с тех времен. https://habr.com/ru/company/lifestreet/blog/270167/

Обзор первого эластичного хранилища данных Snowflake Elastic Data Warehouse

В нашей компании мы регулярно пробуем и анализируем новые интересные технологии в области хранения и управления большими данными. В апреле с нами связались предс...

источник

170307:33пожаловаться #4

2020 May 09

Инжиниринг Данных

https://www.forbes.ru/newsroom/milliardery/400061-policeyskoe-gosudarstvo-krepostnoe-pravo-durov-nazval-sem-prichin-ne

Полицейское государство, крепостное право: Дуров назвал семь причин не переезжать в США

Павел Дуров, судящийся с американским регулятором, посмотрел фильм Дудя и в ответ назвал семь причин не переезжать в Кремниевую долину. Высокие налоги, ограниченная культурная жизнь и избалованные программисты — только часть недостатков, упомянутых основателем Telegram

источник

197902:47пожаловаться #5

2020 May 10

Инжиниринг Данных

Tableau 2020.02 updates .pdf

источник

595107:50пожаловаться #6

Инжиниринг Данных

Новинки табло, особенно интересно - новая модель данных.

источник

380707:50пожаловаться #7

2020 May 11

Инжиниринг Данных

Завтра будет онлайн вебинар для Microsoft community, где я расскажу про Azure Data Platform https://cloud.pass.org/MeetingDetails.aspx?EventID=15182

источник

172021:46пожаловаться #8

2020 May 12

Инжиниринг Данных

Мне кажется 10 лет назад было проще войти в профессию, не было контента, не было множества решений и программ для аналитики. Вот посмотрел, что есть на udemy для data engineering - 10к результатов, там и big data с Hadoop, и ML, в общем каждой твари по паре. Как у вас с этим дела обстоят?

источник

169308:49пожаловаться #9

2020 May 13

Инжиниринг Данных

Создал первое видео. Оказалось сложно говорить по теме и сделать краткое intro. В итоге зачитал, но зато по делу. Подписывайтесь на канал тоже;)

Datalearn INTRO l Вводная информация от Дмитрия Аношина l Data Engineer l Data Literacy l Big Data

Всем привет, это первое видео по обучающей программе портала DataLearn, я немного расскажу о курсе, о себе, почему курс бесплатный, а также о программе котор...

источник

166200:42пожаловаться #10

Инжиниринг Данных

Продолжение, но уже без бумажки!)) https://youtu.be/LHajrS_WaRA

Что будет на курсах DataLearn l Getting start with Data Engineering l введение в инженеринг данных

Про ресурс DataLearn и какие курсы вы можете там найти.Getting start with Data Engineering - введение в инженеринг данных и зачем нам Slack.Что имеено вас жд...

источник

159420:29пожаловаться #11

2020 May 14

Инжиниринг Данных

На youtube мне теперь рекомендую множество курсов - про SQL, про Python, сегодня даже про Burning Man посмотрел с детьми. Мне очень понравилась эта лекция про Python. (Если уже хотите питонить, то думаю очень полезный курс)

Лектор классно заметил, что не надо учить синтаксис языка. А именно это мы и делаем (мы это люди без ИТ образования). Нужно учить фундаментальные вещи. Точно также как и в data engineering, мы не учим инструменты, мы учим фундаментальные вещи в аналитике. Просто пример, я работаю в Alexa, со мной работает много крутых Data Scientist, Applied Researchers, Phd из топовых университетов, но при этим мои знания им полезные, и я им помогаю творить, опираясь на базовые принципы интграции данных, способов хранения и обработки данных.

Алгоритмы на Python 3. Лекция №1

Практика: http://judge.mipt.ru/mipt_cs_on_python3/Telegram-группа: https://t.me/tkhirianov_mipt_cs_on_python3Спонсировать: https://www.patreon.com/tkhirianov...

источник

177808:00пожаловаться #12

Инжиниринг Данных

Получается интересно, внутри курсов, рекламируются другие курсы🤣. (это в нашем слаке от datalearn) Скинули про карьерный bootcamp. Есть народ, кто проходил курсы и остался доволен или наоборот не довлен? Я видел одним глазком data science 😴

источник

151609:32пожаловаться #13

Инжиниринг Данных

17 июня можно узнать, как работает Azure Synapse DW https://info.microsoft.com/Virtual-Event-Azure-Synapse-Analytics-How-It-Works-Registration.html

Azure Synapse Analytics: How It Works

Register for the virtual event Azure Synapse Analytics: How It Works to see technical demos from customers using the newest Azure Synapse features.

источник

150310:00пожаловаться #14

Инжиниринг Данных

Здесь будем делать учебник по Data Engineering https://github.com/Data-Learn/data-engineering и выкладывать инструкции и ресурсы

Data-Learn/data-engineering

Getting Started with Data Enngineering. Contribute to Data-Learn/data-engineering development by creating an account on GitHub.

источник

151920:28пожаловаться #15

Инжиниринг Данных

Автор рассказывает как он от Microsoft BI переквалифицировался в Data Engineer https://dustinvannoy.com/2020/04/07/journey-of-a-data-engineer-part-1/

Journey of a Data Engineer: From College to BI Developer

At my last meetup someone asked the question “What’s the best path to be a great data engineer?” My journey is a more traditional path than many, but required a lot of independent…

источник

151520:33пожаловаться #16

Инжиниринг Данных

Как Amazon запускает новые продукты? Если коротко, то для этого нужно много писать, писать и переписывать, и снова писать, долго и "болезненно", чтобы в итоге появился на свет документ под названием PRFAQ. Вот отличная статья, где расскажут, что это такое. Я и сам недавно это проходил, когда предложил создать новую платформу данных для всех метрик качества Alexa. Чтобы идея зашла, я потратил месяца 2 со своим менеджером, чтобы создать такой документ и "продать его" Senior Leadership. По другому, никто не будет слушать, а power point мы не используем.

Кстати при собеседовании на позиции, начиная со старшего разработчика, вас проверяют на writing skills.

На курсе, я хочу затронуть этот пример PRFAQ

PR FAQs for Product Documents

How can you use the customer-centric Press Release & FAQ Product Document format?

источник

160522:51пожаловаться #17

2020 May 15

Инжиниринг Данных

А вы смотрели Дудя про Кремнивую Долину? Оказывается в 2019 летом уже было видео с такими же героями🤪

Как попасть в Кремниевую Долину.

Здесь все: Иван, Стас, Максим и Коля Давыдов.Кремниевая долина приманивает мозги со всего мира. Наши люди не исключение. Русскоязычных специалистов можно вст...

источник

151809:17пожаловаться #18

Инжиниринг Данных

Эта книга — азбука компьютерных технологий. Шаг за шагом автор знакомит читателя с сущностью кодирования информации, рассказывает об истории возникновения компьютеров, на практических примерах помогает освоить основные концепции информационных технологий, подробно излагает принципы работы процессора и других устройств компьютера. Написанная живо, доступно, иногда иронично, книга богато иллюстрирована, состоит из 25 глав и предметного указателя. Издание адресовано в первую очередь студентам вузов (как гуманитарных, так и технических), а также всем, кто интересуется принципами создания и работы компьютеров.
http://flibusta.site/b/535358

источник

157010:33пожаловаться #19

Инжиниринг Данных

Есть такой ресурс в России - TAdviser. Я их знал еще в 2010 году. Никогда не вдавался в подробности, но думал, что они крутые ребята, пишут про аналитику и ИТ решения. Оказалась это еще один ресурс, целью которого продавать рекламу и зарабатывать на конференциях. Может я не прав, кто нибудь знает про них?

Как-то давно я регистрировался к ним как спикер. Недавно мне прислали письмо:

Дмитрий, добрый день!

9 июня 2020 года TAdviser проводит онлайн-конференцию «Big Data и BI Day».

Я подумал, что это отличная возможно онлайн рассказать про решения в Amazon, про облачные решения для DW/Big Data/Data Lake.

На что я олучил ответ:

Дмитрий, здравствуйте!
Руководство нашей компании отнесло Ваше выступление к категории платных

Я им объяснил, что я ничего не продаю и сам от себя, но не помогло. Я подумал, что это шаражка какая-то из разряда сетевого маркетинга. Подлитесь опытом про ресурс?

источник

152819:16пожаловаться #20

1
«
…
‹
55
56
57
58
59
60
61
›
…
»