Телеграмм чат группы hadoopusers страница 2033

Здравствуй, коммьюнити. Хотел бы спросить совета у старших товарищей. Сейчас, в весьма юном возрасте, заинтересовался Data Engineering'ом и не знаю куда и смотреть: много мат. части, техонологий, интересностей. Опыта в IT не имею, разве что фриланс на питоне и помощь знакомым. Имеется ((средний)) скилл питона и бегиннер+ жабы, знания в sql, алгоритмах и структурах данных.
Я понимаю, что как-то сильно импрувнуться в сфере можно только в полевых условиях в компании, которая имеет много данных и орудует ими. Но чтобы попасть в такие места, думаю, нужен хороший запас знаний и скиллов в бигдате/МЛе/облачных технологиях и предметных областях.
Подскажите, пожалуйста, к каким технологиям и аспектам сферы нужно приложить усилия в первую очередь и к чему стоит готовиться для успешного старта в сфере.
Спасибо!

источник

18:29пожаловаться #10

N

Nikita Blagodarnyy in Data Engineers

Необязательно. Джунов много кто берет за недорого и учит. Погуглите джунские вакансии.

источник

18:37пожаловаться #11

N

Nikita Blagodarnyy in Data Engineers

На собесе в одну заморскую галеру интервьюер скинул мне список того, что они юзают в своей повседневной проектной деятельности. Приведу его, думаю, на первое время вам точно хватит.

1. Java Core
2. Scala
3. Python
4. SQL
5. NoSQL (Cassandra / Redis / MongoDB / HBase, etc.)
6. Algorithms
7. Design patterns
8. Parallel Distributed Processing / Multithreading / Concurrency / CAP Theorem, etc.
9. Data Processing approaches
9.1. Batch Processing
9.2. Stream Processing
10. Big Data platforms, frameworks and services
10.1. Hadoop (HDFS / Yarn / MapReduce / Hive / Pig / Parquet / Avro, etc.)
10.2. Spark and Spark Streaming
10.3. Kafka / Beam / Flink / Ignite / NiFi / StreamSets, etc.
11. Analytical databases (Yandex Clickhouse / Druid / Vertica / Impala, etc.)
12. Workflow Schedulers (Airflow / Oozie / Azkaban / Taverna, etc.)
13. Tools for Data Visualisation and Reporting (Tableau / QlikView / Domo, ZoomData, etc.)
14. Cloud Services
14.1. Google Cloud (GCP) data services (BigQuery / Cloud Bigtable / Cloud Storage / Cloud SQL / Cloud Spanner / Cloud Datastore / Cloud Pub/Sub / Cloud Dataflow / App Engine / Compute Engine / TensorFlow / Stackdriver, etc.)
14.2. AWS (Kinesis / Redshift / Lambda / Athena, etc.)
14.3. Azure (Databricks / Data Lake Storage / Stream Analytics / Data Lake Analytics / SQL Data Warehouse, etc.)
15. Data Science Models usage (optional)

источник

18:41пожаловаться #12

Д

Дмитрий in Data Engineers

Etc, самая крутая тулза 👍

источник

18:42пожаловаться #13

AS

Andrey Smirnov in Data Engineers

Nikita Blagodarnyy

На собесе в одну заморскую галеру интервьюер скинул мне список того, что они юзают в своей повседневной проектной деятельности. Приведу его, думаю, на первое время вам точно хватит.

1. Java Core
2. Scala
3. Python
4. SQL
5. NoSQL (Cassandra / Redis / MongoDB / HBase, etc.)
6. Algorithms
7. Design patterns
8. Parallel Distributed Processing / Multithreading / Concurrency / CAP Theorem, etc.
9. Data Processing approaches
9.1. Batch Processing
9.2. Stream Processing
10. Big Data platforms, frameworks and services
10.1. Hadoop (HDFS / Yarn / MapReduce / Hive / Pig / Parquet / Avro, etc.)
10.2. Spark and Spark Streaming
10.3. Kafka / Beam / Flink / Ignite / NiFi / StreamSets, etc.
11. Analytical databases (Yandex Clickhouse / Druid / Vertica / Impala, etc.)
12. Workflow Schedulers (Airflow / Oozie / Azkaban / Taverna, etc.)
13. Tools for Data Visualisation and Reporting (Tableau / QlikView / Domo, ZoomData, etc.)
14. Cloud Services
14.1. Google Cloud (GCP) data services (BigQuery / Cloud Bigtable / Cloud Storage / Cloud SQL / Cloud Spanner / Cloud Datastore / Cloud Pub/Sub / Cloud Dataflow / App Engine / Compute Engine / TensorFlow / Stackdriver, etc.)
14.2. AWS (Kinesis / Redshift / Lambda / Athena, etc.)
14.3. Azure (Databricks / Data Lake Storage / Stream Analytics / Data Lake Analytics / SQL Data Warehouse, etc.)
15. Data Science Models usage (optional)

это на тему у кого больше?

источник

18:43пожаловаться #14

N

Nikita Blagodarnyy in Data Engineers

Дмитрий

Etc, самая крутая тулза 👍

добавь d

источник

18:44пожаловаться #15

Д

Дмитрий in Data Engineers

У тебя в перечне он не упомянут 🤣

источник

18:44пожаловаться #16

Д

Дмитрий in Data Engineers

Только etc часто встречается .... его надо учить ...

источник

18:45пожаловаться #17

N

Nikita Blagodarnyy in Data Engineers

etc != EDC

источник

18:50пожаловаться #18

SO

Simon Osipov in Data Engineers

Ilgiz Akhmedzhanov

Здравствуй, коммьюнити. Хотел бы спросить совета у старших товарищей. Сейчас, в весьма юном возрасте, заинтересовался Data Engineering'ом и не знаю куда и смотреть: много мат. части, техонологий, интересностей. Опыта в IT не имею, разве что фриланс на питоне и помощь знакомым. Имеется ((средний)) скилл питона и бегиннер+ жабы, знания в sql, алгоритмах и структурах данных.
Я понимаю, что как-то сильно импрувнуться в сфере можно только в полевых условиях в компании, которая имеет много данных и орудует ими. Но чтобы попасть в такие места, думаю, нужен хороший запас знаний и скиллов в бигдате/МЛе/облачных технологиях и предметных областях.
Подскажите, пожалуйста, к каким технологиям и аспектам сферы нужно приложить усилия в первую очередь и к чему стоит готовиться для успешного старта в сфере.
Спасибо!

Python+Spark (Hadoop в догонку) + Hive + SQL+ какой нибудь Airflow хватит, чтобы получить джунскую позицию делать витрины для датасатанистов.

источник

18:50пожаловаться #19

AS

Anton Shelin in Data Engineers

Simon Osipov

Python+Spark (Hadoop в догонку) + Hive + SQL+ какой нибудь Airflow хватит, чтобы получить джунскую позицию делать витрины для датасатанистов.

я бы добавил знание форматов avro parquet ну и как графики выводить в каком нибудь superset

источник

18:53пожаловаться #20