Size: a a a

2020 February 05

S

Stanislav in Data Engineers
в израиле который?
источник

BK

Brusе Kawabata in Data Engineers
Да, не). В hive, не пойму что сделать нужно чтобы внешнюю таблицу на топик в кафке создать.
источник

BK

Brusе Kawabata in Data Engineers
Пишу запрос, указываю адрес брокера, топик и вылетает ошибка.
источник

BK

Brusе Kawabata in Data Engineers
Failed: SemanticException Cannot find class 'org.apache.hadoop.hive.kafka.KafkaStorageHandler'
источник

RI

Rustam Iksanov in Data Engineers
Brusе Kawabata
Failed: SemanticException Cannot find class 'org.apache.hadoop.hive.kafka.KafkaStorageHandler'
у hive в classpath есть такой класс?
источник

BK

Brusе Kawabata in Data Engineers
А как это посмотреть ?
источник

BK

Brusе Kawabata in Data Engineers
Нет такого класса
источник

DZ

Dmitry Zuev in Data Engineers
Значит ещё хуже
источник

K

KrivdaTheTriewe in Data Engineers
Идите в жобс
источник

IA

Ilgiz Akhmedzhanov in Data Engineers
Здравствуй, коммьюнити. Хотел бы спросить совета у старших товарищей. Сейчас, в весьма юном возрасте, заинтересовался Data Engineering'ом и не знаю куда и смотреть: много мат. части, техонологий, интересностей. Опыта в IT не имею, разве что фриланс на питоне и помощь знакомым. Имеется ((средний)) скилл питона и бегиннер+ жабы, знания в sql, алгоритмах и структурах данных.
Я понимаю, что как-то сильно импрувнуться в сфере можно только в полевых условиях в компании, которая имеет много данных и орудует ими. Но чтобы попасть в такие места, думаю, нужен хороший запас знаний и скиллов в бигдате/МЛе/облачных технологиях и предметных областях.
Подскажите, пожалуйста, к каким технологиям и аспектам сферы нужно приложить усилия в первую очередь и к чему стоит готовиться для успешного старта в сфере.
Спасибо!
источник

N

Nikita Blagodarnyy in Data Engineers
Необязательно. Джунов много кто берет за недорого и учит. Погуглите джунские вакансии.
источник

N

Nikita Blagodarnyy in Data Engineers
На собесе в одну заморскую галеру интервьюер скинул мне список того, что они юзают в своей повседневной проектной деятельности. Приведу его, думаю, на первое время вам точно хватит.


1. Java Core
2. Scala
3. Python
4. SQL
5. NoSQL (Cassandra / Redis / MongoDB / HBase, etc.)
6. Algorithms
7. Design patterns
8. Parallel Distributed Processing / Multithreading / Concurrency / CAP Theorem, etc.
9. Data Processing approaches
9.1. Batch Processing
9.2. Stream Processing
10. Big Data platforms, frameworks and services
10.1. Hadoop (HDFS / Yarn / MapReduce / Hive / Pig / Parquet / Avro, etc.)
10.2. Spark and Spark Streaming
10.3. Kafka / Beam / Flink / Ignite / NiFi / StreamSets, etc.
11. Analytical databases (Yandex Clickhouse / Druid / Vertica / Impala, etc.)
12. Workflow Schedulers (Airflow / Oozie / Azkaban / Taverna, etc.)
13. Tools for Data Visualisation and Reporting (Tableau / QlikView / Domo, ZoomData, etc.)
14. Cloud Services
14.1. Google Cloud (GCP) data services (BigQuery / Cloud Bigtable / Cloud Storage / Cloud SQL / Cloud Spanner / Cloud Datastore / Cloud Pub/Sub / Cloud Dataflow / App Engine / Compute Engine / TensorFlow / Stackdriver, etc.)
14.2. AWS (Kinesis / Redshift / Lambda / Athena, etc.)
14.3. Azure (Databricks / Data Lake Storage / Stream Analytics / Data Lake Analytics / SQL Data Warehouse, etc.)
15. Data Science Models usage (optional)
источник

Д

Дмитрий in Data Engineers
Etc, самая крутая тулза 👍
источник

AS

Andrey Smirnov in Data Engineers
Nikita Blagodarnyy
На собесе в одну заморскую галеру интервьюер скинул мне список того, что они юзают в своей повседневной проектной деятельности. Приведу его, думаю, на первое время вам точно хватит.


1. Java Core
2. Scala
3. Python
4. SQL
5. NoSQL (Cassandra / Redis / MongoDB / HBase, etc.)
6. Algorithms
7. Design patterns
8. Parallel Distributed Processing / Multithreading / Concurrency / CAP Theorem, etc.
9. Data Processing approaches
9.1. Batch Processing
9.2. Stream Processing
10. Big Data platforms, frameworks and services
10.1. Hadoop (HDFS / Yarn / MapReduce / Hive / Pig / Parquet / Avro, etc.)
10.2. Spark and Spark Streaming
10.3. Kafka / Beam / Flink / Ignite / NiFi / StreamSets, etc.
11. Analytical databases (Yandex Clickhouse / Druid / Vertica / Impala, etc.)
12. Workflow Schedulers (Airflow / Oozie / Azkaban / Taverna, etc.)
13. Tools for Data Visualisation and Reporting (Tableau / QlikView / Domo, ZoomData, etc.)
14. Cloud Services
14.1. Google Cloud (GCP) data services (BigQuery / Cloud Bigtable / Cloud Storage / Cloud SQL / Cloud Spanner / Cloud Datastore / Cloud Pub/Sub / Cloud Dataflow / App Engine / Compute Engine / TensorFlow / Stackdriver, etc.)
14.2. AWS (Kinesis / Redshift / Lambda / Athena, etc.)
14.3. Azure (Databricks / Data Lake Storage / Stream Analytics / Data Lake Analytics / SQL Data Warehouse, etc.)
15. Data Science Models usage (optional)
это на тему у кого больше?
источник

N

Nikita Blagodarnyy in Data Engineers
Дмитрий
Etc, самая крутая тулза 👍
добавь d
источник

Д

Дмитрий in Data Engineers
У тебя в перечне он не упомянут 🤣
источник

Д

Дмитрий in Data Engineers
Только etc часто встречается .... его надо учить ...
источник

N

Nikita Blagodarnyy in Data Engineers
etc != EDC
источник

SO

Simon Osipov in Data Engineers
Ilgiz Akhmedzhanov
Здравствуй, коммьюнити. Хотел бы спросить совета у старших товарищей. Сейчас, в весьма юном возрасте, заинтересовался Data Engineering'ом и не знаю куда и смотреть: много мат. части, техонологий, интересностей. Опыта в IT не имею, разве что фриланс на питоне и помощь знакомым. Имеется ((средний)) скилл питона и бегиннер+ жабы, знания в sql, алгоритмах и структурах данных.
Я понимаю, что как-то сильно импрувнуться в сфере можно только в полевых условиях в компании, которая имеет много данных и орудует ими. Но чтобы попасть в такие места, думаю, нужен хороший запас знаний и скиллов в бигдате/МЛе/облачных технологиях и предметных областях.
Подскажите, пожалуйста, к каким технологиям и аспектам сферы нужно приложить усилия в первую очередь и к чему стоит готовиться для успешного старта в сфере.
Спасибо!
Python+Spark (Hadoop в догонку) + Hive + SQL+ какой нибудь Airflow хватит, чтобы получить джунскую позицию делать витрины для датасатанистов.
источник

AS

Anton Shelin in Data Engineers
Simon Osipov
Python+Spark (Hadoop в догонку) + Hive + SQL+ какой нибудь Airflow хватит, чтобы получить джунскую позицию делать витрины для датасатанистов.
я бы добавил знание форматов avro parquet ну и как графики выводить в каком нибудь superset
источник