На собесе в одну заморскую галеру интервьюер скинул мне список того, что они юзают в своей повседневной проектной деятельности. Приведу его, думаю, на первое время вам точно хватит.
1. Java Core
2. Scala
3. Python
4. SQL
5. NoSQL (Cassandra / Redis / MongoDB / HBase, etc.)
6. Algorithms
7. Design patterns
8. Parallel Distributed Processing / Multithreading / Concurrency / CAP Theorem, etc.
9. Data Processing approaches
9.1. Batch Processing
9.2. Stream Processing
10. Big Data platforms, frameworks and services
10.1. Hadoop (HDFS / Yarn / MapReduce / Hive / Pig / Parquet / Avro, etc.)
10.2. Spark and Spark Streaming
10.3. Kafka / Beam / Flink / Ignite / NiFi / StreamSets, etc.
11. Analytical databases (Yandex Clickhouse / Druid / Vertica / Impala, etc.)
12. Workflow Schedulers (Airflow / Oozie / Azkaban / Taverna, etc.)
13. Tools for Data Visualisation and Reporting (Tableau / QlikView / Domo, ZoomData, etc.)
14. Cloud Services
14.1. Google Cloud (GCP) data services (BigQuery / Cloud Bigtable / Cloud Storage / Cloud SQL / Cloud Spanner / Cloud Datastore / Cloud Pub/Sub / Cloud Dataflow / App Engine / Compute Engine / TensorFlow / Stackdriver, etc.)
14.2. AWS (Kinesis / Redshift / Lambda / Athena, etc.)
14.3. Azure (Databricks / Data Lake Storage / Stream Analytics / Data Lake Analytics / SQL Data Warehouse, etc.)
15. Data Science Models usage (optional)