Size: a a a

2021 June 08

ИШ

Игорь Шевцов... in Data Engineers
Походу в диру с либами
источник

RK

Ruslan Krivoshein in Data Engineers
Да, именно
источник

ИШ

Игорь Шевцов... in Data Engineers
--jars
источник

RK

Ruslan Krivoshein in Data Engineers
Как-то не так делаю, да?
источник

ЕГ

Евгений Глотов... in Data Engineers
Джарок маловато, чтобы пайспарк работал с ними, нужен собственно питон-файлик SPARK_HOME/pyspark/streaming/kafka.py
источник

RK

Ruslan Krivoshein in Data Engineers
А что в нём должно быть? Где найти про такое информацию?
источник

ЕГ

Евгений Глотов... in Data Engineers
Он должен существовать и быть прописан в sys.path
источник

ЕГ

Евгений Глотов... in Data Engineers
Ну в смысле вся папка pyspark
источник

ЕГ

Евгений Глотов... in Data Engineers
Чтоб из неё можно было что-нибудь заимпортировать
источник

ЕГ

Евгений Глотов... in Data Engineers
Файлик вот такой несложный вроде:
https://spark.apache.org/docs/1.3.0/api/python/_modules/pyspark/streaming/kafka.html
источник

ЕГ

Евгений Глотов... in Data Engineers
Правда это древняя версия, хз, вроде в 2.4.5 тоже есть
источник

RK

Ruslan Krivoshein in Data Engineers
Натыкался на такое, но показалось странным, что какие-то ещё действия выполнять необходимо, особенно написание дополнительного кода
источник

RK

Ruslan Krivoshein in Data Engineers
У вас есть в spark-*/python/pyspark/streaming какой-нибудь файл для подключения кафки? Или, может, где-то ещё есть? Не поделитесь?
источник

RK

Ruslan Krivoshein in Data Engineers
Но тем не менее странно, что с 3 версии спарка отказались от нативной поддержки стриминга из кафки...
источник

D

Dmitry in Data Engineers
все же более вероятно что данные изменились и где-то перекос. у меня было так что приходилось ставить executor-memory 5g, memoryOverhead 3g хотя до этого работало без такого изврата
источник

АЖ

Андрей Жуков... in Data Engineers
А в какой он был? о_О
источник

RK

Ruslan Krivoshein in Data Engineers
источник

АЖ

Андрей Жуков... in Data Engineers
Так это dstream
источник

АЖ

Андрей Жуков... in Data Engineers
И даже в 3.1.1 он на месте
источник

RK

Ruslan Krivoshein in Data Engineers
dstream там, да. Просто теперь там нельзя просто взять и сделать from pyspark.streaming.kafka import KafkaUtils
источник