Size: a a a

2021 March 06

AZ

Anton Zadorozhniy in Data Engineers
KrivdaTheTriewe
Тут ни слова про Амазон, есть только слово с3 которым может хоть минио оказаться
Ну если автор написал S3 вместо Ceph/Minio/Isilon то ССЗБ как говорит моя дочка
источник
2021 March 07

VP

Vitaly Pismarev in Data Engineers
А никто не пробовал в PyCharm'e запустить spark structured streaming и вычитывать данные из кафки?

Пишет
pyspark.sql.utils.AnalysisException: Failed to find data source: kafka. Please deploy the application as per the deployment section of "Structured Streaming + Kafka Integration Guide".

Видимо как-то нужно указать зависимость:
--packages org.apache.spark:spark-sql-kafka-0-10_2.12:3.1.1

но как это сделать в пайчарме непонятно и мануала не нашёл (
источник

АР

Андрей Романов... in Data Engineers
Vitaly Pismarev
А никто не пробовал в PyCharm'e запустить spark structured streaming и вычитывать данные из кафки?

Пишет
pyspark.sql.utils.AnalysisException: Failed to find data source: kafka. Please deploy the application as per the deployment section of "Structured Streaming + Kafka Integration Guide".

Видимо как-то нужно указать зависимость:
--packages org.apache.spark:spark-sql-kafka-0-10_2.12:3.1.1

но как это сделать в пайчарме непонятно и мануала не нашёл (
это один из параметров команды spark-submit
источник

АР

Андрей Романов... in Data Engineers
попробуйте добавить его в ваш Run Configuration в PyCharm
источник

VP

Vitaly Pismarev in Data Engineers
Андрей Романов
это один из параметров команды spark-submit
я понимаю, но я не в кластере запускаю
источник

МЛ

Максим Лыжков... in Data Engineers
Vitaly Pismarev
А никто не пробовал в PyCharm'e запустить spark structured streaming и вычитывать данные из кафки?

Пишет
pyspark.sql.utils.AnalysisException: Failed to find data source: kafka. Please deploy the application as per the deployment section of "Structured Streaming + Kafka Integration Guide".

Видимо как-то нужно указать зависимость:
--packages org.apache.spark:spark-sql-kafka-0-10_2.12:3.1.1

но как это сделать в пайчарме непонятно и мануала не нашёл (
попробуй положить локально жарник и в укажи путь в конф
источник

VP

Vitaly Pismarev in Data Engineers
Спс, вроде вот такая конструкция помогла

SUBMIT_ARGS = "--packages org.apache.spark:spark-sql-kafka-0-10_2.12:3.1.1  pyspark-shell"
os.environ["PYSPARK_SUBMIT_ARGS"] = SUBMIT_ARGS
источник

VP

Vitaly Pismarev in Data Engineers
Уже почти подумал что проще на скале примерчик сделать )
источник

UD

Uncel Duk in Data Engineers
Никто не помнит в каких релизах протобаф ломали в хадупе? Хочется подобрать скип версии для 2.7
источник

VP

Vitaly Pismarev in Data Engineers
А я правильно понимаю что в Spark streaming watermark считается от текущего времени?

Допустим, кластер спарка прилёг на 1 час при этом
withWatermark("time", "15 minutes")
мы всё что раньше 15 минут потеряем?
источник

VP

Vitaly Pismarev in Data Engineers
Или, если в качестве источника юзается кафка, он возьмёт мету из чекпоинта и попытается прочитать сообщения из кафки  с момента падения ?
источник

ME

Max Efremov in Data Engineers
Оу)
источник
2021 March 08

t

tenKe in Data Engineers
Vitaly Pismarev
А я правильно понимаю что в Spark streaming watermark считается от текущего времени?

Допустим, кластер спарка прилёг на 1 час при этом
withWatermark("time", "15 minutes")
мы всё что раньше 15 минут потеряем?
не
источник

t

tenKe in Data Engineers
вотермарк считается от максимального времени, найденного в предыдущем батче
источник

t

tenKe in Data Engineers
Vitaly Pismarev
Или, если в качестве источника юзается кафка, он возьмёт мету из чекпоинта и попытается прочитать сообщения из кафки  с момента падения ?
это не зависит от использования стейтфул. Он всегда пытается подняться с чекпоинта на хдфс
источник

t

tenKe in Data Engineers
если его нет, то берет дефолты из вашего spark.readStream
источник

VP

Vitaly Pismarev in Data Engineers
tenKe
это не зависит от использования стейтфул. Он всегда пытается подняться с чекпоинта на хдфс
Спс за инфу.  Это оказывается легко проверяется )
источник

MS

Maksim Statsenko in Data Engineers
Привет!
Посоветуйте, пожалуйста, статейки про организацию документации хранилища и его производных, таблиц, дашбордов, отчетов и тп )
источник

MS

Maksim Statsenko in Data Engineers
Я где-то слышал про ребят которые как-то парсят дашборды табло, и прямо из них достают используемые колоник, таблицы и простравают целое дерево, но найти ничего на эту тему не могу (
источник

AZ

Anton Zadorozhniy in Data Engineers
Maksim Statsenko
Я где-то слышал про ребят которые как-то парсят дашборды табло, и прямо из них достают используемые колоник, таблицы и простравают целое дерево, но найти ничего на эту тему не могу (
Это из Query Log базы проще достать
источник