Телеграмм чат группы hadoopusers страница 3338

2021 March 06

AZ

Anton Zadorozhniy in Data Engineers

KrivdaTheTriewe

Тут ни слова про Амазон, есть только слово с3 которым может хоть минио оказаться

Ну если автор написал S3 вместо Ceph/Minio/Isilon то ССЗБ как говорит моя дочка

источник

22:12пожаловаться #1

2021 March 07

VP

Vitaly Pismarev in Data Engineers

А никто не пробовал в PyCharm'e запустить spark structured streaming и вычитывать данные из кафки?

Пишет
pyspark.sql.utils.AnalysisException: Failed to find data source: kafka. Please deploy the application as per the deployment section of "Structured Streaming + Kafka Integration Guide".

Видимо как-то нужно указать зависимость:
--packages org.apache.spark:spark-sql-kafka-0-10_2.12:3.1.1

но как это сделать в пайчарме непонятно и мануала не нашёл (

источник

11:11пожаловаться #2

АР

Андрей Романов... in Data Engineers

Vitaly Pismarev

А никто не пробовал в PyCharm'e запустить spark structured streaming и вычитывать данные из кафки?

Пишет
pyspark.sql.utils.AnalysisException: Failed to find data source: kafka. Please deploy the application as per the deployment section of "Structured Streaming + Kafka Integration Guide".

Видимо как-то нужно указать зависимость:
--packages org.apache.spark:spark-sql-kafka-0-10_2.12:3.1.1

но как это сделать в пайчарме непонятно и мануала не нашёл (

это один из параметров команды spark-submit

источник

11:17пожаловаться #3

АР

Андрей Романов... in Data Engineers

попробуйте добавить его в ваш Run Configuration в PyCharm

источник

11:17пожаловаться #4

VP

Vitaly Pismarev in Data Engineers

Андрей Романов

это один из параметров команды spark-submit

я понимаю, но я не в кластере запускаю

источник

11:17пожаловаться #5

МЛ

Максим Лыжков... in Data Engineers

Vitaly Pismarev

А никто не пробовал в PyCharm'e запустить spark structured streaming и вычитывать данные из кафки?

Пишет
pyspark.sql.utils.AnalysisException: Failed to find data source: kafka. Please deploy the application as per the deployment section of "Structured Streaming + Kafka Integration Guide".

Видимо как-то нужно указать зависимость:
--packages org.apache.spark:spark-sql-kafka-0-10_2.12:3.1.1

но как это сделать в пайчарме непонятно и мануала не нашёл (

попробуй положить локально жарник и в укажи путь в конф

источник

11:19пожаловаться #6

VP

Vitaly Pismarev in Data Engineers

Спс, вроде вот такая конструкция помогла

SUBMIT_ARGS = "--packages org.apache.spark:spark-sql-kafka-0-10_2.12:3.1.1 pyspark-shell"
os.environ["PYSPARK_SUBMIT_ARGS"] = SUBMIT_ARGS

источник

11:47пожаловаться #7

VP

Vitaly Pismarev in Data Engineers

Уже почти подумал что проще на скале примерчик сделать )

источник

11:47пожаловаться #8

UD

Uncel Duk in Data Engineers

Никто не помнит в каких релизах протобаф ломали в хадупе? Хочется подобрать скип версии для 2.7

источник

14:57пожаловаться #9

VP

Vitaly Pismarev in Data Engineers

А я правильно понимаю что в Spark streaming watermark считается от текущего времени?

Допустим, кластер спарка прилёг на 1 час при этом
withWatermark("time", "15 minutes")
мы всё что раньше 15 минут потеряем?

источник

15:20пожаловаться #10

VP

Vitaly Pismarev in Data Engineers

Или, если в качестве источника юзается кафка, он возьмёт мету из чекпоинта и попытается прочитать сообщения из кафки с момента падения ?

источник

15:36пожаловаться #11

ME

Max Efremov in Data Engineers

Оу)

источник

16:38пожаловаться #12

2021 March 08

t

tenKe in Data Engineers

Vitaly Pismarev

А я правильно понимаю что в Spark streaming watermark считается от текущего времени?

Допустим, кластер спарка прилёг на 1 час при этом
withWatermark("time", "15 minutes")
мы всё что раньше 15 минут потеряем?

не

источник

11:41пожаловаться #13

t

tenKe in Data Engineers

вотермарк считается от максимального времени, найденного в предыдущем батче

источник

11:41пожаловаться #14

t

tenKe in Data Engineers

Vitaly Pismarev

Или, если в качестве источника юзается кафка, он возьмёт мету из чекпоинта и попытается прочитать сообщения из кафки с момента падения ?

это не зависит от использования стейтфул. Он всегда пытается подняться с чекпоинта на хдфс

источник

11:43пожаловаться #15

t

tenKe in Data Engineers

если его нет, то берет дефолты из вашего spark.readStream

источник

11:44пожаловаться #16

VP

Vitaly Pismarev in Data Engineers

tenKe

это не зависит от использования стейтфул. Он всегда пытается подняться с чекпоинта на хдфс

Спс за инфу. Это оказывается легко проверяется )

источник

11:47пожаловаться #17

MS

Maksim Statsenko in Data Engineers

Привет!
Посоветуйте, пожалуйста, статейки про организацию документации хранилища и его производных, таблиц, дашбордов, отчетов и тп )

источник

14:49пожаловаться #18

MS

Maksim Statsenko in Data Engineers

Я где-то слышал про ребят которые как-то парсят дашборды табло, и прямо из них достают используемые колоник, таблицы и простравают целое дерево, но найти ничего на эту тему не могу (

источник

14:50пожаловаться #19

AZ

Anton Zadorozhniy in Data Engineers

Maksim Statsenko

Я где-то слышал про ребят которые как-то парсят дашборды табло, и прямо из них достают используемые колоник, таблицы и простравают целое дерево, но найти ничего на эту тему не могу (

Это из Query Log базы проще достать

источник

14:52пожаловаться #20