Телеграмм чат группы hadoopusers страница 2976

По ходу Databricks таки не умеет в Dynamic Partitions и Pull request delta-io 371 все так же, висит не закрытым. Предлагается для такой партиционированной записи пользоваться replaceWhere statement, что само по себе убого, учитывая факт, что для создания replaceWhere нужно взять все distinct пары для будущих партиций, отфильтровать исходный DataSet и поочереди это все записывать. Ну ересь ведь!

источник

00:00пожаловаться #4

Igor Master in Data Engineers

@renardeinside 👆Спасибо за помощь

источник

00:00пожаловаться #5

АГ

Андрей Гаврилов... in Data Engineers

Всем привет!
Может быть кто сталкивался?

Нужно включить transfer acceleration для связки Spark + aws S3

Больше контекста:

Пишем сарком в S3 бакет, кторый живёт в другом регионе.
Понятное дело пишется долго и не влезаем в таймуты.

Бест практики советуют в этом случае использовать acceleration endpoint.

В бакете это дело включили
В спарке ендпоинт подменили
(добавили

'spark.hadoop.fs.s3a.endpoint': 'https://s3-accelerate.amazonaws.com'

в спарк сессию)

Пробуем записать и ошибка:

An error occurred while calling o104.parquet.
: java.lang.IllegalStateException: To enable accelerate mode, please use AmazonS3ClientBuilder.withAccelerateModeEnabled(true)
at com.amazonaws.services.s3.AmazonS3Client.setEndpoint(AmazonS3Client.java:659)

Получается, что единственный путь - пересобирать джарник из исходников с заменой одного булевского значения

Чувсвтую, что можно проще. но не понимаю как

источник

14:44пожаловаться #6

АА

Алексей Артамонов... in Data Engineers

подскажите

источник

15:34пожаловаться #7

АА

Алексей Артамонов... in Data Engineers

делаю коннект к hive spark = SparkSession \
.builder \
.appName("Spark session example") \
.config("hive.metastore.uris", "thrift://localhost:10000") \
.enableHiveSupport() \
.getOrCreate()

sqlContext.sql("show databases").toPandas()
и
sqlContext.sql("show tables").toPandas()
выводит данные

источник

15:34пожаловаться #8

АА

Алексей Артамонов... in Data Engineers

как только начинаю выполнять sqlContext.sql("select * from bigsql.tmp_294_metrics_dashboard limit 2").toPandas()

источник

15:35пожаловаться #9

АА

Алексей Артамонов... in Data Engineers

получаю ошибку java.net.UnknownHostException: mlk-prd'

источник

15:35пожаловаться #10

Sergey in Data Engineers

Там же написано что хост не резолвится

источник

15:42пожаловаться #11

Sergey in Data Engineers

Он по хостнейму с машины где деплоится прила пингуется?

источник

15:43пожаловаться #12

Andrey Гalkin in Data Engineers

Hello guys,
I'm a technical recruiter from Talentuch HR agency. We cooperate with clients from USA, Europe and Ukraine. Now I'm looking for a Data Engineer for an international software development & IT company.

If you're interested, I'd be glad to give you more details.

Regards, Andrey

источник

16:38пожаловаться #13

АЖ

Андрей Жуков... in Data Engineers

Andrey Гalkin

https://t.me/datajobs

Data jobs

Data Engineers related вакансии и обсуждение
Фид: https://t.me/datajobschannel
Для связи: @krivdathetriewe @pomadchin @optician_owl

источник

16:39пожаловаться #14

Andrey Гalkin in Data Engineers

Thank you ☺️

источник

16:39пожаловаться #15

Troll Zhuravlev in Data Engineers

Всем привет, есть ли тут спецы, которые помогут решить задачу:

aws s3 - тут есть файл "типа" XML его надо прочесть из scala ( которая запустится в спарке )
сделать дедупликацию и аггрегацию ( объясню ) - спарком-скалой
записать это в mysql

источник

19:34пожаловаться #16

Grigory Pomadchin in Data Engineers

@Tro1l ^

источник

19:35пожаловаться #17

Grigory Pomadchin in Data Engineers

Переслано от Grigory Pomadchin

в том виде в котором ты описал задачу - спарк не нужен; если ты уверен, что нужен можно попробовать https://github.com/databricks/spark-xml

а вообще со спарко вопросами тебе сюда https://t.me/hadoopusers

источник

19:35пожаловаться #18

Lan Tal in Data Engineers

Grigory Pomadchin

Переслано от Grigory Pomadchin

Это ведь и есть ссылка на этот чат?

источник

20:10пожаловаться #19

Grigory Pomadchin in Data Engineers

Lan Tal

Это ведь и есть ссылка на этот чат?

да; но первая часть ответа - пригодится

источник

20:10пожаловаться #20