Size: a a a

2020 November 23

S

SeniorAnykey in Data Engineers
Evgeny
тогда самое простое и быстрое - knox. Вернее так, это выглядит проще и быстрее kerberos
А не тыкните куда-нибудь в документацию как оно с samza уживается?
источник

E

Evgeny in Data Engineers
SeniorAnykey
А не тыкните куда-нибудь в документацию как оно с samza уживается?
С ходу ничего не нашёл, в целом, knox - прокся с rewrites, можно написать свои правила для любого сервиса
источник

S

SeniorAnykey in Data Engineers
Ок, спс. Подумаю в эту сторону.
источник
2020 November 24

Igor  Master in Data Engineers
По ходу Databricks таки не умеет в Dynamic Partitions и Pull request delta-io 371 все так же, висит не закрытым. Предлагается для такой партиционированной записи пользоваться replaceWhere statement, что само по себе убого, учитывая факт, что для создания replaceWhere нужно взять все distinct пары для будущих партиций, отфильтровать исходный DataSet и поочереди это все записывать. Ну ересь ведь!
источник

Igor  Master in Data Engineers
@renardeinside 👆Спасибо за помощь
источник

АГ

Андрей Гаврилов... in Data Engineers
Всем привет!
Может быть кто сталкивался?

Нужно включить transfer acceleration для связки Spark + aws S3

Больше контекста:

Пишем сарком в S3 бакет, кторый живёт в другом регионе.
Понятное дело пишется долго и не влезаем в таймуты.

Бест практики советуют в этом случае использовать acceleration endpoint.

В бакете это дело включили
В спарке ендпоинт подменили
(добавили
'spark.hadoop.fs.s3a.endpoint': 'https://s3-accelerate.amazonaws.com'

в спарк сессию)

Пробуем записать и ошибка:

An error occurred while calling o104.parquet.
: java.lang.IllegalStateException: To enable accelerate mode, please use AmazonS3ClientBuilder.withAccelerateModeEnabled(true)
at com.amazonaws.services.s3.AmazonS3Client.setEndpoint(AmazonS3Client.java:659)


Получается, что единственный путь - пересобирать джарник из исходников с заменой одного булевского значения

Чувсвтую, что можно проще. но не понимаю как
источник

АА

Алексей Артамонов... in Data Engineers
подскажите
источник

АА

Алексей Артамонов... in Data Engineers
делаю коннект к hive spark = SparkSession \
   .builder \
   .appName("Spark session example") \
   .config("hive.metastore.uris", "thrift://localhost:10000") \
   .enableHiveSupport() \
   .getOrCreate()

sqlContext.sql("show databases").toPandas()
и
sqlContext.sql("show tables").toPandas()
выводит данные
источник

АА

Алексей Артамонов... in Data Engineers
как только начинаю выполнять sqlContext.sql("select * from bigsql.tmp_294_metrics_dashboard limit 2").toPandas()
источник

АА

Алексей Артамонов... in Data Engineers
получаю ошибку java.net.UnknownHostException: mlk-prd'
источник

S

Sergey in Data Engineers
Там же написано что хост не резолвится
источник

S

Sergey in Data Engineers
Он по хостнейму с машины где деплоится прила пингуется?
источник

A

Andrey Гalkin in Data Engineers
Hello guys,
I'm a technical recruiter from Talentuch HR agency. We cooperate with clients from USA, Europe and Ukraine. Now I'm looking for a Data Engineer for an international software development & IT company.

If you're interested, I'd be glad to give you more details.

Regards, Andrey
источник

АЖ

Андрей Жуков... in Data Engineers
Andrey Гalkin
Hello guys,
I'm a technical recruiter from Talentuch HR agency. We cooperate with clients from USA, Europe and Ukraine. Now I'm looking for a Data Engineer for an international software development & IT company.

If you're interested, I'd be glad to give you more details.

Regards, Andrey
источник

A

Andrey Гalkin in Data Engineers
Thank you ☺️
источник

TZ

Troll Zhuravlev in Data Engineers
Всем привет, есть ли тут спецы, которые помогут решить задачу:

aws s3 - тут есть файл "типа" XML его надо прочесть из scala ( которая запустится в спарке )
сделать дедупликацию и аггрегацию ( объясню ) - спарком-скалой
записать это в mysql
источник

GP

Grigory Pomadchin in Data Engineers
источник

GP

Grigory Pomadchin in Data Engineers
Переслано от Grigory Pomadchin
в том виде в котором ты описал задачу - спарк не нужен; если ты уверен, что нужен можно попробовать https://github.com/databricks/spark-xml

а вообще со спарко вопросами тебе сюда https://t.me/hadoopusers
источник

LT

Lan Tal in Data Engineers
Grigory Pomadchin
Переслано от Grigory Pomadchin
в том виде в котором ты описал задачу - спарк не нужен; если ты уверен, что нужен можно попробовать https://github.com/databricks/spark-xml

а вообще со спарко вопросами тебе сюда https://t.me/hadoopusers
Это ведь и есть ссылка на этот чат?
источник

GP

Grigory Pomadchin in Data Engineers
Lan Tal
Это ведь и есть ссылка на этот чат?
да; но первая часть ответа - пригодится
источник