Size: a a a

2021 September 21

NN

No Name in Data Engineers
Наверное, это выходит за рамки тех задач, которые я все это время решал, потому что не знал о таких проблемах. (
источник

AZ

Anton Zadorozhniy in Data Engineers
У вас есть пользователи которые Спарк используют исключительно через JDBC/ODBC?
источник

NN

No Name in Data Engineers
Думаю, что есть, но крайне мало, и их судьбой мы мало интересуемся - основная масса в ноутбучиках или ide поднимает сессию и работает.
источник

AZ

Anton Zadorozhniy in Data Engineers
Тогда да, вам это не актуально
источник

NN

No Name in Data Engineers
Понял, спасибо
источник

AZ

Anton Zadorozhniy in Data Engineers
Интересно что они будут пушить когда крипта схлопнется
источник

NN

No Name in Data Engineers
Откатятся до каких-нибудь электронных кошельков, наверное.
источник

AZ

Anton Zadorozhniy in Data Engineers
Да, беттинг какой-нибудь, с «гарантированным выигрышем»
источник
2021 September 22

ME

Mikhail Epikhin in Data Engineers
Ну как раз пользоваться тулами чтобы делать запросики в spark-sql через dbeaver или ещё какие-то удобные тулы , которым удобней в jdbc
источник

AZ

Anton Zadorozhniy in Data Engineers
То есть вы сейчас упираетесь в возможности STS?
источник

ME

Mikhail Epikhin in Data Engineers
Нет, только собираюсь, просто решил сразу посмотреть на альтернативы
источник

ME

Mikhail Epikhin in Data Engineers
Вдруг кто-то может сказать своё мнение
источник

ME

Mikhail Epikhin in Data Engineers
Ну и я не увидел в STS интерфейса по jdbc
источник

AZ

Anton Zadorozhniy in Data Engineers
Я бы сказал так: если у вас пользователей через JDBC единицы, у них нет жестких SLA, то хватит STS; Kyuubi работает (у меня есть знакомый пользователь из Китая), но там не все гладко, например он ложится на больших резалтсетах
источник

AZ

Anton Zadorozhniy in Data Engineers
Ну и это все применимо только если вы сами держите всю спарковую инфру, на датабриксе не нужны никакие фронты
источник

VE

Vladimir E. in Data Engineers
А вот кстати какие ограничения у датабрикса на выгрузку данных через jdbc? Раньше в документации видел 4gb, но сейчас пропало как то. Там же все от driver.MaxResultSize зависит?
источник

ME

Mikhail Epikhin in Data Engineers
Спасибо за отзыв, попробую начать с обычного STS
источник

R

Roman in Data Engineers
Коллеги, нужно ваше мнение/критика.

Как лучше раскатить Спарк в кубере, причем в 2-х вариантах работы:
1) Чтобы с юпитерхаба можно через toree или pyspark ядра работать интерактивно, с динамической аллокацией ресурсов и все такое.(такое видел, и даже делал, но с yarnом, а не кубом) Видел с кубом тоже так делают, немного работал, но мало, чтобы понять боли и плюсы.
2)Чтобы с airflow сабмитить джобы спарка в этот куб кластер.

Я думаю идти по пути настройки конфигов spark-defaults.conf для работы с кубом. Но куб  в aws(eks) и опсы мне говорят, что там не все  так просто, чтобы работать с ним извне кластера. Я вот не очень понимаю эту проблему, если честно(типа создал сервисную учетку, накинул прав в iam, прокинул серты в настройки спарка). Может кто сталкивался?  
Поэтому раскатили standalone кластер спарка в кубере и предлагают работать с ним. Мне кажется, что это не очень рабочее решение. Типа скейлить воркеров будет не очень удобно. Но опять же, я со стендалон кластером работал 1 раз. Поэтому точно не могу понимать что не так будет. Поэтому может быть вы знаете плюсы и минусы такой реализации?

Итого 2 вопроса:
1) Какие есть трудности в настройке спарка с кубером, которы из под aws(eks)?
2) Какие есть плюсы и минусы standalone кластера спарка, который развернут в кубере, а дальше к этому кластеру будут ходить через shell и через сабмит?

Заранее благодарю!
источник

R

Roman in Data Engineers
На первый вопрос нашел, кажется, ответ:
"Use the spark-submit command from the server responsible for the deployment. Spark currently only supports Kubernetes authentication through SSL certificates. This method is not compatible with Amazon EKS because it only supports IAM and bearer tokens authentication."
Дока aws
источник

H

HK416 140316 in Data Engineers
кто сталкивался с этой проблемой можете помочь?
источник