Size: a a a

2021 August 30

ЕГ

Евгений Глотов... in Moscow Spark
И не только, кто-то у нас тоже поднял, кривда вроде тут ещё
источник

GP

Grigory Pomadchin in Moscow Spark
ну постой это ж ток старт** на скок можно быстро для жава приложения холодно стартануть
источник

GP

Grigory Pomadchin in Moscow Spark
источник

GP

Grigory Pomadchin in Moscow Spark
да приятно быстро не хуже ярна
источник

NN

No Name in Moscow Spark
Типа разница только в том, что приложение на кубере поднимается быстрее, чем ярном?
источник

GP

Grigory Pomadchin in Moscow Spark
не понимаю вопроса
источник

GP

Grigory Pomadchin in Moscow Spark
ну быстрее небыстрое тяжело сравнить
источник

GP

Grigory Pomadchin in Moscow Spark
аллокация ресурсов и провижен нод с кубом удобнее
источник

NN

No Name in Moscow Spark
А, ок.
Собсно, это я и хотел дальше уточнить.
источник

NN

No Name in Moscow Spark
Ну просто, насколько знаю, если у тебя хадуп кластер на ярне утилизируется в среднем процентов на 70, то это прям перфект тюнинг.
А на кубере?
источник

C

Combot in Moscow Spark
Avishek Maji has been banned! Reason: CAS ban.
источник

GP

Grigory Pomadchin in Moscow Spark
ну в целом проблема идеально загрузки распределнных ресурсов идеально не решена)
источник

GP

Grigory Pomadchin in Moscow Spark
источник

NN

No Name in Moscow Spark
Так я и не говорю про 100 процентный КПД, просто интересно, лучше ли ситуация с этим?
источник

C

Combot in Moscow Spark
aa vbgf has been banned! Reason: CAS ban.
источник

VV

Vladislav Verba in Moscow Spark
Всем привет! Подскажите пожалуйста, кто-нибудь юзает dagster как замену airflow для запуска спарковых (и не только) задач?

На бумаге он выглядит как панацея от многих болячек, свойственных airflow. А вот про места, с которыми он не справляется, инфы как-то не вижу
источник

KR

Kagermanov Ramazan in Moscow Spark
Всем привет!
Подскажите, как добавить поле мах(date) к дф
Нужен макс без группировки
Жалуется, что можно мах только по numeric брать
источник

ИК

Иван Калининский... in Moscow Spark
max совершенно точно работает для почти любых типов данных, даже binary можно сортировать (но может быть не реализовано)

Если нужно добавить много таких max(date) в датафрейм, то оконная (аналитическая) функция поможет! См. max(date) over partition by {fields}. Если такая дата одна, сначала сгруппировать исходный датафрейм, потом приджойнить или добавить литералом.

Чтобы понять, как лучше, нужны ответы на два вопроса:
1. max по всему датафрейму, или есть какие-то поля, для которых нужна максимальная дата?
2. Используется dataframe API или SQL? Как выглядит то, что не работает? ))
источник

KR

Kagermanov Ramazan in Moscow Spark
1) мах по колонке с датами
2) spark sql
a.withColumn(“max”, datediff(a.groupBy().agg (max(“col1”)).alias(“max”)(“max”), col2)
col1 and col2 - datetypes
источник

ЕГ

Евгений Глотов... in Moscow Spark
Спарк не поддерживает подзапрос в запросе
источник