Size: a a a

2021 December 28

ЕГ

Евгений Глотов... in Moscow Spark
Ну если все ноды это одна, то всё)
источник

ЕГ

Евгений Глотов... in Moscow Spark
А так - с чем упал экзекутор, то и пересчитается
источник

NR

Nikita Red in Moscow Spark
Всем привет!
У меня возникла проблема, подскажите есть ли варианл елегантно ее решить?
создаю ctl поток, читаю из разных таблиц, джоиню, всячески фильтрую данные.
В итоге сохраняю данные в выходную таблицу следующим образом.

final
   .write
   .partitionBy("report_date", "product_id")
   .mode("overwrite")
   .saveAsTable(schema_out.table_out)

По идее "product_id", и "report_date" - это какой-то один продукт (к примеру
равен 03) за current_date. По невнимательности в поле product_id попал NULL.
И теперь мой поток пишет в две партиции product_id=03 и
product_id=__HEVE_DEFAULT_PARTITION__

В hdfs это выглядит следующим образом
/data/.../schema_out/table_out/report_date=2021-12-28
"product_id=00"
...
"product_id=03"
"product_id=__HEVE_DEFAULT_PARTITION__"

Доло в том что поток уже в проме. Другие потоки, которые имеют тот же product_id
падают из-за моего. Можно ли что-нибудь предпринять не вводя hotfix'ов потока?
источник

ЕГ

Евгений Глотов... in Moscow Spark
А в чём проблема с нулл?
источник

NR

Nikita Red in Moscow Spark
Я так понимаю из-за того, что у меня в поле product_id кроме моего 03 есть еще NULL, появляется еще партиция "product_id=HEVE_DEFAULT_PARTITION"
источник

NR

Nikita Red in Moscow Spark
И как-то из-за этого падают потоки моих коллег, у которых product_id тоже 03 и они пишут в эту же таблицу
источник

NR

Nikita Red in Moscow Spark
Это мои догадки
источник

ЕГ

Евгений Глотов... in Moscow Spark
Чем не устраивает эта партиция?
источник

ЕГ

Евгений Глотов... in Moscow Spark
Потоки падают, потому что не надо двумя джобами в одну папку писать
источник

N

Nikita Blagodarnyy in Moscow Spark
с аппендом то можно
источник

ЕГ

Евгений Глотов... in Moscow Spark
Не, они ломают друг другу _temporary
источник

ЕГ

Евгений Глотов... in Moscow Spark
Если не сделать v2 аутпуткоммиттер
источник

ЕГ

Евгений Глотов... in Moscow Spark
Что скорее всего не сделано
источник

NR

Nikita Red in Moscow Spark
Отсюда по подробней пожалуйста
источник

ЕГ

Евгений Глотов... in Moscow Spark
источник

NR

Nikita Red in Moscow Spark
Спасибо!
источник
2021 December 29

IN

Ivan Nikolaev in Moscow Spark
Всем привет. А как spark работает с вью hive через HiveContext?
источник

IN

Ivan Nikolaev in Moscow Spark
Кто в итоге вью собирает hive или spark?
источник

ЕГ

Евгений Глотов... in Moscow Spark
HiveContext? Это из какого года?🤔
Спарк берёт всю инфу из метастора, сам строит план запроса и читает данные
источник

IN

Ivan Nikolaev in Moscow Spark
С обычными таблицами все так, а вот с вьюхами ощущение такое, что нет. В Spark UI ничего не происходит, после 20 минут начинается движуха. 🤷‍♂️  Spark 2.4.0
источник