Телеграмм чат группы moscowspark страница 953

Size: a a a

Moscow Spark

1227 membersпожаловаться на группу

2021 December 28

ЕГ

Евгений Глотов... in Moscow Spark

Ну если все ноды это одна, то всё)

источник

18:51пожаловаться #1

ЕГ

Евгений Глотов... in Moscow Spark

А так - с чем упал экзекутор, то и пересчитается

источник

18:52пожаловаться #2

Nikita Red in Moscow Spark

Всем привет!
У меня возникла проблема, подскажите есть ли варианл елегантно ее решить?
создаю ctl поток, читаю из разных таблиц, джоиню, всячески фильтрую данные.
В итоге сохраняю данные в выходную таблицу следующим образом.

final
.write
.partitionBy("report_date", "product_id")
.mode("overwrite")
.saveAsTable(schema_out.table_out)

По идее "product_id", и "report_date" - это какой-то один продукт (к примеру
равен 03) за current_date. По невнимательности в поле product_id попал NULL.
И теперь мой поток пишет в две партиции product_id=03 и
product_id=__HEVE_DEFAULT_PARTITION__

В hdfs это выглядит следующим образом
/data/.../schema_out/table_out/report_date=2021-12-28
"product_id=00"
...
"product_id=03"
"product_id=__HEVE_DEFAULT_PARTITION__"

Доло в том что поток уже в проме. Другие потоки, которые имеют тот же product_id
падают из-за моего. Можно ли что-нибудь предпринять не вводя hotfix'ов потока?

источник

19:27пожаловаться #3

ЕГ

Евгений Глотов... in Moscow Spark

А в чём проблема с нулл?

источник

19:36пожаловаться #4

Nikita Red in Moscow Spark

Я так понимаю из-за того, что у меня в поле product_id кроме моего 03 есть еще NULL, появляется еще партиция "product_id=HEVE_DEFAULT_PARTITION"

источник

19:41пожаловаться #5

Nikita Red in Moscow Spark

И как-то из-за этого падают потоки моих коллег, у которых product_id тоже 03 и они пишут в эту же таблицу

источник

19:42пожаловаться #6

Nikita Red in Moscow Spark

Это мои догадки

источник

19:42пожаловаться #7

ЕГ

Евгений Глотов... in Moscow Spark

Чем не устраивает эта партиция?

источник

19:58пожаловаться #8

ЕГ

Евгений Глотов... in Moscow Spark

Потоки падают, потому что не надо двумя джобами в одну папку писать

источник

19:59пожаловаться #9

Nikita Blagodarnyy in Moscow Spark

с аппендом то можно

источник

20:00пожаловаться #10

ЕГ

Евгений Глотов... in Moscow Spark

Не, они ломают друг другу _temporary

источник

20:01пожаловаться #11

ЕГ

Евгений Глотов... in Moscow Spark

Если не сделать v2 аутпуткоммиттер

источник

20:01пожаловаться #12

ЕГ

Евгений Глотов... in Moscow Spark

Что скорее всего не сделано

источник

20:01пожаловаться #13

Nikita Red in Moscow Spark

Отсюда по подробней пожалуйста

источник

22:41пожаловаться #14

ЕГ

Евгений Глотов... in Moscow Spark

https://kb.databricks.com/data/append-slow-with-spark-2.0.0.html

Databricks

Spark 2.0.0 cluster takes a long time to append data | Databricks on AWS

Learn how to troubleshoot a Databricks cluster that is slow to append data.

источник

22:43пожаловаться #15

Nikita Red in Moscow Spark

Спасибо!

источник

23:15пожаловаться #16

2021 December 29

Ivan Nikolaev in Moscow Spark

Всем привет. А как spark работает с вью hive через HiveContext?

источник

12:42пожаловаться #17

Ivan Nikolaev in Moscow Spark

Кто в итоге вью собирает hive или spark?

источник

12:43пожаловаться #18

ЕГ

Евгений Глотов... in Moscow Spark

HiveContext? Это из какого года?🤔
Спарк берёт всю инфу из метастора, сам строит план запроса и читает данные

источник

12:51пожаловаться #19

Ivan Nikolaev in Moscow Spark

С обычными таблицами все так, а вот с вьюхами ощущение такое, что нет. В Spark UI ничего не происходит, после 20 минут начинается движуха. 🤷‍♂️ Spark 2.4.0

источник

13:10пожаловаться #20