Телеграмм чат группы hadoopusers страница 4216

Так...речь же о количестве колонок в датафрейме, да? А что, если их больше?

14:15пожаловаться #1

ИК

sparkSession.conf.get("spark.sql.codegen.maxFields") - The maximum number of fields (including nested fields) that will be supported before deactivating whole-stage codegen.

14:42пожаловаться #2

Вот блин.
А ты эмпирически вывел, что около 170 полей ещё норм отрабатывает? И что происходит, если полей больше?

15:01пожаловаться #3

ИК

пока это самая широкая таблица, с которой я поработал))
Но рядом лежат таблички на 600+ полей, на них включать кодоген не пробовал

15:02пожаловаться #4

Блин.
У нас есть жирные, несколько тысяч атрибутов.
И используются оч активно.
Я раньше слышал про какие-то сложности с кодгеном в таких случаях, но подозревал, что речь о, не знаю, хотя бы нескольких тысячах полей, а уж никак не о полутора сотнях.
Придется тестить.
И это при том, что я не совсем понимаю, что надо ловить.
Кодген не случится? Будет медленнее? Неоптимальнее?

15:10пожаловаться #5

Anton Zadorozhniy in Data Engineers

"Оптимально" не бывает в сравнительной степени

15:10пожаловаться #6

Anton Zadorozhniy in Data Engineers

(извините)

15:10пожаловаться #7

Ну блин, не топите меня в этом, пожалуйста)

15:11пожаловаться #8

ИК

ничего страшного, просто будет работать скомпилированный scala-код

15:11пожаловаться #9

А ты не замерял, насколько это дороже/медленнее?

15:12пожаловаться #10

ИК

специально не замерял, но, похоже, в пределах погрешности))

15:12пожаловаться #11

ИК

во всяком случае, если раньше серьёзных задержек не замечали, то и сейчас не обращайте внимания

15:14пожаловаться #12

Я замечаю много задержек, поэтому чем больше причин установлю, тем лучше)

15:16пожаловаться #13

посмотрите на план запроса в ui
там же видно всё будет

15:17пожаловаться #14

Не, ну так если, например, я в конфиге пропишу spark.sql.codegen.maxFields=4000, и из-за этого все ещё ползать будет, то я, скорее всего, ничего в плане запроса не увижу.

15:20пожаловаться #15

на ui рисуется где codegen а где нет
плюс в логах драйвера есть сообщения по поводу слишком длинных методов

15:21пожаловаться #16

https://github.com/apache/spark/blob/master/sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/codegen/CodeGenerator.scala#L1547-L1549

GitHub

spark/CodeGenerator.scala at master · apache/spark

Apache Spark - A unified analytics engine for large-scale data processing - spark/CodeGenerator.scala at master · apache/spark

15:25пожаловаться #17

Это я понял.
Я имел в виду, что если я (или не я) выкручу до максимума этот параметр, то я не знаю, что именно мне отлавливать - oom, замедление, замену кодгена, что-то ещё?

15:25пожаловаться #18

смотрите что-то вроде этой ошибки

Generated method too long to be JIT compiled:

15:25пожаловаться #19

Ага, понял