Телеграмм чат группы moscowspark страница 880

Size: a a a

Moscow Spark

1190 membersпожаловаться на группу

2021 November 04

Andrey Terekhov in Moscow Spark

Да мне кажется никак. Поля для инкремента точно должны быть case insensitive, наверно всё остальное тоже…

источник

01:44пожаловаться #1

kvadratura in Moscow Spark

спасибо за ответы

насчет athena - тоже был опыт и нагрузочные тесты. отказались от нее в пользу PrestoSQL на emr 6.3 (вроде там какой-то трино полугодовой давности) т. к.
- athena ломалась при чтении parquet полей struct-типа, если было новое поле в новых файлах, вроде так, но 100% не помню
- не исполняло > 20 одновременных запросов - было критично для дашбордов
- при чтении из delta lake таблиц иногда выдавало в N раз больше table scan GB чем тот же престо
- старый престодб, трино выглядит намного живее, больше фич

из плюсов - 20 запросов исполняло очень шустро

я бы потестил все эти интеграции как следует, как глу и афина реагируют на удаление поля в постгре, например. или - как работает с экзотическими типами полей в постгре (если там у вас джсоны вдруг), делат ли projection push down / predicate push down, всегда ли, etc etc

источник

02:00пожаловаться #2

kvadratura in Moscow Spark

краулер, кстати, на паре датасетов тоже ломался, с internal error. техподдержка помочь не смогла за неделю, в итоге забили и выкинули краулеры 😔😔

источник

02:02пожаловаться #3

Andrey Terekhov in Moscow Spark

Ну всё по существу.
С джейсонами хреново, struct ломает, да.
Вариант — хранить в строке и вытаскивать нужные поля.

источник

02:03пожаловаться #4

kvadratura in Moscow Spark

readers тогда будут плакать.. на тот момент просто в датасетах каталога перестали стракты использовать. делали unnest насколько было возможно. но - да, экзотику и массивы кодировали в виде жсон-строк

источник

02:05пожаловаться #5

kvadratura in Moscow Spark

стракты сложно всем системам одинаково сделать, что-то обязательно сломается

источник

02:06пожаловаться #6

2021 November 10

Dmitry in Moscow Spark

Всем привет! Народ, подскажите, куда смотреть? Не могу прочитать таблицу из ClickHouse. Дает ошибку "java.sql.SQLException: Unsupported type OTHER" Прежде чем набивать схему таблицы для чтения у меня вопрос: нужно ли в properties в spark.read.jdbc(jdbcURL, tableName, properties) указывать какие-то специфичные для CH параметры для чтения таблиц?

источник

10:30пожаловаться #7

Дмитрий in Moscow Spark

cast можно сделать на стороне clickhouse = вместо tablename select написать с cast ом

источник

11:26пожаловаться #8

Dmitry in Moscow Spark

Спасибо!

источник

11:27пожаловаться #9

Chern Oleksander in Moscow Spark

всем привет, а не подскажите
У меня есть df где поля decimal и это валюта
типа 10,27; 6544644, 85 баксов

хочу их перевести в копейки

делаю вот так, но нахожу некоторые данные не правильно умножились, появляются какие-то лишнее пару копеек при обратно трансформации

.withColumn('amount', (F.round(F.col('amount'), 2)*F.lit(100)).cast(IntegerType()))

когда выгружаю данные и смотрю их при amount/100 у меня не получается получить исходные данные ((

Это какая-то боль в pyspark или я что-то не так делаю ?

Спасибо!

источник

18:54пожаловаться #10

ЕГ

Евгений Глотов... in Moscow Spark

Вижу запятую как разделитель🤔

источник

19:03пожаловаться #11

ЕГ

Евгений Глотов... in Moscow Spark

А насколько не сходится?

источник

19:04пожаловаться #12