Size: a a a

2021 November 04

AT

Andrey Terekhov in Moscow Spark
Да мне кажется никак. Поля для инкремента точно должны быть case insensitive, наверно всё остальное тоже…
источник

k

kvadratura in Moscow Spark
спасибо за ответы

насчет athena - тоже был опыт и нагрузочные тесты. отказались от нее в пользу PrestoSQL на emr 6.3 (вроде там какой-то трино полугодовой давности) т. к.
- athena ломалась при чтении parquet полей struct-типа, если было новое поле в новых файлах, вроде так, но 100% не помню
- не исполняло > 20 одновременных запросов - было критично для дашбордов
- при чтении из delta lake таблиц иногда выдавало в N раз больше table scan GB чем тот же престо
- старый престодб, трино выглядит намного живее, больше фич

из плюсов - 20 запросов исполняло очень шустро

я бы потестил все эти интеграции как следует, как глу и афина реагируют на удаление поля в постгре, например. или - как работает с экзотическими типами полей в постгре (если там у вас джсоны вдруг), делат ли projection push down / predicate push down, всегда ли, etc etc
источник

k

kvadratura in Moscow Spark
краулер, кстати, на паре датасетов тоже ломался, с internal error. техподдержка помочь не смогла за неделю, в итоге забили и выкинули краулеры 😔😔
источник

AT

Andrey Terekhov in Moscow Spark
Ну всё по существу.
С джейсонами хреново, struct ломает, да.
Вариант — хранить в строке и вытаскивать нужные поля.
источник

k

kvadratura in Moscow Spark
readers тогда будут плакать.. на тот момент просто в датасетах каталога перестали стракты использовать. делали unnest насколько было возможно. но - да, экзотику и массивы кодировали в виде жсон-строк
источник

k

kvadratura in Moscow Spark
стракты сложно всем системам одинаково сделать, что-то обязательно сломается
источник
2021 November 10

D

Dmitry in Moscow Spark
Всем привет! Народ, подскажите, куда смотреть? Не могу прочитать таблицу из ClickHouse. Дает ошибку  "java.sql.SQLException: Unsupported type OTHER" Прежде чем набивать схему таблицы для чтения у меня вопрос:  нужно ли в properties в spark.read.jdbc(jdbcURL, tableName, properties) указывать какие-то специфичные для CH параметры для чтения таблиц?
источник

Д

Дмитрий in Moscow Spark
cast можно сделать на стороне clickhouse = вместо tablename select написать с cast ом
источник

D

Dmitry in Moscow Spark
Спасибо!
источник

CO

Chern Oleksander in Moscow Spark
всем привет, а не подскажите
У меня есть df где поля decimal и это валюта
типа 10,27; 6544644, 85 баксов

хочу их перевести в копейки

делаю вот так, но нахожу некоторые данные не правильно умножились, появляются какие-то лишнее пару копеек при обратно трансформации

.withColumn('amount', (F.round(F.col('amount'), 2)*F.lit(100)).cast(IntegerType()))

когда выгружаю данные и смотрю их при amount/100 у меня не получается получить исходные данные ((

Это какая-то боль в pyspark или я что-то не так делаю ?

Спасибо!
источник

ЕГ

Евгений Глотов... in Moscow Spark
Вижу запятую как разделитель🤔
источник

ЕГ

Евгений Глотов... in Moscow Spark
А насколько не сходится?
источник

CO

Chern Oleksander in Moscow Spark
случайно, разделитель точка
источник

CO

Chern Oleksander in Moscow Spark
на 0,01%
источник

ЕГ

Евгений Глотов... in Moscow Spark
Округлилось не туда может?
источник

ЕГ

Евгений Глотов... in Moscow Spark
При делении обратном
источник

CO

Chern Oleksander in Moscow Spark
Вот пример
1539887 $
а перевело
153988704
Делим
1539887,04 $

от куда эти копейки ((
источник

ЕГ

Евгений Глотов... in Moscow Spark
А может изначальное отображение некорректное было?
источник

ЕГ

Евгений Глотов... in Moscow Spark
И копейки всё-таки были там
источник

ЕГ

Евгений Глотов... in Moscow Spark
Ещё есть такой момент, что большие числа интовые могут неправильно интерпретироваться типом float
источник