Size: a a a

2021 April 27

А

Андрей in Data Engineers
Ну это можно)
источник

ЕГ

Евгений Глотов... in Data Engineers
Для начала стоит попробовать - если проблема решится, то надо эскалировать, чтоб поменяли исходную, так как она вероятно ошибочна
источник

А

Андрей in Data Engineers
То есть новая таблица просто должна ссылаться на ту же директорию на файловой системе, я правильно понимаю?
источник

ЕГ

Евгений Глотов... in Data Engineers
Да
источник

KS

K S in Data Engineers
50 тысяч партиций в спарке это плохо?
источник

GP

Grigory Pomadchin in Data Engineers
от кластера и жобы зависит
источник

А

Андрей in Data Engineers
Там скорей всего она такая не одна, это уже третий такой случай за недолгое время. Но тогда у девов получилось использовать производные колонки, хранившие рядом дату в бигинте, а тут путей обхода уже нет)
источник

А

Андрей in Data Engineers
Спасибо большое, буду пробовать
источник

ЕГ

Евгений Глотов... in Data Engineers
Лучше сразу бить в tableau за изменение типов между файлами и таблицей)
источник

KS

K S in Data Engineers
Вначале сделал так:

df.write.partitionBy(f1, f2, f3).json(path)

На небольших количествах данных, работало нормально, однако при 50 тысячах появились тормоза. Подозреваю, что это из-за партиций.
источник

GP

Grigory Pomadchin in Data Engineers
ну много партиций будет медленно если у тя тонкий кластер
источник

GP

Grigory Pomadchin in Data Engineers
Зато по памяти норм
источник

GP

Grigory Pomadchin in Data Engineers
на жирном кластере 50к партиций наоборот классно будет
источник

KS

K S in Data Engineers
Это на AWS glue с максимальными настройками
источник

GP

Grigory Pomadchin in Data Engineers
что значит максимальные настройки
источник

AE

Alexey Evdokimov in Data Engineers
if (dtfInput != null) {
                           timestamp = Date.from(Instant.from(dtfInput.withZone(inputTimezone).parse(timestampText))).getTime();
                       } else try {
                           // timestamp is in milliseconds
                           timestamp = new Double(timestampText).longValue();

                           // timestamp is in seconds
                           if (timestamp < 100_000_000_000L) {
                               timestamp *= 1000L;
                           }
                       } catch (NumberFormatException e) {
                           // timestamp is ISO
                           timestamp = Date.from(Instant.parse(timestampText)).getTime();
                       } // fail otherwise

ну зачем же сразу бить? можно как-то так например
источник

GP

Grigory Pomadchin in Data Engineers
Там всего 300 ехекуторов можно
источник

GP

Grigory Pomadchin in Data Engineers
В глю
источник

KS

K S in Data Engineers
Ну параллелизм до максимума того, что в квотах- у нас 1000 машин.
источник

GP

Grigory Pomadchin in Data Engineers
параллелизм до максимума?
источник