Size: a a a

2021 April 27

GP

Grigory Pomadchin in Data Engineers
тут чат не о работе, извини
источник

GP

Grigory Pomadchin in Data Engineers
источник

GP

Grigory Pomadchin in Data Engineers
G[_[_]]
источник

А

Андрей in Data Engineers
Привет, у кого-то была проблема при чтении данных типа timestamp из ORC-файлов в хайвовской таблице через спарк возникала ошибка  java.lang.NullPointerException? Скорей всего, проблема в том, что таблица external, и в ней хранятся ORC разных версий. Если кто сталкивался с подобным, подскажите, пожалуйста, как это обойти
источник

А

Андрей in Data Engineers
Возможно, это к делу не относится, но при чтении файлов напрямую с помощью spark.read.format("orc") схема датафрейма показывает timestamp-колонки как строки
источник

ЕГ

Евгений Глотов... in Data Engineers
Беды с таблицей
источник

ЕГ

Евгений Глотов... in Data Engineers
Кто-то руками видать альтер тейбл сделал, и данные не сконвертировал
источник

ЕГ

Евгений Глотов... in Data Engineers
Нужно найти часть данных, которая лежит в строке, отделить её от части данных, которая лежит в таймстемпе, сконвертировать первую часть в таймстемп, и юнион записать обратно в таблицу
источник

ЕГ

Евгений Глотов... in Data Engineers
Попытка выдать строку за таймстемп и приводит к нуллпоинтеру
источник

ЕГ

Евгений Глотов... in Data Engineers
Либо, если все данные в строке, то можно хайвом альтер тейбл обратно сделать
источник

А

Андрей in Data Engineers
К сожалению, исправить данные нет возможности
источник

ЕГ

Евгений Глотов... in Data Engineers
Данные не нужно исправлять, если spark.read.orc читает нормально эти строки, то есть там не null, а дата-время, просто строкой
источник

ЕГ

Евгений Глотов... in Data Engineers
А, стоп, экстернал тэйбл
источник

ЕГ

Евгений Глотов... in Data Engineers
Переделайте просто DDL и пересоздайте экстернал таблицу
источник

ЕГ

Евгений Глотов... in Data Engineers
В таблице тип данного поля должен быть такой же, как в орке, то есть string
источник

А

Андрей in Data Engineers
мы недавно переехали с хортонворкс на клаудеру, возможно, во время этого проблема и возникла
источник

ЕГ

Евгений Глотов... in Data Engineers
А в чём переезд заключался?
источник

А

Андрей in Data Engineers
к сожалению, этим занимается не наша команда, мы просто делаем ETL. Вряд ли нам дадут возможность переделывать сорсные таблицы
источник

А

Андрей in Data Engineers
Ну или это нужно эскалировать уже)
источник

ЕГ

Евгений Глотов... in Data Engineers
А создать рядом таблицу тоже нельзя?)
источник