Size: a a a

2019 September 24

AP

Alexander Piminov in Data Engineers
Sergey Ufimtsev
Ребят, всем привет. Можете подсказать какое направление выбрать для магистратуры, чтоб стать тру дата инженером?
Есть еще https://mai.ru/priem/master/programs/program.php?ID=91353, но там практики неплохие, а фундаменталы вызывают вопросы. И у Вышки что-то было.
источник

SU

Sergey Ufimtsev in Data Engineers
Маи, там же самолетики, не?
источник

SU

Sergey Ufimtsev in Data Engineers
Как-то выглядит мб и солидно, но не покидает ощущение что это как it специальности в каком-нить сельско хозяйственном
источник

RI

Rustam Iksanov in Data Engineers
Nika
df.write.options( Map(HBaseTableCatalog.tableCatalog -> catalog))
           .format("org.apache.spark.sql.execution.datasources.hbase").save()
через спарк джобу или зеппелин?
источник

AP

Alexander Piminov in Data Engineers
Sergey Ufimtsev
Маи, там же самолетики, не?
Ну тот же ПМиФ выпускает немало неплохих IT-специалистов 🙂 Но ты просил варианты, выбирай, что больше нравится.
источник

N

Nika in Data Engineers
Спарк
источник

λ

λoλdog in Data Engineers
Rustam Iksanov
через спарк джобу или зеппелин?
А что, есть разница ?
источник

RI

Rustam Iksanov in Data Engineers
λoλdog
А что, есть разница ?
принципиальной нет, у меня 2 момента просто были. Нужно было добавить через —files hbase-site.xml при старте джобы и сделать симлинк с /etc/hbase/conf/hbase-site.xml на /etc/spark2/conf/hbase-site.xml. Возможно пути немного неточно указал
источник

AK

Andrew Kochen in Data Engineers
Не подскажете, в чем может быть проблема?
Выгружаю спарком довольно "широкую" таблицу в паркет (порядка 300 колонок)
Все выгружается хорошо, но потом при чтении проблемы
Caused by: org.apache.parquet.io.ParquetDecodingException: Can't read value in column [`community_start`] INT96 at value 10881 out of 95573, 10881 out of 95573 in currentPage. repetition level: 0, definition level: 0

вот такие ошибки. Не обязательно на поле INT96, выпадает на разные)
источник

N

Nikita Blagodarnyy in Data Engineers
Лечили подобное тем, что при записи ставили spark.sql.parquet.writeLegacyFormat в тру
источник

N

Nikita Blagodarnyy in Data Engineers
Иначе ничем потом не читалось.
источник

AK

Andrew Kochen in Data Engineers
понял, попробую. Спасибо
источник

N

Nikita Blagodarnyy in Data Engineers
У нач были пляски с форматом decimal, (38,10) и (18,6) нормально заходило, а что-то кастомное вообще никак.
источник

N

Nikita Blagodarnyy in Data Engineers
Nika
Ну в опшины сюда пытаюсь вставить другие адреса, в sc.hadoopconf и сюда , нигде не видит изменений, стучится на localhost:2181
Попробуйте в сабмите подсунуть верный конфиг hbase, как советуют выше.
источник

A

Alexander in Data Engineers
Andrew Kochen
Не подскажете, в чем может быть проблема?
Выгружаю спарком довольно "широкую" таблицу в паркет (порядка 300 колонок)
Все выгружается хорошо, но потом при чтении проблемы
Caused by: org.apache.parquet.io.ParquetDecodingException: Can't read value in column [`community_start`] INT96 at value 10881 out of 95573, 10881 out of 95573 in currentPage. repetition level: 0, definition level: 0

вот такие ошибки. Не обязательно на поле INT96, выпадает на разные)
Через hive читаете?
источник

AK

Andrew Kochen in Data Engineers
Нет, спарком и читаем
источник

A

Alexander in Data Engineers
Nikita Blagodarnyy
Лечили подобное тем, что при записи ставили spark.sql.parquet.writeLegacyFormat в тру
Это помогает, когда пишешь спарком в паркет, а потом внешней системой типа hive читаешь, так как насколько помню, в зависимости от scale и precision паркет в разных форматах decimal пишет, а настройка как раз к единому приводит
источник

A

Alexander in Data Engineers
И hive у нас без этого тупил, но если читать спарком, то все норм было в любом раскладе
источник

AK

Andrew Kochen in Data Engineers
Я пока заново наливаю таблицу с writeLegacyFormat в true. Отпишусь, помогло ли
источник

A

Alex in Data Engineers
а кто как hive масштабирует?
источник