Size: a a a

2020 March 04

GT

Gennady Timofeev in Data Engineers
Anton Zadorozhniy
Какой сторадж? У нас просто native object store который доступен на облаке которое хочет клиент
Да, сорри, имел ввиду именно спарк и дизагрегейтид шафл
источник

AZ

Anton Zadorozhniy in Data Engineers
Gennady Timofeev
Да, сорри, имел ввиду именно спарк и дизагрегейтид шафл
у нас изначально для батча, там часто работают без dynamic allocation так что начали мы вообще без external shuffle service, но щас есть, запускаю на том же кубер кластере где ворклоад клиента
источник

NB

Nikita Bakanchev in Data Engineers
Всем привет! Проблема следующая: есть поставленный локально спарк, и через Спарк шелл создал и заполнил базы данных и таблицы. Если я запускать просто тест с инициализацией spark session ( не spark submit), то видна только default бд. На какие настройки смотреть для синхронизации ?
источник

RI

Rustam Iksanov in Data Engineers
Nikita Bakanchev
Всем привет! Проблема следующая: есть поставленный локально спарк, и через Спарк шелл создал и заполнил базы данных и таблицы. Если я запускать просто тест с инициализацией spark session ( не spark submit), то видна только default бд. На какие настройки смотреть для синхронизации ?
запускай шелл с указанием конфигов или в сам скрипт посмотри, что он верно определяет окружение
источник

NB

Nikita Bakanchev in Data Engineers
Nikita Bakanchev
Всем привет! Проблема следующая: есть поставленный локально спарк, и через Спарк шелл создал и заполнил базы данных и таблицы. Если я запускать просто тест с инициализацией spark session ( не spark submit), то видна только default бд. На какие настройки смотреть для синхронизации ?
Или я написал ерунду и для локальных тестов надо всегда внутри структуры пересоздавать
источник

RI

Rustam Iksanov in Data Engineers
Nikita Bakanchev
Или я написал ерунду и для локальных тестов надо всегда внутри структуры пересоздавать
а что за БД?
источник

NB

Nikita Bakanchev in Data Engineers
Rustam Iksanov
а что за БД?
Hive структуры
источник

RI

Rustam Iksanov in Data Engineers
hadoop тоже локально? Твой спарк не видит hadoop
источник

AZ

Anton Zadorozhniy in Data Engineers
Nikita Bakanchev
Всем привет! Проблема следующая: есть поставленный локально спарк, и через Спарк шелл создал и заполнил базы данных и таблицы. Если я запускать просто тест с инициализацией spark session ( не spark submit), то видна только default бд. На какие настройки смотреть для синхронизации ?
в тестах метастор создается временный, вам надо туда пушить DDL перед тестами (или цепляться к живому метастору конфигами)
источник

NB

Nikita Bakanchev in Data Engineers
Спасибо!
источник

K

KrivdaTheTriewe in Data Engineers
Сделайте таблицы external и все беды закончатся
источник

A

Alex in Data Engineers
и как это поможет спарку понять протокол нового хайва?
источник

K

KrivdaTheTriewe in Data Engineers
Anton Zadorozhniy
мы просто катаем cutting edge stack, все на JDK11, экспериментальные фичи по статистике, новый мониторинг и аккаунтинг тулинг
Что за акаунтинг
источник

K

KrivdaTheTriewe in Data Engineers
Alex
и как это поможет спарку понять протокол нового хайва?
Оно работает просто из коробки
источник

A

Alex in Data Engineers
спарк 2.4 с хайвом 3.1 из коробки?
источник

K

KrivdaTheTriewe in Data Engineers
Да
источник

K

KrivdaTheTriewe in Data Engineers
На хортоне 2.3 спарк работал с третьим хайвом
источник

A

Alex in Data Engineers
если только это спарк собранный в дистри хортона с хортоновским хайвом
или клоудеровский с клоудеровским хайвом
источник

K

KrivdaTheTriewe in Data Engineers
Главное экстернал таблицы
источник

A

Alex in Data Engineers
ну вот я про это и писал, что вендоры делают свои патчи
источник