Size: a a a

2022 January 30

k

kvadratura in Moscow Spark
merge исполняется обычным спарком, да. у нас не было кейсов, года нужно было через thriftserver мерж исполнять. но читать из дельта-таблиц и писать "обычные" таблицы обычным партишн-оверварйт-ом можно
источник

k

kvadratura in Moscow Spark
да
источник

D

Dmitry in Moscow Spark
не обычным спарком, а спарком с загруженной дельта либой. select да, работает, а MERGE, UPDATE, DELETE нет
источник

k

kvadratura in Moscow Spark
delete тоже работает
источник

k

kvadratura in Moscow Spark
update / merge через thriftserver не пробовал. хз
источник

k

kvadratura in Moscow Spark
а delete пробовал, прост какой-то мусор почистить надо было
источник

k

kvadratura in Moscow Spark
может, это был не delete, а drop table 🤔 уже не помню
источник

GP

Grigory Pomadchin in Moscow Spark
ну тоесть по факту это экстеншоны скуля + сурсы читать дельту?
источник

k

kvadratura in Moscow Spark
да.
источник

D

Dmitry in Moscow Spark
именно из SQL ? я на 0.6 дельте пробовал последний раз - не работало
источник

GP

Grigory Pomadchin in Moscow Spark
спасибо
источник

GP

Grigory Pomadchin in Moscow Spark
всегда было интересно, что они там хранят
источник

k

kvadratura in Moscow Spark
может, это был не delete, а drop table 🤔 уже не помню
источник

PK

Pavel Klemenkov in Moscow Spark
Переслано от Артём Глазунов...
#подкаст

Друзья, привет всем!
Вот и вышел 5-й выпуск нашего подкаста "Данные люди" с Павлом Клеменковым! Это один из самых долгих наших выпусков, на стыке технологий, философии и личного опыта! Приятного прослушивания! 🔥🔥
🔹 Apple
🔹 Castbox
🔹 Google
🔹 Яндекс
🔹 Simplecast
🔹 Spotify
источник
2022 January 31

РБ

Руслан Бикмаев... in Moscow Spark
Зависит от задач и от объема данных.
Графовые базы вычисляют на лету и для нормальной работы потребуют хорошего железа.
Я использовал предрассчитанные показатели, тогда селект по ним достаточно быстро отрабатывает. 8 млрд строк, выполнял на Вертике. Хотел на Спарке обкатать, но пока не добрался. Больше с целью тестирования и отладки тяжелых участков.
источник

РБ

Руслан Бикмаев... in Moscow Spark
Впоследствии, при настройке инкремента, выяснилось, что большой объем лучше идет при дозированной обработки батчами, объемом до 170 млн строк. Чтобы объем помещался в оперативу. Кластер довольно слабый, 4 ноды по 264 Гб оперативы.
Но инкремент настраивать муторно.
источник

ИК

Иван Калининский... in Moscow Spark
Батч - это хорошо, а батч, влезающий в оперативку - лучше))
Понятно, что приходится настраивать под свои задачи и ресурсы
источник

РБ

Руслан Бикмаев... in Moscow Spark
Можно его марку ?
Кстати слышал, часто такая проблема связана с подохшим БП, сам коммутатор часто нормальный.
источник

Д

Дмитрий in Moscow Spark
Cisco nexsus.
источник

N

Nikita Blagodarnyy in Moscow Spark
ACID таблицы мутирующие на орке. Сторадж хендлеры в другие бд.
источник