Size: a a a

2020 June 03

M

Mi in Moscow Spark
По double вы все равно также не заджойните, а джоин int/null должен нормально и быстро работать
источник

AK

Alena Korogodova in Moscow Spark
Ещё как варик можно целую и дробную часть разделить в два поля. Но хз)
источник

AK

Alena Korogodova in Moscow Spark
Timur Zalimov
Просто во 2ой табличке для джойна  Id изначально идёт  int
Вот это интересно, ID т.е. в одной точно целый всегда, а в другой чёрти что?
источник

TZ

Timur Zalimov in Moscow Spark
2 разных базы
источник

TZ

Timur Zalimov in Moscow Spark
В одной id как int а в другой как number, но по сути он целочисленный просто number(9,0) например
источник

IK

Ivan Kolemasov in Moscow Spark
lvm
Я ставил jar по инструкции
thx
источник

AK

Alena Korogodova in Moscow Spark
Timur Zalimov
В одной id как int а в другой как number, но по сути он целочисленный просто number(9,0) например
Или number(9,1), но по факту там целые, ага?)
источник

TZ

Timur Zalimov in Moscow Spark
Или так ))) вот и сижу думаю как быть
источник
2020 June 04

G

Gev in Moscow Spark
Может у кого то был опыт сброса данных в таблицы RDBMS
Меня интересует UpSert
База PostgreSQL
Понимаю что у Spark сохранение данных в базу RDBMS не целевая функция. Но у меня в архитектуре приложения пока к сожалению другого решентя нет
источник

G

Gev in Moscow Spark
Основная проблема - таблицы имеют foren key
источник

ЕГ

Евгений Глотов... in Moscow Spark
Если есть хоть какие-то зависимости от выгружаемого, лучше выгружать в темп таблицу, а потом средствами СУБД мёрджить
источник

DZ

Dmitry Zuev in Moscow Spark
Апсерт в пг не самая быстрая штука
источник

G

Gev in Moscow Spark
Евгений Глотов
Если есть хоть какие-то зависимости от выгружаемого, лучше выгружать в темп таблицу, а потом средствами СУБД мёрджить
Ну вот сейчас как то так сделали. Проблема в том что данных много и хочется не гонять их из слоя в слой а сразу положить для работы
источник

G

Gev in Moscow Spark
Dmitry Zuev
Апсерт в пг не самая быстрая штука
Ага. Вот сейчас рассматриваю возможность просто кидать в отдельные партиции с разной версией. Думаю так будет быстрее
источник

ЕГ

Евгений Глотов... in Moscow Spark
Если таск записи в бд упадёт, он не почистит за собой записанные строки
источник

O

Oleg in Moscow Spark
Если вставлять батчами в транзакции или даже сделать COPY FROM, а потом добавить проверку вставленных данных, то все должно быть хорошо
источник

O

Oleg in Moscow Spark
Привет Геворг)
источник

АЖ

Андрей Жуков... in Moscow Spark
Евгений Глотов
Если таск записи в бд упадёт, он не почистит за собой записанные строки
можно комит в конце только делать!
источник

АЖ

Андрей Жуков... in Moscow Spark
но опасно
источник

O

Oleg in Moscow Spark
Андрей Жуков
можно комит в конце только делать!
Это если всю вставку делать с мастера  или синхронизироваться после того как все воркеры закончат
источник