Всем привет. Есть простой вопрос, но в тоже время и сложный. Как записать спарком через jdbc в RDS так, чтобы в последнем не было дубликатов? Датасет без ключей, поэтому валидация на стороне базы не возможна. Экзекьюторы могут падать после коммита, также спекулятивные таски могут вызывать дублирование. Вопрос - как сделать красиво?
писать из Spark в S3, а потом поднимать нормально в базу, чем у вас принято, хоть дата пайплайном