Всем привет, есть вопрос по маскированию данных на хадупе. Хотим сделать спарк джобу которая будет читать данные из хайва, например ФИО, и делать замену имён "Петр" = "Борис". Мы хотим сохранять эти key/value значения в какой-нибудь БД которая будет гарантировать что имя Петр всегда будет транслироваться в Борис. Изначальное решение использует postgresql где мы просто sql запросами заполняем таблицу и выбираем из неё значения. Но думаю что для спарка постгрес уже не получится масштабировать нормально. Можете подсказать если могу использовать какой-нить noSQL? По идее Hbase подходит, но мне сам HBase не очень нравится
Нужно чтоб эти key/value гдет сохранялись, всё общение с БД должно идти по такой схеме 1. Спарк смотрит есть ли значние замены в БД 2. Если замены нет - создать новую 3. Если замена есть (или только создали) - вернуть в спарк и сделать замену
ну и вот по идее нужно использовать какую-то БД, наверно no sql key value, которая бы ещё и гарантировала что не будет две разных замены для имени Петр
ну по сути кейс кажется больше зависит от хранилки, нежели от execution engine. По сути нужен быстрый upsert по ключу, тут миллион вариантов - HBase, Cassandra, Aerospike, если у вас денег много - Redis