GDPR и Privacy - вызов для дата инжиниринга. Тут нужно либо потратить много времени для дизайна будущей системы, чтобы она отвечала всем требованиям, либо потратить ещё больше времени на модификацию существующей.
NY times рассказывает про свой случай.
В Амазоне я застал время до и после законов GDPR. В один прекрасный момент все наши озера данных (данный в S3 в виде файлов), стали вдруг не complaint. Решение было:
1) перезагружать все данные каждые 90 дней
2) хранить только последние 30 дней
3) хранить только в базе данных Redshift
4)Delta Lake на EMR+Spark
Все вдруг стали очень занятыми и у нас появилось много новой работы))