Часто, когда мы делаем систему или платформу данных в среде разработки, у нас нет еще реального объема данных для тестирования.
Например в геймдеве это частое явление, когда у нас просто нет продакшн данных до релиза игра и нам нужно сделать нагрузочное тестирование.
Самый популярный вариант - это нагенерить dummy/fake данных и прогнать через data pipelines/transformation/storage/BI access и тп.
И теперь вопрос для знатоков, как вы это делаете? Например, у меня есть Spark и на входе JSON файлы, которые разложены по часам.
Допустим я хочу нагенерить файлов на сотни млн событий и загрузить их в мое озеро и посмотреть как пойдет.
Я нашел пару библиотек на питоне:
-
https://github.com/Zac-HD/hypothesis-jsonschema-
https://pythonrepo.com/repo/ghandic-jsf-python-josnОни вроде умеют брать на вход простую схему JSON и создавать fake данные, но не понятно как контролировать объем. Может есть еще вариантыы