Какие подводные камни могут быть при хранении миллиардов (на текущий момент их 1.5 и количество будет расти) файлов размером 1 кб - 1 Мб в cephfs на hdd? Под block.db будут sata ssd (обычные интелы dc 4510), на таких же будут mds.
Стоит ли использовать s3?
В aws s3 раньше были проблемы с производительности, когда файлы назывались одинаково с начала, например, 2020-01-11-09-20-somefile.txt. И так ещё миллион файлов. И все они оказывались в одной партиции (partition) в корзине (bucket).
Поэтому aws рекомендовал раскидывать файлы по разным партициям, например, брать хеш от файла, сокращать хеш до 4 символов и вставлять спереди имени файла, hash-2020-01-11-09-20-somefile.txt