спасибо. тут 95 GB, created 6 days ago. это скорее всего сжатое ведь. т.е развернем и пара сотен гигов. на одну машину не влезет.
прямо сейчас времени нет сделать PoC, но что-то мне говорит что развернув 95 gb (даже если это 1tb) и наложив сверху Elasticsearch - я решу эту задачу даже на домашнем компьютере (без шардирования и кластеризации)
прямо сейчас времени нет сделать PoC, но что-то мне говорит что развернув 95 gb (даже если это 1tb) и наложив сверху Elasticsearch - я решу эту задачу даже на домашнем компьютере (без шардирования и кластеризации)
ок . понял, что бы предлагаете сделать инвертированный индекс. сомнения в том, что он только на одной тачке поместится.
Архитекторы, а как гугл или яндекс мэп делают поиск по карте? адрессов же великое множество. скажем, что миллиадр. вот только чтобы хранить информацию о долготе и широте нужно 16Гигов, а если еще хранить что-то об аддресе( скажем 200 байт), то это уже 3.2 терабайта. на одну машину не поместиться. но они как-то обрабатывают такой кейс, что я ввожу только название улицы, а они выдают мне список в котором есть города Росии, Франции и т.д. т.е они ищут по всему миру
А как вообще Google search устроен - не задумывался? Там данных куда больше. Поиск по адресам - простая частная задача.