EB
А конкренее, чтобы понять какие здания без тегов жилые, какие являются местами работы людей(БЦ, школы, заводы, ТЦ и т.д.), а какие к людям имеют косвенное значение (подстанции, КПП всякие, остановки и т.д.)
Думаю, хорошего подхода (простыми способами) в принципе не найти, из-за того, что даже человеку по прямым признакам понять сложно -- жилое здание или нет.
Тем не менее, попробуй открыть какой-нибудь спутник на Гугле или Яндексе и проанализировать, на основании каких ПРЯМЫХ признаков ты сам можешь отнести здание к тому или иному классу.
Вот, что я бы попробовал: набрал бы как можно больше разных признаков. Кроме очевиденых (площадь, этажность...), более экзотические:
* отношение полной площади к внешнему периметру (у школ и детсадов обычно очень сложная геометрия (т.е. большой P), когда как жилых зданий форма проще)
* наличие "островов" в полигоне дома
Кроме прямых признаков, ддостаточно просто обратить внимание на окружение здания другими зданиями. Например, если рядом со зданием есть нежилые здания, но нет жилых, маловероятно,что оно таки жилое.
Чем больше у тебя времени, тем больше признаков напридумывай :)
Взял бы выборки с известным классом здания. Посмотрел бы корреляцию с разными признаками.
Дальше выкинуть плохие признаки, засунуть это в какой-нибудь непространственный алгоритм кластеризации (для начала). Посмотреть сколько классов и как нашлось. Потом уже по результатам.
Да, я не настоящий сварщик, анализом данных занимался оч мало.
Вообще советую спросить этот вопрос в каком-нибудь чатике ML-щиков