Доброго дня!
Нужно построить классификатор людей. Пытаюсь понять, как корректно разметить признаки.
Например, у человека может быть указан город. Само по себе наличие любого города - это уже признак. Плюс ещё один признак, если это город именно Москва например.
Правильно ли я понимаю, что просто создать 2 бинарных признака будет не совсем корректно:
- Город указан: 0-1
- Город Москва : 0-1
Не корректно потому что у второго признака 0 - значит НЕ Москва. А если город вообще не указан, то должно быть:
- Город указан: 0
- Город Москва: NaN
А вместо NaN будет 0 (не корректно)
Мне кажется, логичнее будет а такой ситуации 3 признака создавать:
1. Город указан и это Москва: 0-1
2. Город указан, но это не Москва: 0-1
3. Город не указан: 0-1
Но проблема в том, что там ещё есть ветвления на уровень ниже, чем город, на районы например.. И получится, что признаковое пространство из-за этого разрастется в разы.
Что по этому поводу можете посоветовать?