генерализованные модели, логит - частный случай. Грубо говоря это линейная (обобщенная множественная регрессия), только на y накладывается некая функция связи (линк функция) она делает линеаризацию.
По поводу кодов, если академично, до да, надо бы, но ... в принципе можно оставить кодировку по меткам, т.е. не разбивать один столбец (город => 1, 2, 3 на три город1, город2 и город 3)