Лосс классификации к лоссу сегментации(по-пикселивая классификация) не имеет прямого отношения (может иметь, но совсем не обязательно) . Например классификация может быть высокой, потому что модель научилась класифицировать поезд по присутствующим рельсам. А сегментация (на основе той же классификации) будет выдавать рельсы за поезд. Понимаете разницу? Я бы не за разницу наказывал, хотя возможно и какая-то регуляризация может быть на пользу.