Че тут судить? Чуваку надо определить не только глаз открыт или закрыт, но и повернуть ли голова, сдит он или стоит, т. Е. Несколько признаков в совокупности. А это значит либо кодировать их отдельно, либо предсказывать эмбеддингами.
ну отдельные признаки это как раз multi-label?