Есть датасет DALY(вкратце-510 видео с youtube на каждом из котором определенные действия людей),есть к нему аннотации,в них указано время начала,время конца действия и что это за действие.Действий всего 10
Решается задача распознавания действия на видео. Правильно ли будет при формировании обучающей выборки распарсить датасет таким образом,чтобы было 10 классов(один класс-одно действие) и в каждом кадры с разных видео из датасета,где это действие происходит?