Свежая статья про очень стабильный интерактивный трекинг объектов на видео
От юзера требуется только накликать несколько точек либо нарисовать какую-нибудь каракулю внутри объекта. Получив мгновенный отклик от системы, сегментацию объекта на нескольких других фреймах можно интерактивно поправить нарисовав еще пару каракуль. В итоге тратится минимум времени на разметку, но качество поразительное. Такой подход будет очень полезен в новых версиях софта типа Adobe Premier и DaVinci Resolve.
Каракули преобразуются в бинарные маски объектов с помощью нейронки. Затем эти маски пропагируются на соседние кадры во времени с помощью CNN с аттеншеном между каждым следующим кадром и всеми предыдущими для которых маски уже вычислены. Аттеншен слой тут очень похож на тот, который используется в
трансформерах для картинок, только тут сравниваются патчи текущего кадра со всеми патчами из предыдущих кадров для которых маски уже известны. Чтобы дать юзеру возможность итеративно подправлять маски на любых кадрах, еще одна сеточка учится мержить предсказанные маски на кадрах, которые находятся между двумя ключевыми кадрами размеченными пользователем. Все это учится на синтетическом датасете отрендеренных 3D моделей и отлично переносится на реальные видео.
Более подробно (с примерами работы) на
сайте проекта.