Как искать текст по содержимому задача тривиальная, как осуществляется поиск ( не метапоиск) в видео, аудио и изображениях вопрос интересный.
Я предполагал, что у нас есть описание видео и прочее. Но вообще, у того же Azure есть Video Indexer, который вполне может по чистому видео-файлу нагенерить метаданных