Обычно, когда вы размечаете картинки для детекции, то на выходе возможны 2 варианта:
1. Множество xml файлов по именам самого имиджа
2. Текстовый файл формата примерно: имя, имя класса, координаты прямоунольника. Иногда координаты считаются, как свиги относительно центра прямоугольника ( yolo формат), иногда непосредственно.
Что нужно нейросети - это, в общем, как вы сами напишете ее кормление данными. Например, tf detection api в в туториале описывает, что просит xml. Но мне это было неудобно, я переписала так, чтоб она csv с координатами брала