…а тебе, всё-таки, недостаточно будет выровнять перспективу, ещё и масштаб понадобится (таки расстояние до стеллажа) - чтобы три пикселя на фотке было ровно три сантиметра на стеллаже
Таки да, что-то тут попахивает отдельной нейронкой, угадывающей положение плоскости выкладки по отношению к камере, но это я даже не знаю, фотоаппаратом с дальномером кучу обучающих картинок делать, что ли, выглядит оверинженерно
Смотри, если я возьму фотку, на которой твой алгоритм нормально детектит гап между товарами, а потом сожму её по вертикали и горизонтали в четыре раза - алгоритм всё равно отработает хорошо?
Тогда всё нормально и ничего дополнительно делать не нужно, а иначе нужно как-то автоматически подбирать масштаб сырой фотки, прежде чем отдавать её твоему детектору