Я думаю задачу можно решить с помощью НН. На вход давать пару соседних картинок, на выход координаты и оринтацию одной кортинки в системе координат другой. Архитектурно это может быть стандартная нескольслойная конволюция, которая даже может шарить веса для обеих фоток на ранних слоях.
я бы делал задачу так:
брал одну картинку и вторую ставил сбоку, и спрашивал, а похоже ли, что одна картинка это продолжение второй?
можно и просто посмотреть на похожесть границы картинок, но нейросети могли бы точнее определить наличие одинаковых продолжающихся протяжённых предметов.
другое дело, что тогда подобных проверок будет надо много делать на одну картинку — это медленно.
ну, можно комбинировать подходы, а можно дополнительную нейросеть заставить определять, на сколько пикселей картинку нужно сдвинуть.
а ещё можно приблизительное определение границы делать стандартной суммой квадратов разностей цветов точек на границе картинок, а потом уже для более точного определения привлекать нейросеть.