Ок перефразирую.
Почему такую программу нельзя «написать» рассказав ей что надо делать так, как ты бы рассказал 7ми летнему ребенку?
Гуглите zero-shot learning. У 7-летнего ребенка есть 7 лет self-supervised + rl обучения, а также врождённая детекция объектов. Также ребенок может хранить текущее состояние в памяти и работает в continuous среде. Не говоря уже о большем количестве параметров, что, если честно маленькая проблема по сравнению с вышеперечисленными.