Селениум уже давно подразумевает вебдрайвер. А вебдрайвер - это штука, которая может управлять браузером. Делает она это в основном через инджектнутый на каждую открываемую страницу javascript, а так же через api браузера. Запускает/ закрывает через ос. Мы посылаем вебдрайверу команды а он уже в свою очередь управляет браузером.
Поэтому "честный" тест аналогичный "руками" - делается с помощью всяких autoit, uft и т.д., которые могут физически "жмакать" на определенные области экрана.
Вот кстати да, давно есть идея сделать управление браузером через автоматизацию десктопа + OpenCV. С эмуляцией поведения живого человека, и контролем браузера через devtools