AB
(1) рекуррентные модели и резнеты являются (Эйлеровой) дискретизацией диффуры, или же наоборот (обыкновенная) диффура является continuous-depth нейронкой (то, что свёртка является дискретизацией дифференциального оператора было известно и до этого)
(2) градиенты диффур-слоя заданы другой диффурой (то что они называют adjoint sensitivity, хотя это на самом деле ещё Понтрягин в 1962 году показал), и поэтому можно бакпропить не через операции ODE солвера (что очень дорого), а вместо этого решая adjoint ODE (гораздо дешевле)

