Мне кажется, что более перспективно в плане Julia не переносить в GPU всякий deep learning, а реализовать что-то другое, что не взлетело из-за низкой скорости работы.
Например, огромная популярность сегодня у ускорителей баз данных на GPU. Их тьма, и для реляционок, и для графовых. Можно было бы JuliaDB посадить на GPU (если до сих пор этого никто не делал — могли и сделать, это ж сейчас мейнстрим).
Но deep learning появилась как дисциплина тогда, когда алгоритм 1987 года в 2011 году посадили на GPU, а до этого просто всё медленно было. Вот это можно попробовать делать со всякими другими алгоритмами. Например, пруверы FOL и HOL, ну и языки навроде Пролога (что там из современного). Вот их нужно сажать на ускорители и потом наблюдать "весну логических вычислений".
Можно ещё подумать, какие алгоритмы чудесны, только медленны. И планомерно начать их упихивать в NVIDIA ускорители. Почему NVIDIA? Они более-менее универсальны, а остальные более-менее на deep learning заточены.