Не туда думаете, оптимальная архитектура будет иметь бесконечность параметров. Я про то, что в зависимости от сети которую вы будете тренировать крайне сильно зависит скорость обучения
Насколько помню бесконечность предполагает запоминание. Сильно большую сеть тоже нельзя брать. Она быстро запомнит все значачения и результат на новых данных будет низким