У вас по-моему какое-то недопонимание... Сетки в смысле архитектуры естественно доступны, а вот специфические веса слоев, полученные тренировкой этих сеток на различных датасетах, которые не включены в соревнования - это другое дело.
А кто сказал, что нельзя использовать предобученный Берт? Это же ерунда какая-то. Берт - это моделирование языка. Как модель выявит зависимости между словами, не зная языка? И кто вообще берёт пустую языковую модель и обучает её под конкретную задачу? Так это не работает...