нет, одна эпоха учится 15 минут. Я не знаю сколько их нужно для построения графика. Вот я для себя увидел что на 6-7 эпохе разницы с 3 особо нет. Поэтому останавливал. Может стоит поставить 100 эпох, а может 50. Но это много времени. Вот проблема что это можно найти только экспериментально
Добрый вечер! Подскажите, пожалуйста, какие сейчас алгоритмы классификации текста по темам наиболее актуальны? Интересуют именно алгоритмы, а не готовые решения, почитать статьи по этой теме
Шарящие за onnx, объясните, как работает io binding? В доке написано, что это просто фича, которая позволяет не тратить время на переброс тензоров с cpu на gpu, например, но каким именно образом - непонятно.
Ребята, нужен совет по GAN сетям для текста. Хотел сделать GAN из предобученной сети T5, вынимая из неё выходные hidden state-ы декодера вместо логитов и скармливать эту последовательность в параметр input_embeds дискриминатора, который состоит из одного энкодера T5. Таким образом получится непрерывный градиент из дискриминатора в генератор и сеть может быть оптимизирована. Рассчёт был на то что выходные хиден стейты находятся в пространстве эмбеддингов, и могут заменять собой эмбеддинги полученные из соответствующей матрицы. Но что-то у меня возникли сомнения в этом предположении. Можете ли вы сказать заработает ли это, или что-то нужно сделать по-другому?