И все? Я думал будет что-то про предпосылки Гаусса Маркова...
Теорвер тут ни при чём) И (X^TX)^{-1}X^TY, и градиентный спуск в теории дают одинаковый ответ (если градиентный спуск делать до полной сходимости). Но градиентный спуск удобно на мини-батчах считать, и это становится важным, когда обучающие датасеты очень большие и полностью в память не помещаются.
И ещё градиентный спуск никогда не выдаст nan или безумно большое значение в случае мультиколлинеарности, а вариант с обратными матрицами, если регуляризацию не применять - может)
Кто-нибудь из НЛПшников может мне напомнить разницу межу выделенными выражениями ? Я не понимаю как считается нижнее. Понимаю, что лайклихуды, только w это word, а v это word type из vocabulary.
Кто-нибудь из НЛПшников может мне напомнить разницу межу выделенными выражениями ? Я не понимаю как считается нижнее. Понимаю, что лайклихуды, только w это word, а v это word type из vocabulary.
второе это перегруппированные слагаемые из первого с учетом того как считается вектор x
⚡️Путин анонсировал в наступающее десятилетие цифровую трансформацию России - заявил, что нужно повсеместно внедрить искусственный интеллект и анализ больших данных