Size: a a a

R language and Statistical data analysis

2020 March 09

AS

Alexander Semenov in R language and Statistical data analysis
Евгений Томилов
Ого. Я смотрю курс от Вышки + blue brown + курс на Степике.
Курс вышки по линалу? С невнятной девушкой? Это ж мазохизм.
источник

ЕТ

Евгений Томилов in R language and Statistical data analysis
Alexander Semenov
Курс вышки по линалу? С невнятной девушкой? Это ж мазохизм.
А мне норм. Правда, там задания слабо связаны с лекциями, но чего уж там. А есть предложения получше?
источник

R

R in R language and Statistical data analysis
Alexander Semenov
Курс вышки по линалу? С невнятной девушкой? Это ж мазохизм.
А мне понравилось (я правда бросил в середине)
источник

AS

Alexander Semenov in R language and Statistical data analysis
Евгений Томилов
А мне норм. Правда, там задания слабо связаны с лекциями, но чего уж там. А есть предложения получше?
Coding the Matrix есть, видео лекций Гилберта Стрэнга из MIT. Да что угодно, только не это. Хуже только курс по теории графов на Степике.
источник

AS

Alexander Semenov in R language and Statistical data analysis
LAFF (Linear Algebra Frontiers and Foundations) тоже.
источник

ЕТ

Евгений Томилов in R language and Statistical data analysis
Alexander Semenov
Coding the Matrix есть, видео лекций Гилберта Стрэнга из MIT. Да что угодно, только не это. Хуже только курс по теории графов на Степике.
У меня плохо с английским на слух. А что не так с курсом по графам?
источник

IT

Inip Tyig in R language and Statistical data analysis
Alexander Semenov
Курс вышки по линалу? С невнятной девушкой? Это ж мазохизм.
Есть LAFF на edx — там внятный усатый мужЫк из техаса
источник

IT

Inip Tyig in R language and Statistical data analysis
ой, уже написали
источник

AS

Alexander Semenov in R language and Statistical data analysis
Евгений Томилов
У меня плохо с английским на слух. А что не так с курсом по графам?
Ну тогда проще английский сначала подтянуть. В той манере, в которой читают многие наши преподы, всё равно материалы слушать невозможно.
источник

А[

Александр [capsula] in R language and Statistical data analysis
Alexander Semenov
Coding the Matrix есть, видео лекций Гилберта Стрэнга из MIT. Да что угодно, только не это. Хуже только курс по теории графов на Степике.
Ммм, дискретная математика была изумительна
источник

АА

Александра Асанова in R language and Statistical data analysis
Всем привет, можно встречный вопрос, как подтянуть английский на слух? Если у кого-то есть ссылки на курсы или другой личный  опыт, посоветуйте, пожалуйста.
источник

А[

Александр [capsula] in R language and Statistical data analysis
Александра Асанова
Всем привет, можно встречный вопрос, как подтянуть английский на слух? Если у кого-то есть ссылки на курсы или другой личный  опыт, посоветуйте, пожалуйста.
Практика. Да и то, если собеседник не esl, можно получить косяков
источник

AS

Alexander Semenov in R language and Statistical data analysis
Александра Асанова
Всем привет, можно встречный вопрос, как подтянуть английский на слух? Если у кого-то есть ссылки на курсы или другой личный  опыт, посоветуйте, пожалуйста.
Кинчики и сериалы в оригинале. Лучшего способа пока не придумали.
источник

АА

Александра Асанова in R language and Statistical data analysis
Спасибо большое
источник

a

aGricolaMZ in R language and Statistical data analysis
Дорогие, я захотел смоделировать количество слов, которые встретились только в одном тексте из корпуса Шекспира. Получился вот такой график. Я хочу научиться предсказывать количество уникальных слов на основании длины текста. Как видно на рисунке, получаются два кластера: с всякими мелкими тексатми, и с всякими крупными текстами, а между ними дыра, так что регрессия, которая бы смотрела на все это вместе, наверное, бессмысленна. Что бы вы предложили? Я придумал искусствено разделить на эти кластеры и использовать их в качестве предиктора, однако мне это решение не совсем нравится. Можно выкинуть маленькие тексты (они составляют 2% всего корпуса), но тогда модель их эффект вообще не учтет.

Проблема взята из раздела 6.2 "Computer Age Statistical Inference"
источник

ЕТ

Евгений Томилов in R language and Statistical data analysis
aGricolaMZ
Дорогие, я захотел смоделировать количество слов, которые встретились только в одном тексте из корпуса Шекспира. Получился вот такой график. Я хочу научиться предсказывать количество уникальных слов на основании длины текста. Как видно на рисунке, получаются два кластера: с всякими мелкими тексатми, и с всякими крупными текстами, а между ними дыра, так что регрессия, которая бы смотрела на все это вместе, наверное, бессмысленна. Что бы вы предложили? Я придумал искусствено разделить на эти кластеры и использовать их в качестве предиктора, однако мне это решение не совсем нравится. Можно выкинуть маленькие тексты (они составляют 2% всего корпуса), но тогда модель их эффект вообще не учтет.

Проблема взята из раздела 6.2 "Computer Age Statistical Inference"
Может, всё же ввести дамми-переменную или делать две модели?
источник

АР

Александр Райков in R language and Statistical data analysis
Владимир Калинин
равномерное распределение остатков это кул?)
Не кул
источник

a

aGricolaMZ in R language and Statistical data analysis
Евгений Томилов
Может, всё же ввести дамми-переменную или делать две модели?
Да, в соседнем чате тоже предложили две модели. Минус метода двух моделей, или введения переменной большие-маленькие тексты заключается в том, что мы можем потенциально найти рукопись Шекспира, которая будет посередине, например, 2500 слов.

В соседнем чате предложили в таком случае классифицировать новую находку, а дальше уже пихать в модель. Я не в восторге от этой идеи, но право на существование она, конечно, имеет.

Другое предлоежние: нарезать большие тексты на маленькие.
источник

АР

Александр Райков in R language and Statistical data analysis
есть генерализованные линейные модели, где можно использовать другое предположение о распределении остатков
источник

ВК

Владимир Калинин in R language and Statistical data analysis
какое предположение? явно что они независимы
источник