Size: a a a

R language and Statistical data analysis

2020 March 09

ВК

Владимир Калинин in R language and Statistical data analysis
но нормально они также нераспределены
источник

АР

Александр Райков in R language and Statistical data analysis
Владимир Калинин
какое предположение? явно что они независимы
Что независимы и равномерно распределены
источник

a

aGricolaMZ in R language and Statistical data analysis
Александр Райков
есть генерализованные линейные модели, где можно использовать другое предположение о распределении остатков
ну количество слов, я бы моделировал Пуассоном, а не линейкой
источник

ЕТ

Евгений Томилов in R language and Statistical data analysis
aGricolaMZ
Да, в соседнем чате тоже предложили две модели. Минус метода двух моделей, или введения переменной большие-маленькие тексты заключается в том, что мы можем потенциально найти рукопись Шекспира, которая будет посередине, например, 2500 слов.

В соседнем чате предложили в таком случае классифицировать новую находку, а дальше уже пихать в модель. Я не в восторге от этой идеи, но право на существование она, конечно, имеет.

Другое предлоежние: нарезать большие тексты на маленькие.
Или можно сразу сделать иерархическую модель на основе предположения, что есть два основных типа текстов, но ещё и вместе их учитывать. И тогда в теории эта модель должна быть устойчива к появлению "серединных" текстов.
источник

a

aGricolaMZ in R language and Statistical data analysis
Владимир Калинин
но нормально они также нераспределены
может внутри кластеров, они и нормально распределены...
источник

АР

Александр Райков in R language and Statistical data analysis
aGricolaMZ
Да, в соседнем чате тоже предложили две модели. Минус метода двух моделей, или введения переменной большие-маленькие тексты заключается в том, что мы можем потенциально найти рукопись Шекспира, которая будет посередине, например, 2500 слов.

В соседнем чате предложили в таком случае классифицировать новую находку, а дальше уже пихать в модель. Я не в восторге от этой идеи, но право на существование она, конечно, имеет.

Другое предлоежние: нарезать большие тексты на маленькие.
Неясно, зачем это проверять
источник

АР

Александр Райков in R language and Statistical data analysis
что в большом тексте встретится больше разных слов, чем в маленьком? Итак понятно
источник

ВК

Владимир Калинин in R language and Statistical data analysis
у нас походу задачи перемешались) у меня нет кластеров
источник

a

aGricolaMZ in R language and Statistical data analysis
Кластеров еще нет. Но их можно искусственно создать
источник

a

aGricolaMZ in R language and Statistical data analysis
Александр Райков
что в большом тексте встретится больше разных слов, чем в маленьком? Итак понятно
вопрос, сколько? Например, в тексте длины 2065 слов, сколько мы предполагаем новых слов, которых нет в корпусе Шекспира?
источник

АР

Александр Райков in R language and Statistical data analysis
по графику видно, что линейная зависимость есть в области больших текстов, а среди маленьких просто хаос, что логично (попадание или непопадание в маленький текст уникального слова - случайность и не зависит от того, насколько именно он мал)
источник

АР

Александр Райков in R language and Statistical data analysis
а что касается срединных значений, то надо либо найти такие тексты, либо это близко к экстраполяции за пределы диапазона, что чревато
источник

АР

Александр Райков in R language and Statistical data analysis
учитывая три точки между вертикальным столбиком слева и наклонным облаком справа - зависимость может продолжаться в этой области достаточно долго налево, но это очень вилами по воде. Потому что помимо редкости наблюдений 1) все эти три точки лежат несколько выше тренда, который можно было бы провести исходя из правой части графика, 2) если пытаться прогнозировать значения на основе правой части графика, то стандартная ошибка при таком удалении от него обесценит всякую полезность точечного прогноза
источник

a

aGricolaMZ in R language and Statistical data analysis
Александр Райков
по графику видно, что линейная зависимость есть в области больших текстов, а среди маленьких просто хаос, что логично (попадание или непопадание в маленький текст уникального слова - случайность и не зависит от того, насколько именно он мал)
Да, в целом, я с Вами согласен, на маленьких текстах хаос, но неужели они ничего нам не расскажут?

На графике маленький кластер и пуассон
источник

a

aGricolaMZ in R language and Statistical data analysis
Александр Райков
учитывая три точки между вертикальным столбиком слева и наклонным облаком справа - зависимость может продолжаться в этой области достаточно долго налево, но это очень вилами по воде. Потому что помимо редкости наблюдений 1) все эти три точки лежат несколько выше тренда, который можно было бы провести исходя из правой части графика, 2) если пытаться прогнозировать значения на основе правой части графика, то стандартная ошибка при таком удалении от него обесценит всякую полезность точечного прогноза
Тоже согласен. Пуассон по всем.
источник

АР

Александр Райков in R language and Statistical data analysis
aGricolaMZ
Да, в целом, я с Вами согласен, на маленьких текстах хаос, но неужели они ничего нам не расскажут?

На графике маленький кластер и пуассон
уберите выброс на 160 и увидите, что тренд окончательно встал горизонтально
источник

PU

Philipp Upravitelev in R language and Statistical data analysis
Александр Райков
уберите выброс на 160 и увидите, что тренд окончательно встал горизонтально
да бросьте, на таком графике рисовать тренды очень странно
источник

АР

Александр Райков in R language and Statistical data analysis
aGricolaMZ
Тоже согласен. Пуассон по всем.
И ни одну из четырёх точек посередине Пуассон не прогнозирует даже близко
источник

АР

Александр Райков in R language and Statistical data analysis
да и в области низких значений количество наблюдений, вышедших за пределы диапазона, явно чрезмерно
источник

A

A in R language and Statistical data analysis
Alexander Semenov
Кинчики и сериалы в оригинале. Лучшего способа пока не придумали.
Александра

Позволю себе чуть оффтопа - подкасты в этом плане лучше.

-Только аудио, без пауз на видео часть и дополнительного контекста, облегчающего понимание.

-Можно слушать во время всяких других занятий с разной степенью погружения (от детального слушания до фонового привыкания к ритму и специфике речи)

-Легко найти интересную тематику
источник