Телеграмм чат группы rlang

Да, в соседнем чате тоже предложили две модели. Минус метода двух моделей, или введения переменной большие-маленькие тексты заключается в том, что мы можем потенциально найти рукопись Шекспира, которая будет посередине, например, 2500 слов.

В соседнем чате предложили в таком случае классифицировать новую находку, а дальше уже пихать в модель. Я не в восторге от этой идеи, но право на существование она, конечно, имеет.

Другое предлоежние: нарезать большие тексты на маленькие.

Или можно сразу сделать иерархическую модель на основе предположения, что есть два основных типа текстов, но ещё и вместе их учитывать. И тогда в теории эта модель должна быть устойчива к появлению "серединных" текстов.

источник

12:19пожаловаться #4

a

aGricolaMZ in R language and Statistical data analysis

Владимир Калинин

но нормально они также нераспределены

может внутри кластеров, они и нормально распределены...

источник

12:19пожаловаться #5

АР

Александр Райков in R language and Statistical data analysis

aGricolaMZ

Да, в соседнем чате тоже предложили две модели. Минус метода двух моделей, или введения переменной большие-маленькие тексты заключается в том, что мы можем потенциально найти рукопись Шекспира, которая будет посередине, например, 2500 слов.

В соседнем чате предложили в таком случае классифицировать новую находку, а дальше уже пихать в модель. Я не в восторге от этой идеи, но право на существование она, конечно, имеет.

Другое предлоежние: нарезать большие тексты на маленькие.

Неясно, зачем это проверять

источник

12:19пожаловаться #6

АР

Александр Райков in R language and Statistical data analysis

что в большом тексте встретится больше разных слов, чем в маленьком? Итак понятно

источник

12:19пожаловаться #7

ВК

Владимир Калинин in R language and Statistical data analysis

у нас походу задачи перемешались) у меня нет кластеров

источник

12:19пожаловаться #8

a

aGricolaMZ in R language and Statistical data analysis

Кластеров еще нет. Но их можно искусственно создать

источник

12:20пожаловаться #9

a

aGricolaMZ in R language and Statistical data analysis

Александр Райков

что в большом тексте встретится больше разных слов, чем в маленьком? Итак понятно

вопрос, сколько? Например, в тексте длины 2065 слов, сколько мы предполагаем новых слов, которых нет в корпусе Шекспира?

источник

12:21пожаловаться #10

АР

Александр Райков in R language and Statistical data analysis

по графику видно, что линейная зависимость есть в области больших текстов, а среди маленьких просто хаос, что логично (попадание или непопадание в маленький текст уникального слова - случайность и не зависит от того, насколько именно он мал)

источник

12:22пожаловаться #11

АР

Александр Райков in R language and Statistical data analysis

а что касается срединных значений, то надо либо найти такие тексты, либо это близко к экстраполяции за пределы диапазона, что чревато

источник

12:24пожаловаться #12

АР

Александр Райков in R language and Statistical data analysis

учитывая три точки между вертикальным столбиком слева и наклонным облаком справа - зависимость может продолжаться в этой области достаточно долго налево, но это очень вилами по воде. Потому что помимо редкости наблюдений 1) все эти три точки лежат несколько выше тренда, который можно было бы провести исходя из правой части графика, 2) если пытаться прогнозировать значения на основе правой части графика, то стандартная ошибка при таком удалении от него обесценит всякую полезность точечного прогноза

источник

12:27пожаловаться #13

a

aGricolaMZ in R language and Statistical data analysis

Александр Райков

по графику видно, что линейная зависимость есть в области больших текстов, а среди маленьких просто хаос, что логично (попадание или непопадание в маленький текст уникального слова - случайность и не зависит от того, насколько именно он мал)

Да, в целом, я с Вами согласен, на маленьких текстах хаос, но неужели они ничего нам не расскажут?

На графике маленький кластер и пуассон

источник

12:30пожаловаться #14

a

aGricolaMZ in R language and Statistical data analysis

Александр Райков

учитывая три точки между вертикальным столбиком слева и наклонным облаком справа - зависимость может продолжаться в этой области достаточно долго налево, но это очень вилами по воде. Потому что помимо редкости наблюдений 1) все эти три точки лежат несколько выше тренда, который можно было бы провести исходя из правой части графика, 2) если пытаться прогнозировать значения на основе правой части графика, то стандартная ошибка при таком удалении от него обесценит всякую полезность точечного прогноза

Тоже согласен. Пуассон по всем.

источник

12:31пожаловаться #15

АР

Александр Райков in R language and Statistical data analysis

aGricolaMZ

Да, в целом, я с Вами согласен, на маленьких текстах хаос, но неужели они ничего нам не расскажут?

На графике маленький кластер и пуассон

уберите выброс на 160 и увидите, что тренд окончательно встал горизонтально

источник

12:32пожаловаться #16

PU

Philipp Upravitelev in R language and Statistical data analysis

Александр Райков

уберите выброс на 160 и увидите, что тренд окончательно встал горизонтально

да бросьте, на таком графике рисовать тренды очень странно

источник

12:32пожаловаться #17

АР

Александр Райков in R language and Statistical data analysis

aGricolaMZ

Тоже согласен. Пуассон по всем.

И ни одну из четырёх точек посередине Пуассон не прогнозирует даже близко

источник

12:33пожаловаться #18

АР

Александр Райков in R language and Statistical data analysis

да и в области низких значений количество наблюдений, вышедших за пределы диапазона, явно чрезмерно

источник

12:34пожаловаться #19

A

A in R language and Statistical data analysis

Alexander Semenov

Кинчики и сериалы в оригинале. Лучшего способа пока не придумали.

Александра

Позволю себе чуть оффтопа - подкасты в этом плане лучше.

-Только аудио, без пауз на видео часть и дополнительного контекста, облегчающего понимание.

-Можно слушать во время всяких других занятий с разной степенью погружения (от детального слушания до фонового привыкания к ритму и специфике речи)

-Легко найти интересную тематику

источник

14:05пожаловаться #20