Size: a a a

R language and Statistical data analysis

2020 January 23

A

Andrey in R language and Statistical data analysis
Philipp Upravitelev
чем плохо? аналогично по группам можно
> library(data.table)
> my_dt <- data.table(
+   var1 = sample(c('a', 'b'), 2000, replace = TRUE),
+   var2 = rnorm(2000)
+ )
>
> my_dt[, tg := sample(c('train', 'test', 'validate'), .N, TRUE, c(.7, .15, .15))]
> my_dt[, .N / my_dt[, .N], by = tg]
        tg     V1
1:    train 0.6975
2: validate 0.1610
3:     test 0.1415
Велосипедостроение! Это уже объем кода, который уместно дергать из пакета (не однострочник)
источник

ЕТ

Евгений Томилов in R language and Statistical data analysis
Philipp Upravitelev
тут просто sample() с вероятностями, ничего от data.table
А если в датасете несбаласированные классы и надо, чтобы во всех трёх частях было одинаковое распределение их? Ну, в каретке это учтено уже. Вручную тоже можно, думаю, но дольше и сложнее.
источник

A

Andrey in R language and Statistical data analysis
Вот два варианта для кроссвалидации
источник

A

Andrey in R language and Statistical data analysis
источник

ЕТ

Евгений Томилов in R language and Statistical data analysis
Но, если серьёзно, то, да, можно всё сделать вручную, это даже круче, хоть и дольше.
источник

PU

Philipp Upravitelev in R language and Statistical data analysis
Евгений Томилов
А если в датасете несбаласированные классы и надо, чтобы во всех трёх частях было одинаковое распределение их? Ну, в каретке это учтено уже. Вручную тоже можно, думаю, но дольше и сложнее.
добавите by и опаньки
источник

ЕТ

Евгений Томилов in R language and Statistical data analysis
Philipp Upravitelev
добавите by и опаньки
Гениально.
источник

PU

Philipp Upravitelev in R language and Statistical data analysis
ты прав, иногда велосипеды лишнее
другое дело, что хорошо бы руками уметь написать хотя бы простейшую реализацию, чтобы понимать, как это работает
источник

DN

Denis Naumov in R language and Statistical data analysis
А какой есть тест на нормальность с данными больше 5000 ?
источник

ЕТ

Евгений Томилов in R language and Statistical data analysis
Denis Naumov
А какой есть тест на нормальность с данными больше 5000 ?
Лучше всего в таком случае уже смотреть глазами распределение, т.к. тесты на нормальность сами по себе сомнительное занятие, а при таких размерах выборки ещё и становятся излишне чувствительными.
источник

А

Александр in R language and Statistical data analysis
Denis Naumov
А какой есть тест на нормальность с данными больше 5000 ?
Сделай поверх данных Бокса-Кокса, будет чуть больше нормальности
источник

i

isya in R language and Statistical data analysis
Denis Naumov
А какой есть тест на нормальность с данными больше 5000 ?
Колмогоров-Смирнов
источник

i

isya in R language and Statistical data analysis
Евгений Томилов
Лучше всего в таком случае уже смотреть глазами распределение, т.к. тесты на нормальность сами по себе сомнительное занятие, а при таких размерах выборки ещё и становятся излишне чувствительными.
это верно если вы одно распределение смотрите

когда стоит задача проверить сразу 100 распределений, то уже становится сложнее
источник

А[

Александр [capsula] in R language and Statistical data analysis
Denis Naumov
А какой есть тест на нормальность с данными больше 5000 ?
Можно сотню-другую раз провести на случайном сэмпле в 5к и Шапиро
источник

DN

Denis Naumov in R language and Statistical data analysis
Александр [capsula]
Можно сотню-другую раз провести на случайном сэмпле в 5к и Шапиро
В этом есть смысл)
источник

GF

Gleb Furin in R language and Statistical data analysis
Коллеги, а где вы храните данные (или что лучше) bigquery или mongodb? Почему-то подсознательно тянусь к монго...
источник

AS

Alexander Semenov in R language and Statistical data analysis
В тёплом или в мягком?
источник

GF

Gleb Furin in R language and Statistical data analysis
Понял, абсолютно разные вещи)
источник

АК

Артём Клевцов in R language and Statistical data analysis
Gleb Furin
Коллеги, а где вы храните данные (или что лучше) bigquery или mongodb? Почему-то подсознательно тянусь к монго...
Любая тяга к монге - патология. В добавок она закончила своюб жизнь сменой лицензии из-за чего её выпилили из всех линукс дистров. Туда и дорога.
источник

GF

Gleb Furin in R language and Statistical data analysis
Артём Клевцов
Любая тяга к монге - патология. В добавок она закончила своюб жизнь сменой лицензии из-за чего её выпилили из всех линукс дистров. Туда и дорога.
Спасибо)
источник