Телеграмм чат группы rlang

### Train, validate, test
set.seed(145)
sample = sample.split(train_data, SplitRatio = 0.60)
target1_train =subset(train_data,sample ==TRUE)
target1_val_test =subset(train_data,sample ==FALSE)
sample2 = sample.split(target1_val_test, SplitRatio = 0.50)
target1_val =subset(target1_val_test,sample ==TRUE)
target1_test =subset(target1_val_test,sample ==FALSE)

такая запись имеет место на существование?

источник

14:31пожаловаться #6

ЕТ

Евгений Томилов in R language and Statistical data analysis

Denis Naumov

Друзья, хочу разделить на train, validate и test

### Train, validate, test
set.seed(145)
sample = sample.split(train_data, SplitRatio = 0.60)
target1_train =subset(train_data,sample ==TRUE)
target1_val_test =subset(train_data,sample ==FALSE)
sample2 = sample.split(target1_val_test, SplitRatio = 0.50)
target1_val =subset(target1_val_test,sample ==TRUE)
target1_test =subset(target1_val_test,sample ==FALSE)

такая запись имеет место на существование?

Попробуйте лучше из caret функцию. Или из rsample.

источник

14:32пожаловаться #7

Philipp Upravitelev in R language and Statistical data analysis

или руками...

источник

14:33пожаловаться #8

ЕТ

Евгений Томилов in R language and Statistical data analysis

Philipp Upravitelev

или руками...

Ой, мы тут низкоуровневые программисты, что ли.

источник

14:33пожаловаться #9

Denis Naumov in R language and Statistical data analysis

Philipp Upravitelev

или руками...

200 000 стро

источник

14:34пожаловаться #10

Philipp Upravitelev in R language and Statistical data analysis

Denis Naumov

200 000 стро

ну ну само собой не каждуб строку
просто sample(N, N*.15) как индекс и тд

источник

14:35пожаловаться #11

Philipp Upravitelev in R language and Statistical data analysis

Евгений Томилов

Ой, мы тут низкоуровневые программисты, что ли.

зачем использовать пакеты, когда все решается базой, не?

источник

14:40пожаловаться #12

Denis Naumov in R language and Statistical data analysis

Philipp Upravitelev

ну ну само собой не каждуб строку
просто sample(N, N*.15) как индекс и тд

не понял

источник

14:40пожаловаться #13

Andrey in R language and Statistical data analysis

Philipp Upravitelev

зачем использовать пакеты, когда все решается базой, не?

А потом захочется стратификацию или еще чего...

источник

14:43пожаловаться #14

ЕТ

Евгений Томилов in R language and Statistical data analysis

источник

14:43пожаловаться #15

А[

Александр [capsula] in R language and Statistical data analysis

Sergey Motorniy

Коллеги, привет

Я бы сказал, что какой-то символ паразитарный есть, юникод или что-то там ещё, построчно попробуйте прочитать

источник

14:46пожаловаться #16

Philipp Upravitelev in R language and Statistical data analysis

Andrey

А потом захочется стратификацию или еще чего...

чем плохо? аналогично по группам можно

> library(data.table)
> my_dt <- data.table(
+   var1 = sample(c('a', 'b'), 2000, replace = TRUE),
+   var2 = rnorm(2000)
+ )
> 
> my_dt[, tg := sample(c('train', 'test', 'validate'), .N, TRUE, c(.7, .15, .15))]
> my_dt[, .N / my_dt[, .N], by = tg]
         tg     V1
1:    train 0.6975
2: validate 0.1610
3:     test 0.1415

источник

14:49пожаловаться #17

ЕТ

Евгений Томилов in R language and Statistical data analysis

Опять адепты дататейбла набигают со своим колдовством.

источник

14:51пожаловаться #18

Sergey Motorniy in R language and Statistical data analysis

Александр [capsula]

Я бы сказал, что какой-то символ паразитарный есть, юникод или что-то там ещё, построчно попробуйте прочитать

Оу, благодарю, попробую

источник