Size: a a a

R language and Statistical data analysis

2017 October 12

VV

Vladimir Volokhonsky in R language and Statistical data analysis
Домой приду, пришлю несколько вариантов разной степени идиотичности про задачку с таймфреймом. Но это, в общем-то несложная задачка. Вот представьте себе, что надо вычислить что-то типа количества людей, с которыми происходило событие tg1 с паузой не больше 3 дней. :-)
источник

VV

Vladimir Volokhonsky in R language and Statistical data analysis
А это вполне реальный запрос при вычислении ботов по паттерну поведения в игре.
источник

VV

Vladimir Volokhonsky in R language and Statistical data analysis
Век живи, век учись, кстати. Я почему-то то ли не знал, то ли забыл про существование %between%.
источник

M

Maksimka in R language and Statistical data analysis
В R можно посчитать производную?
источник

ЭА

Эдик Амперян in R language and Statistical data analysis
Maksimka
В R можно посчитать производную?
Можно
источник

VV

Vladimir Volokhonsky in R language and Statistical data analysis
Я предпочитаю по ходу работы создавать дополнительные переменные в данных, так как с ними проще ориентироваться. По сути ровно то же самое:
test[,inside:=ts %between% c('2017-09-01', '2017-09-15')]
test[inside & event=="tg1",.N,by=group_id]
источник

VV

Vladimir Volokhonsky in R language and Statistical data analysis
Ну или если угодно в одну строчку, то вот так:
test[ts %between% c('2017-09-01', '2017-09-15') & event=="tg1",.N,by=group_id]
источник

VV

Vladimir Volokhonsky in R language and Statistical data analysis
А теперь сделаю расширенный вариант для множества непересекающихся интервалов...
источник

JS

Jury Sergeev in R language and Statistical data analysis
это df так?
источник

JS

Jury Sergeev in R language and Statistical data analysis
или dt?
источник

VV

Vladimir Volokhonsky in R language and Statistical data analysis
Это всё тот же data.table
источник

VV

Vladimir Volokhonsky in R language and Statistical data analysis
Говорю же, подсел на него - не слезть теперь.
источник

JS

Jury Sergeev in R language and Statistical data analysis
ишь ты... меня он пока пугает
источник

JS

Jury Sergeev in R language and Statistical data analysis
dplyr как-то теплее и ламповей, но dt быстрее, как я понял
источник

VV

Vladimir Volokhonsky in R language and Statistical data analysis
Меня эти ваши пайпы пугают. Я слишком стар для того, чтобы сворачивать код в трубочку...
источник

JS

Jury Sergeev in R language and Statistical data analysis
хехе
источник

JS

Jury Sergeev in R language and Statistical data analysis
лучше sql нет ничего
источник

JS

Jury Sergeev in R language and Statistical data analysis
пожалуй )
источник

VV

Vladimir Volokhonsky in R language and Statistical data analysis
Ну в общем-то вот то, как я с данными в data.table работаю стилистически ближе к sql-запросу. А ведь есть ещё пакет sqldf, где олдскульные кудесники Oracle могут почуствовать себя уютно. Но я не пробовал, я в SQL со словарём.
источник

JS

Jury Sergeev in R language and Statistical data analysis
а он и под dt? отложилось что для df только
источник