Size: a a a

R language and Statistical data analysis

2020 February 07

АК

Андрей Кобзев in R language and Statistical data analysis
Саша Москвичева
Всем привет)
Может кто-нибудь подсказать что можно с этим сделать?
Нужно извлечь сезонность и тренд и рядов, но там есть отрицательные значения и как я понимаю логарифмирование и Бокс-Кокс мне не помогут
Пакеты для сезонной корректировки типа "seas" вполне справятся
источник

СМ

Саша Москвичева in R language and Statistical data analysis
Андрей Кобзев
Пакеты для сезонной корректировки типа "seas" вполне справятся
Спасибо)
источник

ВL

Владислав Lazycat in R language and Statistical data analysis
Philipp Upravitelev
друзья, задачка на подумать

допустим, есть датасет с колонкой value.
мне надо разбить строки так, чтобы сумма value по этим строкам не превышала значение x. при этом как только она превышает значение x - начинается новая группа.
в строках могут быть значения больше х.

как это сделать?

по факту это кумулята с условием порога и перезапуском
На sql работает в один запрос с оконной функцией ;-). Наверное можно посчитать сумму нарастающим итогом и потом делать сдвиг в цикле.
Тут проблема может возникнуть только в переполнении.. при большом обьем и больших числах
источник

S

Stepler in R language and Statistical data analysis
Саша Москвичева
Всем привет)
Может кто-нибудь подсказать что можно с этим сделать?
Нужно извлечь сезонность и тренд и рядов, но там есть отрицательные значения и как я понимаю логарифмирование и Бокс-Кокс мне не помогут
Можете эту статью почитать
источник

S

Stepler in R language and Statistical data analysis
источник

СМ

Саша Москвичева in R language and Statistical data analysis
спасибо)
источник

PU

Philipp Upravitelev in R language and Statistical data analysis
Владислав Lazycat
На sql работает в один запрос с оконной функцией ;-). Наверное можно посчитать сумму нарастающим итогом и потом делать сдвиг в цикле.
Тут проблема может возникнуть только в переполнении.. при большом обьем и больших числах
я с трудом пресдтавляю, как это сделать оконной функцией
потому что
а) надо остановить кумуляту до достижения порогового значения, и со следующего значения запустить заново
б) могут попадаться значения, которые больше порогового, их надо считать как отдельная группу, то есть останавливать кумуляту до них, и запускать со следующей за ними строки

решить с помощью непольного частного и остатков от деления я так и не смог :(
так что, видимо, это будет цикл
источник

АК

Артём Клевцов in R language and Statistical data analysis
> б) могут попадаться значения, которые больше порогового, их надо считать как отдельная группу, то есть останавливать кумуляту до них, и запускать со следующей за ними строки

Их можно просто исключить при расчётах и добавить потом обратно.
источник

PU

Philipp Upravitelev in R language and Statistical data analysis
нельзя
тогда следующее за ним значение может попасть в группу кумуляты до него типа 2.31, 7.9, 0.1
на 2.31 кумулята все еще меньше 5, если добавить 7.9- больше, то есть, надо тормозить. но если7.9 исключить, то 2.31 + 0.1 все еще будут меньше 5
то есть, структура может оказаться не той, что ожидается
источник

IT

Inip Tyig in R language and Statistical data analysis
В моей голове мелькают мысли о функциональщине: думаю Reduce, c вектором-результатом и функцией, кторая будет считать сумму в последний элемент, или добавлять элемент при превышении порога
источник

IT

Inip Tyig in R language and Statistical data analysis
но, с учетом того как медленно работает добавление в вектор, то способ хоть и изящный, на мой взгляд, но попахивает тормозами
источник

oo

oleg oleg in R language and Statistical data analysis
Доброго дня! Кто нибудь сталкивался с данной библиотекой https://github.com/Kohze/fireData
источник

oo

oleg oleg in R language and Statistical data analysis
Для получения данных из firebase analitics
источник

A

Alexander (AlexR) in R language and Statistical data analysis
Коллеги,посоветуйте,пожалуйста! Есть большой объект list, размером около 2 гб котором несколько дата фреймов. Мне нужно в каждом из этих датафреймов искать строки,совпадающие с выражением,р выводить эти строки для каждого дата фрейма, который есть в списке

grep()

ваще не справляется с задачей. Зависает намертво.
Посоветуйте что нибудь, пожалуйста.
источник

AC

Andrey C. in R language and Statistical data analysis
Philipp Upravitelev
друзья, задачка на подумать

допустим, есть датасет с колонкой value.
мне надо разбить строки так, чтобы сумма value по этим строкам не превышала значение x. при этом как только она превышает значение x - начинается новая группа.
в строках могут быть значения больше х.

как это сделать?

по факту это кумулята с условием порога и перезапуском
еще вариант:
dt <- data.table(x = c(7,2,9,10,15,3,2,12, 2,1,8))
threshold = 10

gr_starts <- dt[, which(x=purrr::accumulate(x, ~ ifelse(.x+.y>=threshold, .y, .x+.y)))]
dt[,gr:=c(inverse.rle(list(lengths = diff(gr_starts), values = seq(2:length(gr_starts)))), length(gr_starts))]
правда я не уверен, что внутри у accumulate не тот же цикл
источник

S

Stepler in R language and Statistical data analysis
Также могу посоветовать лекции
https://youtu.be/ANMuuq502rE
источник

СМ

Саша Москвичева in R language and Statistical data analysis
Спасибо)
источник

PU

Philipp Upravitelev in R language and Statistical data analysis
Alexander (AlexR)
Коллеги,посоветуйте,пожалуйста! Есть большой объект list, размером около 2 гб котором несколько дата фреймов. Мне нужно в каждом из этих датафреймов искать строки,совпадающие с выражением,р выводить эти строки для каждого дата фрейма, который есть в списке

grep()

ваще не справляется с задачей. Зависает намертво.
Посоветуйте что нибудь, пожалуйста.
2гб - это не так чтобы много
да и grep вполне быстрая функция
наверное, что-то вы не так делаете в плане кода

без примера непонятно, в общем. я бы решал именно грепом, судя по первому описанию
источник

АК

Артём Клевцов in R language and Statistical data analysis
Alexander (AlexR)
Коллеги,посоветуйте,пожалуйста! Есть большой объект list, размером около 2 гб котором несколько дата фреймов. Мне нужно в каждом из этих датафреймов искать строки,совпадающие с выражением,р выводить эти строки для каждого дата фрейма, который есть в списке

grep()

ваще не справляется с задачей. Зависает намертво.
Посоветуйте что нибудь, пожалуйста.
Если таблицы одинаковые по структуре, слей в одну таблицу и грепай сколько влезет (только лучше с fixed).
источник

OB

Oleg Basmanov in R language and Statistical data analysis
Alexander (AlexR)
Коллеги,посоветуйте,пожалуйста! Есть большой объект list, размером около 2 гб котором несколько дата фреймов. Мне нужно в каждом из этих датафреймов искать строки,совпадающие с выражением,р выводить эти строки для каждого дата фрейма, который есть в списке

grep()

ваще не справляется с задачей. Зависает намертво.
Посоветуйте что нибудь, пожалуйста.
может комп не комп а калькулятор?
источник