Size: a a a

R language and Statistical data analysis

2020 March 13

PU

Philipp Upravitelev in R language and Statistical data analysis
шо, data.table так пугает? %)
источник

AS

Alexander Semenov in R language and Statistical data analysis
Я не очень понял, что там написано, но в реальных данных может сложиться ситуация, когда один и тот же subsrvc входит в разные srvc. И я не уверен, что твой код отработает эту "боевую" задачу правильно.
источник

PU

Philipp Upravitelev in R language and Statistical data analysis
там написано "возьми первое значение из srvc в каждой группе по id, остальное забей NA"
источник

ИП

Иван Поздняков in R language and Statistical data analysis
Alexander Semenov
Я не очень понял, что там написано, но в реальных данных может сложиться ситуация, когда один и тот же subsrvc входит в разные srvc. И я не уверен, что твой код отработает эту "боевую" задачу правильно.
приведи пример, пожалуйста
источник

PD

Pavel Demin in R language and Statistical data analysis
сори, можт я неправильно понял, но исходя из того, что было дано в виде эксель таблиц, нельзя ли сделать вот так просто и прямолинейно?:
library(data.table)

key_table = data.table(srvc = c("A", "D"),
                subsrvc = c("B, C", "E, F, G"))

asis = data.table(id = c(1, 1, 1, 2, 2, 2, 2),
                srvc = c("A", "B", "C", "D", "E", "F", "G"))

asis[, res := ifelse(!srvc %in% key_table$srvc, NA, srvc)]
источник

AS

Alexander Semenov in R language and Statistical data analysis
Иван Поздняков
приведи пример, пожалуйста
Бизнес-кейс прост: у нас есть пакеты услуг (srvc) в которые входят другие услуги (subsrvc). Проблема в том, что признак самостоятельной покупки subsrvc или же её вхождения в пакет услуг (srvc) сейчас в БД работает некорректно и возникает ситуация, когда происходит "двойной учёт": к стоимости пакета услуг прибавляется стоимость всех входящих в него услуг. Ну и некоторые услуги могут входить в разные пакеты.
источник

AS

Alexander Semenov in R language and Statistical data analysis
Pavel Demin
сори, можт я неправильно понял, но исходя из того, что было дано в виде эксель таблиц, нельзя ли сделать вот так просто и прямолинейно?:
library(data.table)

key_table = data.table(srvc = c("A", "D"),
                subsrvc = c("B, C", "E, F, G"))

asis = data.table(id = c(1, 1, 1, 2, 2, 2, 2),
                srvc = c("A", "B", "C", "D", "E", "F", "G"))

asis[, res := ifelse(!srvc %in% key_table$srvc, NA, srvc)]
Да, этот код работал бы корректно, если бы в реальных данных не было ситуации, когда одна subsrvc входит в разные srvc.
источник

ИП

Иван Поздняков in R language and Statistical data analysis
Alexander Semenov
Да, этот код работал бы корректно, если бы в реальных данных не было ситуации, когда одна subsrvc входит в разные srvc.
я про пример, когда это как раз происходит - что должно быть на входе и выходе в этом случае?
источник

PU

Philipp Upravitelev in R language and Statistical data analysis
Саш, ставь условия задачи полностью, от того, как выглядит исходный датасет до того, какой нужен результат, и какие могут быть тонкие места в обработке. а то так ковыряться можно бесконечно.
источник

AS

Alexander Semenov in R language and Statistical data analysis
Philipp Upravitelev
Саш, ставь условия задачи полностью, от того, как выглядит исходный датасет до того, какой нужен результат, и какие могут быть тонкие места в обработке. а то так ковыряться можно бесконечно.
Да, я понимаю. Просто глянув по диагонали самый первый вариант, я подумал, что проблему с вхождением одной и той же subsrvc в разные srvc он решает.
источник

AS

Alexander Semenov in R language and Statistical data analysis
Иван Поздняков
я про пример, когда это как раз происходит - что должно быть на входе и выходе в этом случае?
Спасибо, благодаря этому вопросу я нашёл ещё один подводный камень в моей задаче. В общем, я попробую предложенные тут варианты на боевых данных и если наткнусь на новые печали, то вернусь с вопросами.
источник

DB

Dmitryi Berg in R language and Statistical data analysis
Оказывается RStudio для Fedora можно устанавливать из репозитория, а не скачивать с сайта, как было раньше.
Сейчас мне прилетела версия 1.2.5
источник

Ю

Юрий 🐙💻🤖📊📈🚬 in R language and Statistical data analysis
Dmitryi Berg
Оказывается RStudio для Fedora можно устанавливать из репозитория, а не скачивать с сайта, как было раньше.
Сейчас мне прилетела версия 1.2.5
Лучше ставить с сайта, там ведь свежее версия всегда раньше, чем в репозиториях linux-дистрибутивов
источник

ЕТ

Евгений Томилов in R language and Statistical data analysis
А какие датасеты посоветовали бы для набивания руки в статистике? Чтобы дать человеку, а он такой выбрал, какой тут надо тест делать и зачем, а потом объяснил. На 2 и >3 групп.
источник

PU

Philipp Upravitelev in R language and Statistical data analysis
мммм. титаник? :)))
источник

ЕТ

Евгений Томилов in R language and Statistical data analysis
Philipp Upravitelev
мммм. титаник? :)))
Его уже взял.
источник

ЕТ

Евгений Томилов in R language and Statistical data analysis
И ирисы. И машинки. 😁
источник

AS

Alexey Seleznev in R language and Statistical data analysis
Евгений Томилов
А какие датасеты посоветовали бы для набивания руки в статистике? Чтобы дать человеку, а он такой выбрал, какой тут надо тест делать и зачем, а потом объяснил. На 2 и >3 групп.
Сча вот это же модно

https://github.com/RamiKrispin/coronavirus
источник

a

aGricolaMZ in R language and Statistical data analysis
Евгений Томилов
И ирисы. И машинки. 😁
предлогаю почитать выдачу data()
источник

ЕТ

Евгений Томилов in R language and Statistical data analysis
aGricolaMZ
предлогаю почитать выдачу data()
И про неё я знаю, да. 😅
источник