Size: a a a

R language and Statistical data analysis

2020 February 24

AS

Alexander Semenov in R language and Statistical data analysis
Только без data.table, пожалуйста.
источник

ИП

Иван Поздняков in R language and Statistical data analysis
df %>%
 mutate(value = 1) %>%
 pivot_wider(names_from = "animals", values_from = "value", values_fill = list(value = 0))
источник

A

Andrey in R language and Statistical data analysis
Alexander Semenov
Только без data.table, пожалуйста.
источник

AS

Alexander Semenov in R language and Statistical data analysis
Иван Поздняков
df %>%
 mutate(value = 1) %>%
 pivot_wider(names_from = "animals", values_from = "value", values_fill = list(value = 0))
Спасибо. Я так и думал, что дело в том непонятном параметре у pivot_wider. Под вечер не было сил разбираться.
источник

AS

Alexey Seleznev in R language and Statistical data analysis
Alexander Semenov
Спасибо. Я так и думал, что дело в том непонятном параметре у pivot_wider. Под вечер не было сил разбираться.
так а что там не понятного
https://habr.com/ru/post/444622
источник

AS

Alexander Semenov in R language and Statistical data analysis
До этого не сталкивался с данными, где айдишники дублируются, поэтому назначением того параметра не интересовался.
источник

AS

Alexander Semenov in R language and Statistical data analysis
Только вот в "производственных" данных, для которых мне это понадобилось R ругнулся и проставил NULL вместо 0:
Warning message:                                                             Values in cnt are not uniquely identified; output will contain list-cols. * Use values_fn = list(cnt = list) to suppress this warning. * Use values_fn = list(cnt = length) to identify where the duplicates arise * Use values_fn = list(cnt = summary_fun) to summarise duplicates
источник

ИП

Иван Поздняков in R language and Statistical data analysis
Можно и позже заменить NA:
df %>%
 mutate(value = 1) %>%
 pivot_wider(names_from = "animals", values_from = "value") %>%
 map_df(replace_na, 0)
источник

AS

Alexander Semenov in R language and Statistical data analysis
Спасибо. С NA и нулями разобрался. С причиной появления warning'a и его предложениями -- нет.
источник

ИП

Иван Поздняков in R language and Statistical data analysis
ну тут без данных сложно что-то сказать(
Хотя нет, кажется, я знаю, в чем может быть проблема - в дубликатах. Попробуйте удалить дубликаты и сделать заново
источник

ИП

Иван Поздняков in R language and Statistical data analysis
ну, там
df %>%
 distinct(id, animals)

А потом уже вот это вот все
источник

PU

Philipp Upravitelev in R language and Statistical data analysis
там, скорее всего, дубликаты не на уровне строки, а на уровне id
соответственно, при dcast-е получается больше одного значения на ячейку и он по умолчанию берет функцию агрегации length
источник

ИП

Иван Поздняков in R language and Statistical data analysis
в смысле на уровне айди?
айди то как раз могут повторяться:

id animal
1 dog
1 cat


а вот если повторяется, например,
id animal
1 dog
1 dog

то это уже создает проблемы
источник

AS

Alexander Semenov in R language and Statistical data analysis
Иван Поздняков
в смысле на уровне айди?
айди то как раз могут повторяться:

id animal
1 dog
1 cat


а вот если повторяется, например,
id animal
1 dog
1 dog

то это уже создает проблемы
Такой ситуации (с повторениями) по идее быть не должно, т.к. в рабочем файле айдишники абонентов и девайсы, которые у них есть.
источник

AS

Alexander Semenov in R language and Statistical data analysis
Ан нет, 5 дублей затесалось на 200 000
источник

ИП

Иван Поздняков in R language and Statistical data analysis
честно говоря, я уже не верю в то, что если мне приходят данные, то чего-то там быть не должно и всегда проверяю(
источник

AS

Alexander Semenov in R language and Statistical data analysis
Радость по поводу того, что ко мне в принципе приходят данные, заглушает весь скептицизм =)
источник

PU

Philipp Upravitelev in R language and Statistical data analysis
Иван Поздняков
честно говоря, я уже не верю в то, что если мне приходят данные, то чего-то там быть не должно и всегда проверяю(
и правильно делаешь
данные всегда грязные, это аксиома
источник

AS

Alexander Semenov in R language and Statistical data analysis
Справедливости ради, в моём случае причиной дублей стал я, а не исходные данные.
источник

AD

Alexander Drozhnikov in R language and Statistical data analysis
Александр [capsula]
Запустите в кроне скрипт, который сохранит в лог пользователя и рабочую директорию. Поддерживаю предыдущего оратора в том, что проблема где-то в этом
Коллеги, никак не могу победить проблему с кроном. Полностью пересобрал новую виртуалку, но бесполезно. Лог сделал. В нем вроде есть и юзер и рабочая директория  Не пойму что дальше. Google не может ничего посоветовать. Есть идеи как пофиксить?
источник