Телеграмм чат группы rlang

00:46пожаловаться #1

⌨

⌨️ in R language and Statistical data analysis

Вопрос для волшебников по векторизации, а то я что-то не уверен.

mean_data <- tibble(a = c(1, 2, 3, 4, 5),
                    b = c(6, 7, 8, 9, 10))

means <- sapply(mean_data, mean)

А теперь я хочу центрировать данные, т.е. вычесть из каждого столбца соответствующее ему среднее в векторе. Как это сделать наиболее кратко без использования костылей и циклов? Вроде бы раньше векторизовались вектора по столбцам, но теперь нет или я чего-то не понимаю. Спасибо.

mutate_at(tbl, vars(a, b), ~.x - mean(.x))

Евгений Томилов in R language and Statistical data analysis

00:49пожаловаться #2

ЕТ

⌨️

mutate_at(tbl, vars(a, b), ~.x - mean(.x))

Гениально, я как раз в dplyr смотрю. Спасибо.

00:50пожаловаться #3

⌨

⌨️ in R language and Statistical data analysis

Гениально, я как раз в dplyr смотрю. Спасибо.

dplyr очень, очень выразителен и прост, но имеет ряд ограничений и начнет жутко тормозить если писать бездумно. Добавьте туда же purrr вместо *apply

Philipp Upravitelev in R language and Statistical data analysis

00:52пожаловаться #4

PU

> mean_data <- data.table(a = c(1, 2, 3, 4, 5),
+                         b = c(6, 7, 8, 9, 10))
> 
> mean_data[, `:=`(a = a - mean(a), b = b - mean(b))]
> mean_data
    a  b
1: -2 -2
2: -1 -1
3:  0  0
4:  1  1
5:  2  2

Евгений Томилов in R language and Statistical data analysis

01:19пожаловаться #5

ЕТ

> mean_data <- data.table(a = c(1, 2, 3, 4, 5),
+                         b = c(6, 7, 8, 9, 10))
> 
> mean_data[, `:=`(a = a - mean(a), b = b - mean(b))]
> mean_data
    a  b
1: -2 -2
2: -1 -1
3:  0  0
4:  1  1
5:  2  2

О, я всё больше склоняюсь к тому, чтобы серьёзно засесть за data.table.

Philipp Upravitelev in R language and Statistical data analysis

01:20пожаловаться #6

PU

я эту песню уже второй год как слышу от вас, кажется %)

Евгений Томилов in R language and Statistical data analysis

01:20пожаловаться #7

ЕТ

я эту песню уже второй год как слышу от вас, кажется %)

Так я отвлёкся тогда на психологию. =(

R in R language and Statistical data analysis

01:21пожаловаться #8

R

Вопрос для волшебников по векторизации, а то я что-то не уверен.

mean_data <- tibble(a = c(1, 2, 3, 4, 5),
                    b = c(6, 7, 8, 9, 10))

means <- sapply(mean_data, mean)

А теперь я хочу центрировать данные, т.е. вычесть из каждого столбца соответствующее ему среднее в векторе. Как это сделать наиболее кратко без использования костылей и циклов? Вроде бы раньше векторизовались вектора по столбцам, но теперь нет или я чего-то не понимаю. Спасибо.

А обычный apply же делает цикл только по столбцам(строкам), сами столбцы(строки) уже как векторы используются, чем он плох?

Юрий 🐙💻🤖📊📈🚬 in R language and Statistical data analysis

01:26пожаловаться #9

Ю

Регистрация на R Moscow Meetup #5

коллеги, напоминаю про R-митап
регистрируйтесь и приходите. может и встретимся :)

Анонс для R Moscow Meetup #5 16 января 2020
Адрес: г. Москва, Кутузовский проспект, 32к1, Сбербанк. Митап будет в конференц зале на 2 этаже, вход в офис через подъезд 3.
Начало регистрации: 18.30.
19:00-19:30 «Решение эксплуатационных задач с помощью R для чайников» - Константин Фирсов (АО "Нетрис", Главный инженер по внедрению).
19:30-20:00 «Оптимизация товарных запасов в retail» - Генрих Ананьев (ПАО Белуга Групп, Руководитель направления автоматизации отчётности).
20:00-20:30 «BMS в X5: как сделать business-process mining на неструктурированных POS логах средствами R» - Ролдугин Евгений (:x5:, Руководитель управления инструментов контроля качества сервисов), Илья Шутов (Медиа-тел, руководитель направления data science).
Регистрация:
https://forms.gle/vY2hZC6btBYoXhxK6

Google Docs

запись будет?

Philipp Upravitelev in R language and Statistical data analysis

02:04пожаловаться #10

PU

насколько я понимаю, да

угу

Юрий 🐙💻🤖📊📈🚬 in R language and Statistical data analysis

02:05пожаловаться #11

Ю

угу

ждем потом ссылку в чатике. М.б. с других митапов есть записи?

Philipp Upravitelev in R language and Statistical data analysis

02:20пожаловаться #12

PU

rMoscow meetup 1
https://events.yandex.ru/events/yagosti/28-apr-2016/

rMoscow meetup 3
https://events.yandex.ru/events/ds/27-apr-2017/

rMoscow meetup 4
https://www.youtube.com/watch?v=LQBVJ9iukG4&feature=youtu.be

#rMoscow

Philipp Upravitelev in R language and Statistical data analysis

02:25пожаловаться #13

PU

самый интересный третий, на мой взгляд

aGricolaMZ in R language and Statistical data analysis

02:27пожаловаться #14

a

Вопрос для волшебников по векторизации, а то я что-то не уверен.

mean_data <- tibble(a = c(1, 2, 3, 4, 5),
                    b = c(6, 7, 8, 9, 10))

means <- sapply(mean_data, mean)

А теперь я хочу центрировать данные, т.е. вычесть из каждого столбца соответствующее ему среднее в векторе. Как это сделать наиболее кратко без использования костылей и циклов? Вроде бы раньше векторизовались вектора по столбцам, но теперь нет или я чего-то не понимаю. Спасибо.

library(tidyverse)
df <- tibble(a = c(1, 2, 3, 4, 5),
             b = c(6, 7, 8, 9, 10))

df %>% 
  map_df(function(x){x - mean(x)})

или

df %>% 
  mutate_all(function(x){x - mean(x)})

aGricolaMZ in R language and Statistical data analysis

08:36пожаловаться #15

a

самый интересный третий, на мой взгляд

я тоже так считаю

Артём Клевцов in R language and Statistical data analysis

08:38пожаловаться #16

АК

> mean_data <- data.table(a = c(1, 2, 3, 4, 5),
+                         b = c(6, 7, 8, 9, 10))
> 
> mean_data[, `:=`(a = a - mean(a), b = b - mean(b))]
> mean_data
    a  b
1: -2 -2
2: -1 -1
3:  0  0
4:  1  1
5:  2  2

1) стандартный вариант:

DT[, (cols) := lapply(.SD, function(x) x - mean(x)), .SDcols = cols]

2) более изящный вариант:

DT[, (cols) := .SD - colMeans(.SD), .SDcols = cols]

Pavel Demin in R language and Statistical data analysis

10:16пожаловаться #17

PD

Всем доброго дня!
довольно примитивный вопрос; если коротко - сколько выставлять потоков в data.table?
по дефолту выставляет три потока

> data.table::getDTthreads()
[1] 3

но тот же parallel определяет 6 ядер

> parallel::detectCores()
[1] 6

стоит ли явно задать 6 потоков в data.table или оставить как есть для безопасности?

Philipp Upravitelev in R language and Statistical data analysis

13:20пожаловаться #18

PU

имхо, один поток можно оставить, чтобы машинка совсем не померла, а остальные нагрузить

Артём Клевцов in R language and Statistical data analysis

13:26пожаловаться #19

АК

Pavel Demin

Всем доброго дня!
довольно примитивный вопрос; если коротко - сколько выставлять потоков в data.table?
по дефолту выставляет три потока

> data.table::getDTthreads()
[1] 3

но тот же parallel определяет 6 ядер

> parallel::detectCores()
[1] 6

стоит ли явно задать 6 потоков в data.table или оставить как есть для безопасности?

Недавно изменили. Теперь по умолчанию половина. В ченджлоге есть объяснения.