Size: a a a

R language and Statistical data analysis

2020 February 07

A

Alexander (AlexR) in R language and Statistical data analysis
@artemklevtsov , таблицы совершенно разные по структуре - разное количество столбцов,и разные типы переменных

@nexter83 , там 64-ядерный сервак,на котором крутится Rstudio-server

Я думал сделать что то типа многопоточного parLapply()и внутрь засунуть греп..
источник

АК

Артём Клевцов in R language and Statistical data analysis
Alexander (AlexR)
@artemklevtsov , таблицы совершенно разные по структуре - разное количество столбцов,и разные типы переменных

@nexter83 , там 64-ядерный сервак,на котором крутится Rstudio-server

Я думал сделать что то типа многопоточного parLapply()и внутрь засунуть греп..
Пройдись циклом по своему списку.
Внутри надо сделать setDT и setindex на нужный столбец. Затем можно chmatch, если не регулярка. Если регулярка, то пробуй re2.
источник

A

Alexander (AlexR) in R language and Statistical data analysis
Спасибо за совет, буду пробовать!
источник

АК

Артём Клевцов in R language and Statistical data analysis
Ну, можно ещё их по очереди грузить, делать что надо и выгружать/удалять, если памяти не хватает.
источник

S

Stepler in R language and Statistical data analysis
Alexander (AlexR)
@artemklevtsov , таблицы совершенно разные по структуре - разное количество столбцов,и разные типы переменных

@nexter83 , там 64-ядерный сервак,на котором крутится Rstudio-server

Я думал сделать что то типа многопоточного parLapply()и внутрь засунуть греп..
Что за платформа? Конфиг в личку сможете скинуть? Сам ищу сервак
источник

ИП

Иван Поздняков in R language and Statistical data analysis
Andrey C.
еще вариант:
dt <- data.table(x = c(7,2,9,10,15,3,2,12, 2,1,8))
threshold = 10

gr_starts <- dt[, which(x=purrr::accumulate(x, ~ ifelse(.x+.y>=threshold, .y, .x+.y)))]
dt[,gr:=c(inverse.rle(list(lengths = diff(gr_starts), values = seq(2:length(gr_starts)))), length(gr_starts))]
правда я не уверен, что внутри у accumulate не тот же цикл
не воспроизводится:

gr_starts <- dt[, which(x=purrr::accumulate(x, ~ ifelse(.x+.y>=threshold, .y, .x+.y)))]
Ошибка в which(x = purrr::accumulate(x, ~ifelse(.x + .y >= threshold,  :
 аргумент 'which' -- не логический
источник

AC

Andrey C. in R language and Statistical data analysis
Сорри, там == в which должно быть
источник

AC

Andrey C. in R language and Statistical data analysis
Есть проблема с размером последней группы, но мне уже лениво допиливать
источник

ИП

Иван Поздняков in R language and Statistical data analysis
Andrey C.
Есть проблема с размером последней группы, но мне уже лениво допиливать
уау, классный вариант с accumulate! Последнюю строчку можно как-нибудь так, например, просто добавив к gr_starts длину вектора перед дифф:
rep(1:(length(gr_starts)), diff(c(gr_starts, length(vec)+1)))
источник
2020 February 08

ВК

Владимир Калинин in R language and Statistical data analysis
алгоритмы knn и svm работают лучше с z-преобразованием, чем с min-max нормализацией. это частный случай или вообще это так?
источник
2020 February 09

АК

Артём Клевцов in R language and Statistical data analysis
Дашборд по короновирусу на шайни.
Из интересного. Используется фреймворк для мобильного UI. Некоторые графики сгруппированы между собой, чтобы при наведении мышью отмечалась одна и та же точка/линия на графике.
Ссылка на исходники там тоже есть.
https://shiny.john-coene.com/coronavirus/
источник

a

aGricolaMZ in R language and Statistical data analysis
Дорогие, а кто-нибудь знает красивую конвертацию вложений? Я хочу вот такое:
# A tibble: 13 x 2
  parent  node
   <int> <int>
1      8     1
2     10     2
3     11     3
4     12     4
5     12     5
6     13     6
7     13     7
8      8     8
9      8     9
10      9    10
11     10    11
12     11    12
13      9    13

Превратить в такое:

# A tibble: 7 x 6
 node_1 node_2 node_3 node_4 node_5 node_6
  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>
1      8      1     NA     NA     NA     NA
2      8      9     13      6     NA     NA
3      8      9     13      7     NA     NA
4      8      9     10      2     NA     NA
5      8      9     10     11      3     NA
6      8      9     10     11     12      4
7      8      9     10     11     12      5


Сейчас смотрю на tidytree и ape, но как-то все, что нагугливаю пока мимо кассы...
источник

a

aGricolaMZ in R language and Statistical data analysis
Видимо, я решил свои проблемы пакетом data.tree
источник

PU

Philipp Upravitelev in R language and Statistical data analysis
это похоже на dcast
источник

PU

Philipp Upravitelev in R language and Statistical data analysis
дай код генерации таблицы, попробую пошатать
источник

PU

Philipp Upravitelev in R language and Statistical data analysis
хотя не, это другое что-то %(
источник

ВL

Владислав Lazycat in R language and Statistical data analysis
Артём Клевцов
Дашборд по короновирусу на шайни.
Из интересного. Используется фреймворк для мобильного UI. Некоторые графики сгруппированы между собой, чтобы при наведении мышью отмечалась одна и та же точка/линия на графике.
Ссылка на исходники там тоже есть.
https://shiny.john-coene.com/coronavirus/
Оч. Прикольно
источник

a

aGricolaMZ in R language and Statistical data analysis
Philipp Upravitelev
дай код генерации таблицы, попробую пошатать
read_csv("8,1
10,2
11,3
12,4
12,5
13,6
13,7
8,8
8,9
9,10
10,11
11,12
9,13")

tibble(node_1 = 8,
      node_2 = c(1, rep(9, 6)),
      node_3 = c(NA, 13, 13, 10, 10, 10, 10),
      node_4 = c(NA, 6, 7, 2, 11, 11, 11),
      node_5 = c(NA, NA, NA, NA, 3, 12, 12),
      node_6 = c(NA, NA, NA, NA, NA, 4, 5))
источник

a

aGricolaMZ in R language and Statistical data analysis
это на самом деле climb отсюда, но я пока не понял, как его заставить делать то, что мне нужно
источник

a

aGricolaMZ in R language and Statistical data analysis
Победа! ToDataFrameTable() функция из пакета data.tree
источник