Телеграмм чат группы rlang

2020 January 20

AS

Alexander Semenov in R language and Statistical data analysis

Andrey

fst

Спасибо.

источник

14:47пожаловаться #1

AS

Alexander Semenov in R language and Statistical data analysis

Неожиданно нарисовался вопрос, который, скорее всего объясниться моим послеобеденным тупняком, но я всё равно его задам.

Есть 2 датафрейма, которые по смыслу должны описывать одну и ту же совокупность айдишников. Кол-во строк в них одинаково. Если взять из обоих айдишники следующим способом (df - select(id) - arrange(desc(id)) - unlist() - unique()) и сравнить через identical(), то получаем TRUE.

Однако при попытке объединения этих датафреймов через left_join по этим айдишникам у меня получается датафрейм, длина которого практически равна 2Х любого из датафреймов.

Где тут может быть косяк?

источник

16:05пожаловаться #2

АК

Артём Клевцов in R language and Statistical data analysis

Alexander Semenov

Неожиданно нарисовался вопрос, который, скорее всего объясниться моим послеобеденным тупняком, но я всё равно его задам.

Есть 2 датафрейма, которые по смыслу должны описывать одну и ту же совокупность айдишников. Кол-во строк в них одинаково. Если взять из обоих айдишники следующим способом (df - select(id) - arrange(desc(id)) - unlist() - unique()) и сравнить через identical(), то получаем TRUE.

Однако при попытке объединения этих датафреймов через left_join по этим айдишникам у меня получается датафрейм, длина которого практически равна 2Х любого из датафреймов.

Где тут может быть косяк?

Ключ не уникальный.

источник

16:08пожаловаться #3

AS

Alexander Semenov in R language and Statistical data analysis

Почему тогда identical() возвращает TRUE?

источник

16:08пожаловаться #4

АК

Артём Клевцов in R language and Statistical data analysis

Значит в обеих таблицах не уникальный.

источник

16:09пожаловаться #5

АК

Артём Клевцов in R language and Statistical data analysis

anyDuplicated попробуй.

источник

16:09пожаловаться #6

AS

Alexander Semenov in R language and Statistical data analysis

Действительно, 42 550 айдишников из 2 033 568 оказались дублями.

источник

16:09пожаловаться #7

AS

Alexander Semenov in R language and Statistical data analysis

Спасибо.

источник

16:11пожаловаться #8

VY

VIKTORIYA YUKHINA in R language and Statistical data analysis

Добрый вечер, профессионалы! Я только приступила к изучению R, поэтому мой вопрос может оказаться простым для вас, но я на нем встала((( есть вектор из букв латинского алфавита. Буквы не по порядку и в разных регистрах. Как создать логический вектор, чтобы TRUE было только там где заглавные буквы? Предлагаются в помощь встроеные векторы litters и LITTERS. Но как их использовать все вместе не соображу. Помогите, пожалуйста🙏

источник

18:45пожаловаться #9

ИП

Иван Поздняков in R language and Statistical data analysis

v %in% LETTERS

источник

18:52пожаловаться #10

DN

Denis Naumov in R language and Statistical data analysis

Друзья, подскажите как удалить коррелирующие значения использовал WHICH удалил все признаки, которые между собой коррелируют, а хочется удалить только часть признаков чтобы удалить только корреляции

источник

18:53пожаловаться #11

A

Alеx 🤼‍♂️ in R language and Statistical data analysis

VIKTORIYA YUKHINA

Добрый вечер, профессионалы! Я только приступила к изучению R, поэтому мой вопрос может оказаться простым для вас, но я на нем встала((( есть вектор из букв латинского алфавита. Буквы не по порядку и в разных регистрах. Как создать логический вектор, чтобы TRUE было только там где заглавные буквы? Предлагаются в помощь встроеные векторы litters и LITTERS. Но как их использовать все вместе не соображу. Помогите, пожалуйста🙏

https://stackoverflow.com/questions/39775133/r-grep-remove-upper-case-rows

в первом комментарии функция grepl

Stack Overflow

R - grep remove UPPER case rows

I would like to remove all the rows containing UPPERCASE words.

My data looks like this :

dt
1 TRAVEL AND UNSPECIFIED TIME USE
2