Size: a a a

R language and Statistical data analysis

2020 January 10

PU

Philipp Upravitelev in R language and Statistical data analysis
поставьте теги, пожалуйста, #sparklyr и #spark
источник

АК

Артём Клевцов in R language and Statistical data analysis
Jury Sergeev
вот рабочий код для подключения к удаленному кластеру спарк, может кому пригодится

library(sparklyr)

spark_install(version = "SPARK-VERSION") # далее не требуется

if (nchar(Sys.getenv("SPARK_HOME")) < 1) {
 Sys.setenv(SPARK_HOME = "PATH-TO-LOCAL-SPARK-LIB")

 .libPaths(c(file.path(Sys.getenv("SPARK_HOME"), "R", "lib"), .libPaths()))
}

sc <- spark_connect(master = "spark://REMOTE_IP:7077")
А .libPaths зачем? file.path(Sys.getenv("SPARK_HOME"), "R", "lib") - это путь к R-пакетам, которые, очевидно, ставятся вместе с дистрибутивом спарк. В доках по sparklyr о подобных «финтах» ничего нет. Уверен, что без if не работает?
источник

JS

Jury Sergeev in R language and Statistical data analysis
Артём Клевцов
А .libPaths зачем? file.path(Sys.getenv("SPARK_HOME"), "R", "lib") - это путь к R-пакетам, которые, очевидно, ставятся вместе с дистрибутивом спарк. В доках по sparklyr о подобных «финтах» ничего нет. Уверен, что без if не работает?
если в окружении не указать SPARK_HOME то оно ругается, в эту переменную надо указать путь, куда будет установлена локальная библиотека спарк

уже проверил это
источник

AS

Alexey Seleznev in R language and Statistical data analysis
Jury Sergeev
если в окружении не указать SPARK_HOME то оно ругается, в эту переменную надо указать путь, куда будет установлена локальная библиотека спарк

уже проверил это
вместо if лучше в .Renviron его один раз прописать наверное, или в системную переменную винды
источник

JS

Jury Sergeev in R language and Statistical data analysis
верно, просто скрипт нужен на пару раз, решил не мусорить
источник

AS

Alexey Seleznev in R language and Statistical data analysis
ааа если на пару раз то норм конечно
источник

АК

Артём Клевцов in R language and Statistical data analysis
Jury Sergeev
если в окружении не указать SPARK_HOME то оно ругается, в эту переменную надо указать путь, куда будет установлена локальная библиотека спарк

уже проверил это
Интересно, зачем тогда в пакете есть spark_home_set... А ещё в кишках есть spark_resolve_envpath,  которая как раз исправляет пути для винды.
источник

JS

Jury Sergeev in R language and Statistical data analysis
ну вот когда с локальным кластером работаешь - то не надо так извращаться, только для случая обращения к удаленному кластеру
источник

АК

Артём Клевцов in R language and Statistical data analysis
Да я ж не спорю. Просто интересуюсь источником сего гениального решения и пытаюсь понять его целесообразность, исходя из внутреннего устройства sparklyr.
источник

JS

Jury Sergeev in R language and Statistical data analysis
ну источник, каюсь, был бездумно скопипащен (скопипастен?)
источник

АК

Артём Клевцов in R language and Statistical data analysis
Я догадываюсь откуда, но там вроде бы речь шла о sparkR, а не о sparklyr.
источник

AS

Alexander Semenov in R language and Statistical data analysis
Jury Sergeev
ну вот когда с локальным кластером работаешь - то не надо так извращаться, только для случая обращения к удаленному кластеру
Ещё раз. Работал с удалённым кластером с винды через sparklyr. Никаких if там не надо. Установил пакет -> приконнектился. Всё.
источник

AS

Alexander Semenov in R language and Statistical data analysis
Артём Клевцов
Я догадываюсь откуда, но там вроде бы речь шла о sparkR, а не о sparklyr.
Вот-вот.
источник

DI

Daryna Ivaskevych in R language and Statistical data analysis
Всем привет! У меня проблема со считыванием данных из .txt файлов с помощью функции scan. Файлы содержат 5 строк: 1 - пустая, остальные состоят из текста, пробелов, двоеточий и чисел. Считывается 15 элементов с варнингом embedded nul(s) found in input.  Версия R 3.6.1 64-bit, Windows 10 1903. Я думала, что дело в кодировке, но применение Sys.setlocale(locale = 'Russian') поменяло загадочные символы в начале на "яю". Определение аргумента fileEncoding тоже ни на что не повлияло, как и определение аргумента what. Если нужен пример файла, могу прислать.
источник

JS

Jury Sergeev in R language and Statistical data analysis
Alexander Semenov
Ещё раз. Работал с удалённым кластером с винды через sparklyr. Никаких if там не надо. Установил пакет -> приконнектился. Всё.
Если бы не было проблемы, не было бы ссылок об этом
источник

JS

Jury Sergeev in R language and Statistical data analysis
Артём Клевцов
Я догадываюсь откуда, но там вроде бы речь шла о sparkR, а не о sparklyr.
Я искал для этого пакета решение, и нашёл то что нашёл)
источник

JS

Jury Sergeev in R language and Statistical data analysis
Однако все получилось, кластер уже пыхтит, спасибо за помощь!
источник

АК

Артём Клевцов in R language and Statistical data analysis
Daryna Ivaskevych
Всем привет! У меня проблема со считыванием данных из .txt файлов с помощью функции scan. Файлы содержат 5 строк: 1 - пустая, остальные состоят из текста, пробелов, двоеточий и чисел. Считывается 15 элементов с варнингом embedded nul(s) found in input.  Версия R 3.6.1 64-bit, Windows 10 1903. Я думала, что дело в кодировке, но применение Sys.setlocale(locale = 'Russian') поменяло загадочные символы в начале на "яю". Определение аргумента fileEncoding тоже ни на что не повлияло, как и определение аргумента what. Если нужен пример файла, могу прислать.
С образцом будет проще, так что высылай. Подозреваю, там мерзкий UTF-16. Можешь сама uchardet на файл натравить и посмотреть.
источник

DI

Daryna Ivaskevych in R language and Statistical data analysis
Артём Клевцов
С образцом будет проще, так что высылай. Подозреваю, там мерзкий UTF-16. Можешь сама uchardet на файл натравить и посмотреть.
Спасибо! Сейчас гляну
Всей файлы у меня вот такие
источник

АК

Артём Клевцов in R language and Statistical data analysis
Это UTF-16. Отсюда и embedded nul.
источник