Size: a a a

R language and Statistical data analysis

2020 March 16

ГД

Григорий Демин in R language and Statistical data analysis
Про статью. Есть интересный кейс, когда агрегирующая функция от нескольких переменных и результат надо положить в переменную с каким-нибудь нормальным именем. Тогда разница между пандас и Р-библиотеками заметна особенно хорошо.  В R это выглядит точно так же, как и обычное агрегирование, например, для data.table:
dt_iris[,.(importance = cor(Sepal.Length, Sepal.Width)), by = Species]

А в пандасе - поля моего телеграмма слишком узки, чтобы написать аналогичный код для пандас
источник

ЭА

Эдик Амперян in R language and Statistical data analysis
"When computing you are allowed to cheat"...  занятный блог:

https://www.brodieg.com/2019/07/24/hydra-reformulate/
источник

DB

Dmitryi Berg in R language and Statistical data analysis
На мой взгляд Python сейчас более широко представлен по причине того что его используют программисты. Для бизнеса это означает, что прибавочная стоимость получается больше. Однако дальше картина, возможно будет меняться в пользу R. Во-первых, к питону всё больше вопросов. И в плане программирования и в плане работы с памятью например. С точки зрения ДС и аналитики оба языка жрут память по полной.
Во-вторых, R прост в изучении, но с точки зрения бизнеса немного сложнее. R более универсальный и более гибок, пакеты продолжают разрабатываться и они становятся мощнее. Возникает вопрос оптимизации работы с пакетами с учетом нагрузки, с учёт поддержания кодовой базы и т.п. Получается что R становится более массовым, потому что его проще изучить и появляются новые возможности в виде дашбордов из shiny, интеграция с мобильными сервисами. Но при это острее возникает вопрос оптимизации кода и конечных продуктов.
источник

ЕТ

Евгений Томилов in R language and Statistical data analysis
Andrey
Хаскель
Это-то без вариантов, да.
источник

ГД

Григорий Демин in R language and Statistical data analysis
Никогда не считайте дисперсию по этой формуле. Просто никогда, как бы быстро она не считала. Такой метод расчета численно неустойчив и будет давать очень большие ошибки даже на самых невинных цифрах.
источник

IV

Ivan Vdovin in R language and Statistical data analysis
источник

ЭА

Эдик Амперян in R language and Statistical data analysis
Григорий Демин
Никогда не считайте дисперсию по этой формуле. Просто никогда, как бы быстро она не считала. Такой метод расчета численно неустойчив и будет давать очень большие ошибки даже на самых невинных цифрах.
Assessing the precision risks  у автора тоже значится... но там это не единственная статья
источник

ГД

Григорий Демин in R language and Statistical data analysis
Эдик Амперян
Assessing the precision risks  у автора тоже значится... но там это не единственная статья
Да, сам блог интересный. Там была пара статей, как на base R обойти по скорости data.table. Очень познавательно
источник

a

aGricolaMZ in R language and Statistical data analysis
источник

a

aGricolaMZ in R language and Statistical data analysis
опечатка
источник

a

aGricolaMZ in R language and Statistical data analysis
python
источник

AS

Alexey Seleznev in R language and Statistical data analysis
благодарю, сейчас исправлю
источник

А[

Александр [capsula] in R language and Statistical data analysis
Запятая после Титаника нужна? "В таблице titanic, которую мы загрузили"?
источник

AS

Alexey Seleznev in R language and Statistical data analysis
Александр [capsula]
Запятая после Титаника нужна? "В таблице titanic, которую мы загрузили"?
нужна, добавил запятую
источник

ВК

Владимир Калинин in R language and Statistical data analysis
вообще, аргумент, что R проще изучить так себе. наоборот питон более казуальный
источник

AS

Alexander Semenov in R language and Statistical data analysis
Отнюдь.
источник

IT

Inip Tyig in R language and Statistical data analysis
Dmitryi Berg
На мой взгляд Python сейчас более широко представлен по причине того что его используют программисты. Для бизнеса это означает, что прибавочная стоимость получается больше. Однако дальше картина, возможно будет меняться в пользу R. Во-первых, к питону всё больше вопросов. И в плане программирования и в плане работы с памятью например. С точки зрения ДС и аналитики оба языка жрут память по полной.
Во-вторых, R прост в изучении, но с точки зрения бизнеса немного сложнее. R более универсальный и более гибок, пакеты продолжают разрабатываться и они становятся мощнее. Возникает вопрос оптимизации работы с пакетами с учетом нагрузки, с учёт поддержания кодовой базы и т.п. Получается что R становится более массовым, потому что его проще изучить и появляются новые возможности в виде дашбордов из shiny, интеграция с мобильными сервисами. Но при это острее возникает вопрос оптимизации кода и конечных продуктов.
На днях прослушал как раз мнение питонистов-програмистов: https://podcasts.google.com/?feed=aHR0cHM6Ly9sZWFybnB5dGhvbi5wb2RiZWFuLmNvbS9mZWVkLnhtbA&episode=bGVhcm5weXRob24ucG9kYmVhbi5jb20vN2JiYmMyODgtOWRjOC01MDhmLTg4M2ItYmVjNTdmZTUwMjc1&hl=ru-BY&ved=2ahUKEwjimtHN6p7oAhXCsaQKHcaqDS8QieUEegQIBRAE&ep=6

Если коротко: проблемы не с пайтонами, а с инструментами тип джупитера и с тем что дата-станисты не программисты.
источник

PU

Philipp Upravitelev in R language and Statistical data analysis
про более кривую learning curve я регулярно читаю в разных околоакадемических твиттерах
источник

IT

Inip Tyig in R language and Statistical data analysis
Все это лукавство, про курву лернингов. Зависит от того, от каких задач подходить: если со стороны ETL — пайтон легче, а сейчас куча всякого дата-манипуляторского просто в SQL заехала, если со стороны дип-лернингов — снова змий. В Р проще, разве что, со стороны учебников и учебы заехать.
источник

PU

Philipp Upravitelev in R language and Statistical data analysis
etl-то легче? то-то я каждый день кровавые слезы от панд утираю...
источник