Size: a a a

R language and Statistical data analysis

2020 January 24

R

R in R language and Statistical data analysis
Philipp Upravitelev
что ж слава богу-то, есди поведение непрогнозируемое :(
Я плебей, конечно, но именно такого я и ожидал, хз
источник

АК

Артём Клевцов in R language and Statistical data analysis
Inip Tyig
Отличная негодная статья с хабра, прямо как выступление Бартунова в радио-Т. Кроме шуток: статья является примером банальной апологии. но что защищает автор? А тут все понятно: схема хорошо, а если совсем невмоготу, без схемы все равно можно, но в постгре. А почему? Ну потому, видимо, что автор умеет схемы и постгрю, и считает что они необходимы всегда.

Я сталкивался с предыдущей итерацией хейта к новому в БДведении. Один широко известный скулеголовый дедуля, Джо Селко, готов был головы отгрызать за поля 'id', он даже термин придумал: «id-оты». На идеи хранить XML (до восхода джсона еще лет 20 оставалось, но идея-то та же), он, с его слов, смеялся людям на коференциях в лицо (хорошо еще, что не ссал на трупы этих еретиков).

Более того, до сих пор бытует мнение, что БД ускоряют только в условиях множественного доступа, а если у вас монопольный досиуп к данным на время работы, то можно даже использовать одним текстовиком посдедовательность джсон объектов. Я даже как-то читал статейку, про то что доступность скльных БД подобно Эйнштейну в головах конспирологов, отбросившего науку на 100к лет в секунду, отбросло программную инженерию. Там все сводилось как раз к тому, что БД ради однорыльного доступа — неадекватна своими накладными расходами.

По-существу в итоге, могу отметить что в том виде, в каком поставлена задача никакая база со схемой не лучше и не хуже никакой безсхемной или колоночной базы.
Для однорылого доступа сейчас тоже появляются достойные решения, вроде той же уткадб или rocksdb от фб.
Консольные юникс-утилиты, вроде awk, jqr, конечно, также могут быть весьма эффективны, но хорошим их знанием могут похвастаться не многие.
источник

ВК

Валерий К in R language and Statistical data analysis
Всем привет.
Использую пакет RAdwords
Запрос такой:
body <- statement(select =c('Date','CampaignName', 'TrackingUrlTemplate'),
                 report="CRITERIA_PERFORMANCE_REPORT",
                 start = format.Date("01-01-2020", "%Y%m%d"),
                 end=format.Date(end_date, "%Y%m%d"))
AdwData <- getData(clientCustomerId = account_id,
                  google_auth = adwords_auth,
                  statement = body,
                  transformation = T)
Выдаёт сообщение:
Warning message:
In readLines(con <- gzfile(tmp)) :
 incomplete final line found on 'C:\Users\Vika\AppData\Local\Temp\RtmpcrgzZb\file46802d122ae6'
Вместо таблицы получаю результат в виде:
<?xml version=\"1.0\" encoding=\"UTF-8\" standalone=\"yes\"?><reportDownloadError><ApiError><type>StatsQueryError.DATE_NOT_IN_VALID_RANGE</type><trigger></trigger><fieldPath></fieldPath></ApiError></reportDownloadError>"
Что здесь не так и как починить?
источник

⌨️ in R language and Statistical data analysis
Валерий К
Всем привет.
Использую пакет RAdwords
Запрос такой:
body <- statement(select =c('Date','CampaignName', 'TrackingUrlTemplate'),
                 report="CRITERIA_PERFORMANCE_REPORT",
                 start = format.Date("01-01-2020", "%Y%m%d"),
                 end=format.Date(end_date, "%Y%m%d"))
AdwData <- getData(clientCustomerId = account_id,
                  google_auth = adwords_auth,
                  statement = body,
                  transformation = T)
Выдаёт сообщение:
Warning message:
In readLines(con <- gzfile(tmp)) :
 incomplete final line found on 'C:\Users\Vika\AppData\Local\Temp\RtmpcrgzZb\file46802d122ae6'
Вместо таблицы получаю результат в виде:
<?xml version=\"1.0\" encoding=\"UTF-8\" standalone=\"yes\"?><reportDownloadError><ApiError><type>StatsQueryError.DATE_NOT_IN_VALID_RANGE</type><trigger></trigger><fieldPath></fieldPath></ApiError></reportDownloadError>"
Что здесь не так и как починить?
Date not in valid range?
источник

PU

Philipp Upravitelev in R language and Statistical data analysis
что-то format.Date не очень на правду похож
источник

⌨️ in R language and Statistical data analysis
Philipp Upravitelev
что-то format.Date не очень на правду похож
он неверен, по крайней мере в моей локали
источник

PU

Philipp Upravitelev in R language and Statistical data analysis
вот и ошибка, значит
источник

⌨️ in R language and Statistical data analysis
> format.Date("01-01-2020", "%Y%m%d")
[1] "00010120"
источник

⌨️ in R language and Statistical data analysis
> format.Date("2020-01-01", "%Y%m%d")
[1] "20200101"
источник

PU

Philipp Upravitelev in R language and Statistical data analysis
ну так правильно
в строке год последний, а в format - указан первым
вот и дурит
источник

⌨️ in R language and Statistical data analysis
Philipp Upravitelev
ну так правильно
в строке год последний, а в format - указан первым
вот и дурит
ну это зависит от того как format.Date парсит. Видимо, понимает только ISO формат
источник

PU

Philipp Upravitelev in R language and Statistical data analysis
он строку парсит как указано
источник

PU

Philipp Upravitelev in R language and Statistical data analysis
если надо поменять в другой формат, надо сначала раcпарсить строку в дату, а потом поменять формат с strftime
источник

⌨️ in R language and Statistical data analysis
Philipp Upravitelev
он строку парсит как указано
as.Date("01-01-2020")
[1] "0001-01-20"


В моем представлении, format.Date это format, приложенный к  as.Date. И вторая строка - это не строка парсинга, а строка форматирования вывода.
> format.Date("2020-01-01", "%Y - %m  -- %d")
[1] "2020 - 01  -- 01"
источник

PU

Philipp Upravitelev in R language and Statistical data analysis
ну так подаете вы строку в него
источник

АК

Артём Клевцов in R language and Statistical data analysis
⌨️
ну это зависит от того как format.Date парсит. Видимо, понимает только ISO формат
format ничего не парсит. Он формирует из структуры данных, в данном случае Date, строку в указанном формате.
источник

АК

Артём Клевцов in R language and Statistical data analysis
⌨️
as.Date("01-01-2020")
[1] "0001-01-20"


В моем представлении, format.Date это format, приложенный к  as.Date. И вторая строка - это не строка парсинга, а строка форматирования вывода.
> format.Date("2020-01-01", "%Y - %m  -- %d")
[1] "2020 - 01  -- 01"
В этом примере ты в format подаёшь строку, а не дату.
источник

АК

Артём Клевцов in R language and Statistical data analysis
Внутри есть вызов as.POSIXlt, но он не гарантирует, что корректно распарсит ввод.
источник

⌨️ in R language and Statistical data analysis
Артём Клевцов
В этом примере ты в format подаёшь строку, а не дату.
Я пытаюсь сказать, что исходная проблема типа
start = format.Date("01-01-2020", "%Y%m%d")

должна решаться чем-то типа
format(as.Date("01-01-2020", "%d-%m-%Y"), "%Y%m%d")


Возможно меня не так поняли. Или я что-то не понял. Мне кажется, у автора даты хранятся строками, и он просто их неправильно спарсил.
источник

АК

Артём Клевцов in R language and Statistical data analysis
В данном случае ты вызываешь S3 метод напрямую, но подаёшь на него не тот класс объекта, который данный метод ожидает. Это скорее всего приведёт к  непредсказуемым результатам.
источник