Size: a a a

R language and Statistical data analysis

2020 May 01

АК

Артём Клевцов... in R language and Statistical data analysis
Alexander Semenov
Коллеги, а что это за нюанс в нашем наречии, который вот так вот странно (не)джойнит по датам?
Проверь атрибуты. В POSIXct бывает ещё часовой пояс передают.
Но лучше сделать unclass и потом джойнить - и быстрее и безопаснее.
источник

ЕТ

Евгений Томилов... in R language and Statistical data analysis
Alexander Semenov
А что такое эмбеддинги графов?
источник

AS

Alexander Semenov in R language and Statistical data analysis
Спасибо.
источник

AS

Alexander Semenov in R language and Statistical data analysis
Стало ещё интереснее. join_date -- это unclass(purchase_date).
источник

AS

Alexander Semenov in R language and Statistical data analysis
Хотя теперь вижу, что там числа незаметно отличаются.
источник

AS

Alexander Semenov in R language and Statistical data analysis
Но всё равно непонятно, почему они отличаются.
источник

R

R in R language and Statistical data analysis
Alexander Semenov
Но всё равно непонятно, почему они отличаются.
Отличаются ровно на три часа, ставлю на то, что один с часовым поясом +0 был, а второй с +3
источник

R

R in R language and Statistical data analysis
(т.к. Москва это +3 вроде)
источник

R

R in R language and Statistical data analysis
А, нет, это только первая цифра отличается на 3 часа :(
источник

АК

Артём Клевцов... in R language and Statistical data analysis
R
Отличаются ровно на три часа, ставлю на то, что один с часовым поясом +0 был, а второй с +3
Да, один в UTC/GMT, второй в MSK.
источник

АК

Артём Клевцов... in R language and Statistical data analysis
Alexander Semenov
Стало ещё интереснее. join_date -- это unclass(purchase_date).
attributes(ga$purchase_date) и второй также.
источник

R

R in R language and Statistical data analysis
R
А, нет, это только первая цифра отличается на 3 часа :(
Но все делятся на 3600 вроде, так что явно пояс
источник

AS

Alexander Semenov in R language and Statistical data analysis
Да, всё так. В одном из датафреймов добавил к дате аргумент tz = 'UTC'.
источник

АК

Артём Клевцов... in R language and Statistical data analysis
Скорее всего данные из разных источников, и нет контроля часового пояса, В таких случаях надо явно везде приводить к UTC. Тогда точно не будет проблем.
источник

AS

Alexander Semenov in R language and Statistical data analysis
Так и есть =). Google Analytics и локальная БД.
источник

AS

Alexander Semenov in R language and Statistical data analysis
В GA вообще пришлось склеивать дату из столбцов с часами и минутами.
источник

МФ

Михаил Филатов... in R language and Statistical data analysis
Друзья, всем добрый день! у меня возник небольшой вопрос по статистике. У меня  есть панельные данные примерно следующего вида:

year  country  variable  change
1991  A  72  0
1992  A  74  0
1993  A  75  0
1994  A  100  0
1995  A  100  0
1996  A  78  1
1997  A  90  0
1998  A  92  0
1999  A  67  0
2000  A  94  0
2001  A  72  0
2002  A  74  0
2003  A  72  0
2004  A  96  0


Переменная change показывает изменение в конкретной стране. Изменение могло наступать в разных странах в разный момент времени, а также в одной стране оно могло произойти несколько раз. Мне хочется понять, есть ли в целом разница в зависимой переменной variable в периоды до и после того, как произошли изменения.

Сейчас пытаюсь понять, какая модель здесь может подойти. Пока есть идея, усреднять периоды  "до" и "после" и оценивать модель с фиксированными эффектами. Но мне кажется, что так я могу получить очень ненадежные результаты. Существуют ли какие-то best practices для такого рода задач? Буду благодарен любой помощи)
источник

R

R in R language and Statistical data analysis
Что-то про diff-in-diff с разной датой тритмента писал Andrew Goodman-Bacon
источник

МФ

Михаил Филатов... in R language and Statistical data analysis
Спасибо! Обязательно посмотрю
источник

R

R in R language and Statistical data analysis
https://cdn.vanderbilt.edu/vu-my/wp-content/uploads/sites/2318/2019/10/09023516/so_youve_been_told_dd_10_9_2019.pdf
он что-то тут про это писал неформально в дополнение к своей статье, но я не читал, так что не гарантирую, что это релевантно, особенно учитывая то, что там просто про вариацию в тайминге вроде, без дополнительного осложнения в том, что на одну страну может быть несколько тритментов
источник