Size: a a a

R language and Statistical data analysis

2020 February 21

АК

Артём Клевцов in R language and Statistical data analysis
Юрий 🐙💻🤖📊📈🚬
Питонисты в восторге от возможностей джупитера...
На опасную дорожку флейма ступаешь.
источник

PU

Philipp Upravitelev in R language and Statistical data analysis
Александр Райков
потому что твиты одного человека могут быть более похожи друг на друга в силу его личности
если данных много, и твитов до и после от одного человека не очень заметное количество, я бы пренебрег
источник

DE

Dmitry Ermakov in R language and Statistical data analysis
Dmitry Ermakov
но суть в том, что массив достаточно большой и бренд достаточно известный
т.е. вряд ли твиты одного (или даже не одного) человека могут как то сильно перекосить
источник

АР

Александр Райков in R language and Statistical data analysis
если (почти) от каждого человека б.м. несколько твитов, смешанные линейные модели хорошо подходят
источник

АР

Александр Райков in R language and Statistical data analysis
но подозреваю, что там если и есть повторы, то в малой дозе
источник

DE

Dmitry Ermakov in R language and Statistical data analysis
а вообще каким то образом такое используется в индустрии? именно сентимент анализ с целью оценить как то изменения, отношение к бренду и т.д
источник

DE

Dmitry Ermakov in R language and Statistical data analysis
или по моему описанию больше похоже на какой-то синтетический показатель, который мало что может показать?
источник

АК

Артём Клевцов in R language and Statistical data analysis
Посмотри боксполты для начала, если метрика количественная. По ним выводы и о значимости сделать можно, в принципе.
источник

DE

Dmitry Ermakov in R language and Statistical data analysis
тут такой скорее концептуальный вопрос: например, событие произошло 2 недели назад. Соответственно, твиты за последние 2 недели - одна группа. В качестве второй группы, нужно ли взять твиты которые были незадолго до события, или же нужно сделать группу из выборки за все время (до события) ?
источник

DE

Dmitry Ermakov in R language and Statistical data analysis
сразу прошу прощения, если это совсем глупый вопрос)
источник

S

Stepler in R language and Statistical data analysis
Philipp Upravitelev
я пересел на питон, потому что вся команда и внутренние либы на питоне
Редеют наши ряды
источник

PU

Philipp Upravitelev in R language and Statistical data analysis
ну дома-то я на R пишу. и преподаю R, а не питон, хотя активно намекают :)
источник

PU

Philipp Upravitelev in R language and Statistical data analysis
Dmitry Ermakov
тут такой скорее концептуальный вопрос: например, событие произошло 2 недели назад. Соответственно, твиты за последние 2 недели - одна группа. В качестве второй группы, нужно ли взять твиты которые были незадолго до события, или же нужно сделать группу из выборки за все время (до события) ?
это вам надо погружаться в область
в смысле, насколько динамичны настроения и оценки в твиттере. по моим наблюдениям, там волнами то одни темы вспыхивают, то другие
то есть, много работы с дизайном и препроцессингом

плюс есть еще нюанс - откуда данные брать будете? апи твиттера мерзкое и бесполезное, если вообще получите к нему доступ (платное вроде ничего)
а парсить твиты отвратительное занятие. покупать у кого-то - просто может быть дорогою
источник

DE

Dmitry Ermakov in R language and Statistical data analysis
Philipp Upravitelev
это вам надо погружаться в область
в смысле, насколько динамичны настроения и оценки в твиттере. по моим наблюдениям, там волнами то одни темы вспыхивают, то другие
то есть, много работы с дизайном и препроцессингом

плюс есть еще нюанс - откуда данные брать будете? апи твиттера мерзкое и бесполезное, если вообще получите к нему доступ (платное вроде ничего)
а парсить твиты отвратительное занятие. покупать у кого-то - просто может быть дорогою
твиты уже есть, воспользовался библиотекой питоновской GetOldTweets
источник

DE

Dmitry Ermakov in R language and Statistical data analysis
твиттер доступа к апи мне не дал, даже при том, что я написал что проект учебный, не коммерческий и вообще я студент)
источник

S

Stepler in R language and Statistical data analysis
Philipp Upravitelev
навскидку, в магните на r пишут, airbnb
так что позиции есть
но мало
Везде нужна стата, и r , изучая рынок спроса и предложений, только датасатанисты могут сделать это
источник

AS

Alexander Semenov in R language and Statistical data analysis
Philipp Upravitelev
это вам надо погружаться в область
в смысле, насколько динамичны настроения и оценки в твиттере. по моим наблюдениям, там волнами то одни темы вспыхивают, то другие
то есть, много работы с дизайном и препроцессингом

плюс есть еще нюанс - откуда данные брать будете? апи твиттера мерзкое и бесполезное, если вообще получите к нему доступ (платное вроде ничего)
а парсить твиты отвратительное занятие. покупать у кого-то - просто может быть дорогою
Нормальное там было API, когда я им пользовался.
источник

PU

Philipp Upravitelev in R language and Statistical data analysis
Alexander Semenov
Нормальное там было API, когда я им пользовался.
это лет десять-то назад? :)

сейчас ты просто API key не получишь, при регистрации приложения от тебя потребуют обоснования и через несколько месяцев откажут, как у меня было.
я взял старые ключи, отрыл из проектов года так 2012 - так они не больше нескольких запросов в 15 минут позволяли.
источник

DE

Dmitry Ermakov in R language and Statistical data analysis
Alexander Semenov
Нормальное там было API, когда я им пользовался.
насколько я понимаю, бесплатное апи дает получать твиты за последние 7 дней только
источник

PU

Philipp Upravitelev in R language and Statistical data analysis
Dmitry Ermakov
насколько я понимаю, бесплатное апи дает получать твиты за последние 7 дней только
и то с трудом, да
источник