Facebook пошарил наконец-то датасет со всеми сайтами и новостями и прочими страничками (38млн урлов), которые часто шарили пользователи в 2017-2019 гг, с разбивкой по странам, и отметками о вредности (hate speech). Интересно, можно ли проверить, сколько урлов от спутника, Рашши Тудэй, и других интересных источников отмаркированы как hate speech? и как растёт количество вбросов новостей во время нефтегазовых войн :) Это, конечно, малая часть всего датасета который есть у ФБ на нас за 2017-2019, который занимает миллиард ГБ, Чтобы получить доступ, нужно описать свой запрос на исследование.
https://socialscience.one/blog/unprecedented-facebook-urls-dataset-now-available-research-through-social-science-one?utm_source=hackernewsletter&utm_medium=email&utm_term=dataИ сколько времени пройдёт, прежде чем в датасете найдут ссылки на приватные данные и на неприятные фотки, порно, и прочее и прочее, чего автора датасета очень хотели избежать, ведь чтобы подготовить к публикации такой массив у них и так заняло 20 месяцев работы?