Size: a a a

2020 January 26

AS

Andrey Smirnov in Data Engineers
При этом, для сбора гео, это приложение должно висеть в фоне, не гугл же данными торгует
источник

AD

Andrew Dakhnovsky in Data Engineers
Andrey Smirnov
Интересно законность всего этого, предпрложим я дал права какому-то приложению на сбор гео данных, но я не давал его на перепродажу моих данных
но я не давал его на перепродажу моих данных

ты уверен?
внимательно лицензионные соглашения читаешь?
источник

AS

Andrey Smirnov in Data Engineers
Andrew Dakhnovsky
но я не давал его на перепродажу моих данных

ты уверен?
внимательно лицензионные соглашения читаешь?
Я залез на сайт тамако, там прописано что я явно должен дать на это согласие
источник

AD

Andrew Dakhnovsky in Data Engineers
Andrey Smirnov
Я залез на сайт тамако, там прописано что я явно должен дать на это согласие
ну так там обезличенные же данные
т.е. как бы не твои
источник

AS

Andrey Smirnov in Data Engineers
Если они являются предметом скоринга, то уже мои
источник

AD

Andrew Dakhnovsky in Data Engineers
Andrey Smirnov
Если они являются предметом скоринга, то уже мои
нет конечно
предметом скоринга является набор данных вида координата - значения
где именно тут ты?
источник

AS

Andrey Smirnov in Data Engineers
Скоринг для выдачи кредита именно мне
источник

AD

Andrew Dakhnovsky in Data Engineers
Andrey Smirnov
Скоринг для выдачи кредита именно мне
какой нахер кредит?
ты статью читал?
там почти половина про то что это все анонимно
особенно в конце где вопрос-ответ
источник

AS

Andrey Smirnov in Data Engineers
Andrew Dakhnovsky
какой нахер кредит?
ты статью читал?
там почти половина про то что это все анонимно
особенно в конце где вопрос-ответ
Скоринг пользовательских интересов
это про что
источник

AD

Andrew Dakhnovsky in Data Engineers
Andrey Smirnov
Скоринг пользовательских интересов
это про что
это про интересы пользователей в зависимости от региона/геоданных
дивайс_айди уникален в пределах датасета но обезличен и является всего-лишь метрикой -идетинфикатором одного набора данных
имяфамилия не является признаком (feature)
источник

AS

Andrey Smirnov in Data Engineers
Andrew Dakhnovsky
это про интересы пользователей в зависимости от региона/геоданных
дивайс_айди уникален в пределах датасета но обезличен и является всего-лишь метрикой -идетинфикатором одного набора данных
имяфамилия не является признаком (feature)
если рассматривать его отдельно от всех, то да, но есть же возможность обогащения данными (вы про это и пишите), например есть wifi маячки, компаний типа HotWiFi только в России несколько, и таким образом ваш "анонимный device_id" превращается из тыквы в телефонный номер
источник

AD

Andrew Dakhnovsky in Data Engineers
Andrey Smirnov
если рассматривать его отдельно от всех, то да, но есть же возможность обогащения данными (вы про это и пишите), например есть wifi маячки, компаний типа HotWiFi только в России несколько, и таким образом ваш "анонимный device_id" превращается из тыквы в телефонный номер
а это уже отдельная тема
все вопросы к поставщикам данных по вайфаю и именам - вот тут возникнет много вопросов о законности вообще
источник

AZ

Anton Zadorozhniy in Data Engineers
это очень популярный трюк (я сам им пользовался), или просто плохая квалификация кадров, называть псевдонимизированные данные анонимными; в реальности все конечно будет упираться в конкретного регулятора/аудитора/обвинителя, но для общей информации - тот же GDRP явно вводит разделение между псевдонимизацией, де-идентификцией и анонимизацией
источник

AZ

Anton Zadorozhniy in Data Engineers
источник

AZ

Anton Zadorozhniy in Data Engineers
Andrey Smirnov
GDPR по таким поставщикам не плачет?
еще как плачет
источник

AZ

Anton Zadorozhniy in Data Engineers
Andrew Dakhnovsky
но я не давал его на перепродажу моих данных

ты уверен?
внимательно лицензионные соглашения читаешь?
second hand data use явно запрещен, на что собрано согласие - только то разрешено
источник

AZ

Anton Zadorozhniy in Data Engineers
Andrew Dakhnovsky
какой нахер кредит?
ты статью читал?
там почти половина про то что это все анонимно
особенно в конце где вопрос-ответ
это не анонимные, а псевдо-анонимизированные данные (или псевдоминизированные), у анонимных данных не может быть никаких device_id (см выше); если совсем по-хорошему, то должно быть формально обоснованно почему датасет анонимен, то есть приведены расчеты по моделям семейства k-anonymity или differential privacy
источник

AS

Andrey Smirnov in Data Engineers
Скорее всего эти данные собираются из всe возможных игр, где крутятся мобильные dsp, короче, серая зона. Причем ты можешь быть просто клиентом dsp, получать данные аукциона с device id и координатами, а побочным действием является продажа этих данных
источник

AZ

Anton Zadorozhniy in Data Engineers
Andrey Smirnov
Скорее всего эти данные собираются из всe возможных игр, где крутятся мобильные dsp, короче, серая зона. Причем ты можешь быть просто клиентом dsp, получать данные аукциона с device id и координатами, а побочным действием является продажа этих данных
Да, и судя по тому что они в статье говорят о популяциях, то возможно они где-то выходят на k-anonymity; мой поинт именно в том что нельзя данные с персистентным хэшом от клиентского идентификатора называть анонимными
источник

AZ

Anton Zadorozhniy in Data Engineers
Ну и по духу конечно, это не privacy by design, и пользователю не дают возможность принять информированное решение о том что он разрешает
источник