Телеграмм чат группы begtinchat страница 1027

А там однотипно

19:18пожаловаться #1

🛡 Обновлен перечень стран, обеспечивающих адекватную защиту прав субъектов персональных данных

Роскомнадзор внес изменения в перечень иностранных государств, не являющихся сторонами Конвенции Совета Европы о защите физических лиц при автоматизированной обработке персональных данных и обеспечивающих адекватную защиту прав субъектов персональных данных. Приказ зарегистрирован в Минюсте России и размещен на официальном интернет-портале правовой информации.

В связи с ратификацией Конвенции Аргентинская Республика, Королевство Марокко, Тунисская Республика исключены из Перечня. Также в виду отсутствия органа, уполномоченного осуществлять защиту прав субъектов персональных данных, в структуре государственных органов из Перечня исключена Республика Чили.

В обновленный Перечень включены 11 стран, включая Республику Беларусь и Федеративную Республику Бразилия. С учетом внесенных изменений количество иностранных государств, обеспечивающих адекватную защиту прав субъектов персональных данных, увеличилось до 29.

Условиями включения иностранного государства в Перечень иностранных государств является наличие в нем комплексного нормативного правового акта, регулирующего сферу персональных данных, наличие в стране уполномоченного органа по защите прав субъектов персональных данных и системы санкций, предусмотренной за нарушение требований законодательства в этой области.

Перечень иностранных государств, не являющихся сторонами Конвенции Совета Европы о защите физических лиц при автоматизированной обработке персональных данных и обеспечивающих адекватную защиту прав субъектов персональных данных

Григорий Машанов... in Чат к каналу @begtin

20:27пожаловаться #2

ГМ

Россию нужно исключить из этого списка

Егор Сергеевич... in Чат к каналу @begtin

20:56пожаловаться #3

ЕС

вы скозали?

20:58пожаловаться #4

Из-за того, что РКН не видит разницы в защите прав субъектов ПДн и защите самим ПДн?

Григорий Машанов... in Чат к каналу @begtin

20:59пожаловаться #5

ГМ

РКН не занимается защитой прав субъектов ПД, это заметно по десяткам примеров

Григорий Машанов... in Чат к каналу @begtin

20:59пожаловаться #6

ГМ

РКН занимается репрессиями

Igor Belyakov in Чат к каналу @begtin

21:00пожаловаться #7

Предлагаю снять розовые очки. Ни один закон по защите прайваси не принимался исключительно из желания защитить интересы владельцев этих прайваси.

21:21пожаловаться #8

Kvg in Чат к каналу @begtin

Да невозможность хоть как-то проверить исполняемость тоже довольно очевидна

Al Sem in Чат к каналу @begtin

21:58пожаловаться #9

❗️В России необходимо ввести досудебную блокировку информации для защиты детей от большого количества ЛГБТ-пропаганды в социальных сетях — директор Лиги безопасного интернета Екатерина Мизулина

22:50пожаловаться #10

Kvg in Чат к каналу @begtin

Алгоритм если находит на сайте слово на букву П, сразу в бан.

Al Sem in Чат к каналу @begtin

22:53пожаловаться #11

П... правосудие?

22:53пожаловаться #12

Kvg in Чат к каналу @begtin

Я ничему не удивлюсь

22:55пожаловаться #13

2021 November 09

В рубрике интересные книги - свежевышедшая The Informed Company: How to Build Modern Agile Data Stacks that Drive Winning Insights [1] от Dave Fowler и Mattew David о том как организовать современный стэк технологий для работы с данными (data stack), как устроена архитектура с данными в облаке и какие стратегии работы с данными есть у малых, средних и крупных компаний.

Книга рассказывает в подробностях о том что такое Data Source, Data Lake, Data Warehouse и Data Marts (по русски - источники данных, озера данных, хранилища данных и витрины данных), но главное её достоинство для одних и недостаток для других - это простота изложения, вплоть до жанра "озера данных для самых маленьких". Для опытных специалистов это всё может показаться азами, например, там довольно ограниченный перечень описываемых архитектур, структуры и компонентов современного стэка. К примеру в прошлогоднем обзоре Emerging Architectures for Modern Data Infrastructure [2] от Andreessen Horowitz тоже наглядно, но несколько более детальнее>

А вот для руководителей которые должны быть компетентными заказчиками, но часто не разбираются в технологиях эта книга будет очень полезна также как и полезна для обучения студентов современным средам работы с данными.

Этот акцент на понятности у авторов неудивителен, оба они из компании ChartIO, недавно приобретённой Atlassian и у ChartIO есть серия веб-книг DataSchool [3] о том как научиться SQL, как преподавать SQL, как работать с данными в облаке и многое другое. Все они написаны в очень доступном стиле для обучения аналитиков с нуля и тех кто учит аналитиков с нуля. Если присмотреться, то The Informed Company и эти книжки пересекаются по содержанию где-то процентов на 50-60%, главное же изменение в смене акцента аудитории на руководителей и управлении данными.

Ссылки:
[1] https://www.amazon.com/Informed-Company-Modern-Winning-Insights-ebook-dp-B09K5ZMDDN/dp/B09K5ZMDDN/
[2] https://future.a16z.com/emerging-architectures-modern-data-infrastructure/
[3] https://dataschool.com/

#data #datamanagement #books #reviews

08:21пожаловаться #14

Минцифры РФ проведет дополнительное тестирование портала "Госуслуг" в связи со сбоем в сроках COVID-сертификатов и QR-кодов — глава ведомства Шадаев

11:16пожаловаться #15

Как-то я всё больше и больше и говорю про приватность, а не про открытость. Но что это означает? Нужно больше откртытых данных по теме приватности! Присоединяйтесь сегодня в 19 часов к голосовому чату на @GDPRru

12:49пожаловаться #16

#events #privacy #radiogroot

Когда: 09 ноября 19:00(мск)
Где: голосовой чат в канале Privacy GDPR Russia
Тема: RadioGroot. Privacy поболтушки
В гостях: Иван Бегтин
Кто: Автор канала про большие данные и приватность
Организатор: RPPA
Язык: русский
Стоимость: бесплатно
Подробности: заходи в канал

🗓 Добавить в календарь

💬Оставляй вопросы спикеру здесь⬇️⬇️⬇️

12:49пожаловаться #17

В рубрике инструментов работы с данными, об инструментах с открытым кодом для работы над качеством данных.

- OpenRefine - инструмент для ручной/автоматизированной очистки наборов данных. Работает преобразуя их в плоские таблицы, поддерживает Excel/CSV/JSON/JSON lines и другие форматы. Позволяет проводить довольно гибкие преобразования по отдельным колонкам. Основан на продукте Google Refine, когда-то переданным компанией в open source.
- Great Expectations - "Большие ожидания", библиотека для языка Python, одна из наиболее активно используемых для автоматической валидации значений в наборах данных, потоках данных, data pipelines и не только.
- Soda-SQL - инструмент с открытым кодом для создания метрик и тестирования данных в SQL базах данных. Поддерживает несколько SQL баз данных и несколько базовых видов/типов полей. Умеет анализировать данные в СУБД и на основе этого рекомендовать автоматизированные тесты.
- Re-data - инструмент подсчёта метрик и проверки качества данных в SQL базах данных. Включает возможность активного мониторинга данных.
- ODD Platform - Open Data Discovery Platform, включает механизмы проверки качества данных, а сама платформа делается на основе ODD Spec спецификации описания метаданных. Здесь Open Data Discovery - это [Open] [Data Discovery], не открытые данные, а открытое обнаружение данных.
—
Я от себя добавлю что часто инструменты контроля качества данных сильно замедляют работу с данными если они не оптимизированы. К примеру Soda-SQL и Great Expectations, скажем так, имеют большие возможности по их ускорению, потому про по умолчанию заложенные там проверки через регулярные выражения можно сильно оптимизировать. К примеру, решая похожие задачи по классификации данных в DataCrafter'е, могу сказать что там вообще нет регулярных выражений, но и нет жесткой закодированности идентифицирующих типы данных правил. Вместо них некий аналог RegExp'ов работающий многократно быстрее.

Много лет назад я подумывал написать свой движок для обработки регулярных выражений в контексте, оптимизированный под результаты предыдущих сравнений. К примеру, у тебя есть несколько тысяч регулярных выражений на соответствие которым надо проверить конкретную строку/текст. Как сделать это быстро? Идеальный сценарий - индекс построенный по этим регулярным выражениям и построение конечного автомата по проверке, неидеальный сценарий - хотя бы зависимости между регулярными выражениями и автоматический отсев каких-то сравнений после других сравнений (кривой аналог построения индекса, на самом деле).

В частных случаях задача решается. Лично я её решал и решил для сравнений связанных с датами и строками размера до 50 символов довольно грубым способом на 50% состоящим из замены регулярных выражений на их сборный конструктор-аналог и на 50% заменой индекса на код по предпроцессингу входящего потока. Результаты 3 года назад опубликовал в виде библиотеки для Python qddate, там не все наработки, но значительная часть по распознаванию дат в любых форматах. Поэтому можно ли ускорить проверку качества данных и расчёт метрик по миллиардам записей в базах данных? Конечно можно и значительно!

#opendata #metadata #dataquality #datatools #tools

13:37пожаловаться #18

Center for Security and Emerging Technology

Информационная прозрачность Китая (тюлевая занавеска) и России (ночные шторы).
В новом отчете американского Центра кибербезопасности и новых технологий "Запряженная молния: Как китайские военные осваивают искусственный интеллект" немало интересного.
Меня же поразило то, что он дает простую и наглядную возможность сравнить Россию и Китай по уровню информационной прозрачности и открытости.
Если в качестве критерия сравнения взять закупки военных, то результат получается поразительный. Это все равно что сравнивать прозрачность тюлевой занавески (у Китая) и ночных штор для спальни (у России).

В России закупки Минобороны (а также ФСБ и СВР) уже несколько лет, так сказать, привилегированные - на сайте Госзакупок они о своих тратах не отчитываются. А с 2022 станут также закрытыми закупки Росгвардии и ФСО.

В Китае открыто публикуются данные о всех закупках армии и военных госпредприятий: от сидений для унитазов до ударных военных беспилотников. Состав публикуемых данных отличается в зависимости от категории закупок:
• Для категории “public” (таких примерно 75%) публикуется: что закупается и сколько, подразделение-покупатель, для кого закупает, бюджет проекта, тендерное агентство, победитель тендера.
• Для категории “confidential” (таких примерно 22%) не указывается бюджет, а для категории “secret” (таких примерно 3%) еще и для кого закупается.

Другой печальный сюрприз отличий военных закупок Китая и России – состав поставщиков.
• В Китае 61% поставщиков – частные компании, 25% - госпредприятия и их дочки, 9% университеты, 2% - предприятия Академии наук и 3% - прочие.
• В России предположите сами (как пишет Коммерсантъ – «значительная их часть находится в госсобственности»).

Вы, наверное, думали, что с этим делом у Китая, примерно, как в России.
А оказалось, примерно, как в США.
Отчет: https://cset.georgetown.edu/publication/harnessed-lightning/
#Китай

Harnessed Lightning - Center for Security and Emerging Technology

This report examines nearly 350 artificial intelligence-related equipment contracts awarded by the People’s Liberation Army and state-owned defense enterprises in 2020 to assess how the Chinese military is adopting AI. The report identifies China’s key AI defense industry suppliers, highlights gaps in U.S. export control policies, and contextualizes the PLA’s AI investments within China’s broader strategy to compete militarily with the United States.

Aleksey KBAKBA@ in Чат к каналу @begtin

14:16пожаловаться #19

спасибо