Size: a a a

Инфокультура

2021 March 29
Инфокультура
Алексей Лукацкий проверил регуляторные документы по инфобезу через наш сервис Простой язык [1] и отметил наиболее сложную нормативку. А я со своей стороны расскажу что когда-то простой русский язык я сделал после того как потратил несколько месяцев на то чтобы адаптировать формулы английского языка под русский. Это было непросто и делал я это, Вы не поверите, брут-форсным перебором нескольких миллионов комбинаций коэффициентов.

Потому что самое главное в этих формулах - это привязка значений к годам обучения. Если формула выдаёт 10 - это означает что 10 лет надо учиться чтобы понять этот текст (примерно 9-11 классы школы), а сложность в 18 означает что учиться надо 18 лет (а то есть 11 классов школы + 5 лет ВУЗа + ещё чему-то, например, в аспирантуре) ну и так далее.

Дело в том что формулы читабельности основаны на нескольких параметрах сложности текста таких как:
- среднее число слов на предложение
- среднее число слогов в словах
- среднее число слогов на предложение
- число сложных слов на предложение
и так далее.

Есть корреляция между сложностью текста и этими и другими параметрами, но как эту корреляцию переложить в формулу? И вот для этого я собирал кучу текстов для внеклассного чтения где были рекомендации для возраста и адаптировал формулы под поиск наименьшего среднего отклонения и наименьшего максимального отклонения. Иначе говоря, если если коэффициенты у формулы должны давать результат при котором максимально допустимое отклонение в оценки сложности текста не более 2, то есть если текст для внеклассного чтения для 9-го класса то алгоритм не может ошибаться в его отношении в пределах 9-11, но не более. А среднее отклонение по всей обучающей выборке должно быть как можно ниже.

Дальше чтобы не вдаваться в сложную математику я просто перебрал все коэффициенты с шагом в 0.01 для всех формул и это заняло около месяца на нескольких домашних компьютерах.
Самой точной оказывалась формула SMOG (Simple Measure of Gobbledygook) с адаптированными коэффициентами поэтому она и является базовой в оценке plainrussian.ru.

Всё это было более 7 лет назад, сам код можно увидеть по ссылке на Github [2]. Сейчас его надо переработать чтобы лучше учитывать определение предложений, лучше понимать бюрократические тексты (нужна отдельная шкала) и ещё многое другое до чего постепенно "доходят руки".

Ссылки:
[1] https://plainrussian.ru
[2] https://github.com/infoculture/plainrussian

#plainlanguage #plainrussian
источник
Инфокультура
Математическая оценка качества и читабельности нормативно-правовых актов регуляторов - https://t.co/KI0QJtAQAJ
— Alexey Lukatsky (@alukatsky) March 29, 2021
источник
2021 April 02
Инфокультура
1 апреля в силу вступил закон о предустановке российского софта. Производители мобильных устройств по-разному трактовали новые требования, и о том, что это значит, как дальше действовать и какие у этого могут быть последствия, читайте в обзоре Ивана Бегтина «Предустановка отечественного ПО или кто следит за нами».

Напомним, что ранее мы исследовали приватность государственных мобильных приложений в России. Подробные выводы исследования и рекомендации для органов власти, регуляторов и органов контроля, надзора и аудита читайте на сайте: https://privacygosmobapps.infoculture.ru.
источник
Инфокультура
В продолжение про трекеры в приложениях обязательных к предустановке:
1. Если для кого-то было сюрпризом, то я, если что, предупреждал об этом ещё 2 месяца назад что к 1 апреля я (или не я, а кто-то), но такой анализ будет проведён. Вот он и был проведён и все были предупреждены;)
2. Из разработчиков приложений отреагировали только из Яндекс.Браузера что там нет пары трекеров InMobi и Flurry и это ошибка в Exodus Privacy. Такое возможно, и сервис мог ошибится в идентификации, а на самом деле это Facebook Analytics. Кардинально это ситуацию не меняет.
3. Да, наличие кода SDK не даёт гарантии что данные передаются, а только указывают на принципиальную возможность и наличие кода для этого. Но, надо понимать, что реально передаётся больше данных. Потому что статический анализ кода не учитывает код написанный разработчиками без SDK и не учитывает то какие данные и в каком объме собираются самим владельцем приложения. Иначе говоря, наличие кода SDK из рынка AdTech - это достаточный повод чтобы "подозревать разработчика приложения во всех грехах связанных с возможным применением этого кода".

А в остальном я ещё раз хочу повторить мысль. Пока предустановка приложений не была обязательной, то что пользователь ставит себе на телефон - это его ответственность. А с того момента как список приложений был определён - это ответственность Минцифры и Правительства РФ которые всё это регулирование ввели. А ведь можно было бы сделать всё совсем по другому, но решили так поддержать мировый рынок AdTech. Почему бы и нет, в самом деле, ведь у нас "люди - это новая нефть" (иронично).

#privacy #mobileapps
источник
2021 April 07
Инфокультура
Регулярные напоминания

Я время от времени, по мере роста числа подписчиков, напоминаю о проектах которые я и моя команда ведём. Это не исчерпывающий список, а самое что ни на есть основное.

В телеграм
- @begtin - мой канал в телеграм где я пишу про данные, госданные, иногда про госфинансы и госуправление, ИТ в гос-ве и около, технологии и про госзакупки.
- @infoculture - телеграм канал АНО "Инфокультура" которое я возглавляю
- @ahminfin - телеграм канал моей коллеги, Ольги Пархимович, она ведёт разработку проекта Госрасходы (spending.gov.ru) и руководит проектом Госзатраты (clearspending.ru) и регулярно пишет о разных проблемах и достижениях профильных органов власти в этой области и про открытые данные, не только в госфинансах.

Проекты (активные)

По госфинансам
- Госрасходы (spending.gov.ru) - аналитический портал Счетной палаты РФ с анализом данных о госрасходах включая полную базу госконтрактов, субсидий (до ноября 2020 года), иных данных. С открытыми данными, API и так далее.  А также с аналитикой по нацпроектам и госпрограммам.
- Госзатраты (clearspending.ru) - изначальный общественный негосударственный проект по анализу госконтрактов созданный для Комитета Гражданских Инициатив. Сейчас поддерживается и развивается Инфокультурой. Также с открытыми данными и API.

По НКО
- Открытые НКО - портал по всем некоммерческим организациям которые существуют в России, включая данные по их контрактам, субсидиям, полученным грантам, идущим арбитражным делам и сдаваемых ими отчетам. С открытыми данными и API.
- Данные НКО - портал открытых данных созданных специально для НКО для раскрытия данных о их деятельности. На базе CKAN с открытыми данными и API.

По открытым данным
- Хаб открытых данных -  общественный портал открытых данных, включает многие данные которые мы собирали параллельно официальным порталам открытых данных. В последнее время обновляется сильно реже, давно думаем о его реорганизации. На базе CKAN с открытыми данными и API.

Другое
- Простой русский язык - простой инструмент измерения сложности текстов, выдает показатель в годах обучения. С открытым API и открытым кодом
- Национальный цифровой архив - проект по архивации веб-сайтов Рунета и иных цифровых объектов/артефактов. На практике совокупность проектов под одним брендом. С большими данными в виде дампов архивов сайтов.
- День открытых данных - ежегодное мероприятие по открытым данным в России/Москве.

Исследования
-
Приватность государственных мобильных приложений в России - о том какие трекеры в каких госприложениях.
- Open Data Review - Открытые данные в российском правовом поле: обзор лучших практик, рекомендаций и барьеров
- Оценка открытости государственных информационных систем в России - о том какие ГИС есть в России и насколько они открыты
- Открытость государства в России - ежегодный доклад Счетной палаты и ряда НКО
- Утечки данных из государственных информационных систем - о том как персональные данные утекают из государственных и регулируемых государством информационных систем

Блоги и медиа
- Блог Инфокультуры на Хабре - тексты большого формата, пишем туда нечасто, не писали много лет, но начали снова.
- Рассылка Инфокультуры - регулярные новости про открытые данные и события, и иную деятельность как нашу Инфокультуры так и партнёров. 7,5 тысяч подписчиков.
- Моя личная рассылка на Substack - я стараюсь писать туда 2-4 раза в месяц. Темы шире чем у рассылки Инфокультуры и веду я её лично, с середины прошлого года специально для лонгридов.
- Блог begtin.tech -  мой блог для публикаций "среднего размера", регулярно возвращаюсь к нему, хотя пишу даже реже чем в рассылку.

Дополнительные ресурсы
- открытый код на Github infoculture, datacoon, ruarxive, ivbeg
- открытые данные на data.world infoculture, ibegtin
- документированные госAPI на Postman infoculture-public
- профили на международном портале данных гуманитарных кризисов infoculture

#opendata #opengov
источник
2021 April 08
Инфокультура
​​🌍 В 2019 году мы провели цикл лекций «Городские данные» вместе с проектом «Инфокультура».

Все записи опубликованы в нашем журнале — в небольших 20-минутных выступлениях урбанисты, дата-журналисты и исследователи рассказывают, как использовать данные для работы с городом.

Советуем посмотреть:

→ Эдуард Хайман. «Большие данные для градостроительства».

→ Леля Жвирблис. «Как использовать данные для проектирования улиц».

→ Андрей Дорожный. «Столичный дрейф».

→ Егор Котов и Юрий Кульчицкий. «GISteria».

→ Константин Паливода. «Концептуальные трудности интерпретации даных».

#городские_данные #лекция
источник
2021 April 15
Инфокультура
Как сделать спарклайны и барчарты в ячейках в Гугл-таблицах
источник
Инфокультура
Переслано от Aleksandr Bogachev
барчики в гугл-таблицах
источник
Инфокультура
источник
2021 April 19
Инфокультура
Завтра и послезавтра пройдет "Сетевой Апрель" – ежегодная конференция Теплицы социальных технологий о новых технологиях в некоммерческом секторе. Все о технологических решениях, которые используют активисты и команды НКО, и какие вызовы это перед ними ставит. Смотрите онлайн 20 и 21 апреля! 👉 https://netapril21.te-st.ru/
источник
2021 April 22
Инфокультура
Присоединяйтесь к семинару по регуляторной реформе завтра, 23 апреля, голосовой чат Телеграм, 10.00-12.30 МСК ⬇️⬇️⬇️
источник
Инфокультура
Итоговая программа семинара по регуляторной реформе 23 апреля (голосовой чат Телеграм, 10.00-12.30 МСК).

👉 Импульсные доклады:
1) Александр Литвак (Минэкономразвития России),
2) Михаил Прядильников (АЦ при Правительстве РФ),
3) Иван Бегтин (Инфокультура @begtin),
4) Даниил Цыганков (Департамент политики и управления НИУ ВШЭ).

👉 Панель дискуссантов:
1) Алексей Ефремов (РАНХиГС),
2) Филипп Кулин (@usher2),
3) Антон Гопка (itmotech),
4) Илья Чертков (Россия без ерунды).

⚡В случае возникновения в ходе чата вопросов / технических проблем можно обращаться к одному из модераторов, Виктории Захаровой: @vctory_z
Инструкция по голосовому чату👇
источник
Инфокультура
источник
2021 April 27
Инфокультура
В июне 2021 года в Челябинске, Екатеринбурге и Перми пройдут Уральские мастерские по дата-журналистике. Приглашаем к участию практикующих журналистов и студентов ВУЗов.

За три дня участники научатся основам сбора, анализа, визуализации данных и сделают собственные дата-проекты. Навыки программирования не нужны, а вот желание узнать новые инструменты обязательно.

📅 Даты мастерских:
— Челябинск, 31 мая — 2 июня;
— Екатеринбург, 4 — 6 июня;
— Пермь, 9 — 11 июня.

Участие бесплатное, число мест ограничено. Крайний срок подачи заявок: 10 мая 2021 года.

Регистрируйтесь здесь: https://ddjural.ru
источник
2021 May 11
Инфокультура
Опубликована программа и продлен срок приема заявок на участие в Уральских мастерских дата-журналистики!
источник
Инфокультура
Программа мастерских и новый дедлайн подачи заявок

В июне в Челябинске, Екатеринбурге и Перми пройдут Уральские мастерские по дата-журналистике. Опубликована программа:

День 1
— Как создаются дата-материалы и зачем они нужны?
— Что такое данные и как их найти? Практика: отрываем датасет, скрейпим данные.
— Как придумать хорошую тему для дата-истории? Базовые операции в гугл-таблицах. Контекст данных.
— Брейншторм тем. Поиск данных и обсуждение.

День 2
— Основы статистики для журналистов. Работа в гугл-таблицах.
— Гугл-таблицы для журналистов: очистка и обработка данных.
— Визуализация данных. Теория и практика.

День 3
— Дата-сторителлинг. Упаковка проекта.
— Работа над проектами.
— Презентация проектов.

Успейте подать заявку на участие в одной из мастерских до 19 мая! Приглашаем к участию практикующих журналистов и студентов ВУЗов.

Участие бесплатное, подробности и прием заявок по ссылке: https://ddjural.ru.
источник
2021 May 25
Инфокультура
28 мая в 19:00 пройдут публичные дебаты "Тотальные данные: контроль или удобство" организованные Политехом [1]. Дебатировать буду я и исполнительный директор по исследованию данных Sber AI Михаил Степнов.

Мою позицию про приватность большинство давно знают, я её в каком-то более концентрированном виде подготовлю к дебатам.
Дебаты будут, также, транслировать на канале Политеха [2]. Не проходите мимо, приходите и смотрите.

Ссылки:
[1] https://polymus.ru/ru/museum/news/total-data/
[2] https://www.youtube.com/user/polytechnicum

#data #privacy #debates
источник
2021 May 26
Инфокультура
Уже в субботу состоится вторая конференция LAMPA по дата-журналистике. Конференция пройдёт в онлайн-формате на YouTube и Facebook.

На сайте — программа. Время — Бишкекское, для Москвы отнимите три часа:
http://lampa2021.tilda.ws/
источник
2021 May 28
Инфокультура
Сегодня в 19:00 пройдут публичные дебаты «Тотальные данные: контроль или удобство» из цикла «Большие вопросы» Политехнического музея.

Автоматизированный сбор данных, который осуществляют государства и корпорации: ведёт ли он к тотальному контролю и дискриминации или к созданию новых удобных персонифицированных сервисов? Спорить о явных и тайных угрозах и общественном и индивидуальном благе будут генеральный директор и учредитель АНО «Информационная культура» Иван Бегтин и исполнительный директор по исследованию данных Sber AI Михаил Степнов.

Трансляция дебатов пройдет на ютуб-канале Политеха: https://www.youtube.com/user/polytechnicum

Присоединяйтесь!
источник
2021 May 29
Инфокультура
Началась ежегодная конференция дата-журналистов LAMPA 2021 (https://lampa2021.tilda.ws). Подключиться к эфиру можно по ссылкам:

— Прямая трансляция на фейсбуке:

http://bit.ly/lampa2021_fb

— Прямая трансляция в ютубе:

http://bit.ly/lampa2021_yt

— Ссылка на дата-арт в ZOOM

http://bit.ly/lampa2021
источник