Вчера отсыпался и забыл запостить здесь наш материал по травмам участников белорусских протестов.
Про содержательную часть исследования не буду говорить, проще
прочесть то, что у нас получилось. Про то, что все это — пиздец, тоже — это и так понятно. Расскажу, как мы работали.
Первоначально у нас была только таблица по применению спецсредств — это около ста строк. Идея о том, как это визуализировать, пришла сразу: делим тело на сектора, показываем частотность попаданий на усредненном раненом, делаем визуализацию по каждому отдельно, делаем карту, которая позволяет проследить, где в дни протестов происходили самые жесткие стычки.
Сортировать повреждения по тяжести мы решили уже во время работы над первой таблицей. Для оценки мы исходили из практики российских судов по нанесению телесных повреждений — что медицинская экспертиза относит к легкому, среднему и тяжкому вреду здоровью. Конечно, мы физически не могли выдать экспертную оценку по каждой травме и не ставили перед собой такую задачу — это слишком большой объем даже для 100 случаев. Но общий подход мы взяли оттуда, плюс многие травмы были типовыми.
Примерно к середине работы над проектом мы получили нынешний архив СК. Основная инфа была в 8 таблицах районных отделов (некоторые повторялись) суммарно на 2500-3000 строк. Дополнительная сложность была в том, что каждый отдел СК вел таблицы в своем формате, и свести их оказалось не так просто.
После сведения и удаления дублей у нас осталось примерно 1500 строк. Здесь началась самая кропотливая часть работы. Каждый случай нужно было отредактировать вручную, поправить ошибки и опечатки, вытащить место происшествия, и, самое важное — вытащить из диагноза локализацию травм и оценить их степень тяжести.
Выглядит это как-то так:
строка diagnosisМножественные ушибы, кровоподтеки верхних и нижний конечностей, спины, ссадины локтевых и коленный суставов, ушиб мягких тканей темянной области, закрытая травма грудной клетки, ушиб грудной клетки.
строка injuresголова:1, грудь:1, живот:1, левое бедро:1, правое бедро:1, левая рука:1, правая рука:1, левая голень:1, правая голень:1
И так — 1500 раз. Мы не придумали, как автоматизировать эту задачу, потому что нам не на чем было обучать алгоритм. На этом этапе мы бы не справились без внешней помощи, огромное спасибо тем, кто помогал нам все это обрабатывать.
Параллельно с созданием сета Давид писал код для визуализации. Сначала я был против того, чтобы вешать интерактивную инфографику на 1300 человек на ту же страницу, что и основной текст: я думал, что это, во-первых, намертво повесит браузер, во-вторых — что отпугнет читателя и будет выглядеть некрасиво. Но вышло охуенно, а Давиду удалось это оптимизировать до того, что это за несколько секунд отрисовывалось на любом устройстве.
Ну и конечно, как и полагается любому крупному проекту, который делают раздолбаи, 30% работы были выполнены в последние 24 часа перед публикацией.
Горжусь своей работой и горжусь нашей командой. Когда-нибудь мы обязательно будем делать инфографики на более приятные темы.