Телеграмм чат группы mskopendataday страница 27

@NikitaKuznetsov чем история с ПЗЗ закончилась? Я вижу прикольную карту https://www.google.com/maps/d/viewer?mid=1bY7POQZTeGehVK9eYYpY5-iSmH0&ll=55.77968943318021%2C37.58327916699227&z=11 , она какую-нибудь пользу принесла? В natasha улучшена работа с адресами, если нужно можно извлечь с точностью до домов

источник

23:50пожаловаться #5

2017 April 15

НК

Никита Кузнецов in msk.opendataday

Alexander Kukushkin

@NikitaKuznetsov чем история с ПЗЗ закончилась? Я вижу прикольную карту https://www.google.com/maps/d/viewer?mid=1bY7POQZTeGehVK9eYYpY5-iSmH0&ll=55.77968943318021%2C37.58327916699227&z=11 , она какую-нибудь пользу принесла? В natasha улучшена работа с адресами, если нужно можно извлечь с точностью до домов

а на этой карте уже с домами, особенно это интересно видно в районе Планерной - там практически каждый дом одобрительной меткой помечен.

Что с историей:
1) история не доведена до конца из-за того, что не смог распарсить оценочно 20-30% комментариев из pdf-ки и потому никуда не пошла
2) ПЗЗ приняли, критичность мб и отпала, но довести её, конечно, надо. Оценочная аналитика намекает на вбросы
3) я делал её итеративно, что позволило подобную карту иметь уже через дня 3 после начала и последовательно обновляя её, но из-за этого страдает точность на каждом этапе (в частности, классификация этих обращений): сделал каждый этап, но шлифовать я собирался после того, как доделаю фундамент - распарсить pdf
4) не пытался привлечь ещё народ - мой косяк, для дела нужно было привлекать дополнительных людей. Но мне сильно помогли, опробовав finereader и скинув мне результаты - у меня бы до него руки не дошли. И тебе большое спасибо за natasha

# Детали

с парсингом pdf делал 3 разных подхода, каждый из которых требовал большого количества ручного труда и обработки всё новых и новых исключений
1) pdf -> txt, по тексту распарсить комментарии
2) pdf -> excel с помощью finereader (двумя частями)
3) pdf -> excel с помощью adobe acrobat (примерно по 2 тыщи страниц)

вариант 1: сложно разделить коммент от резолюции на него, в остальном норм

вариант 2: finereader вытаскивает весь текст и пытается сохранить структуру, но у него средненько получается: при том, что (по памяти) из 3 столбцов pdf он сохраняет в 15 столбцов excel, в первом столбце excel может оказать значение из третьего столбца pdf, и так часто происходит с хоть сколько-нибудь длинными комментариями. Поэтому я вытащил оттуда все строки, что выглядят корректно, добавил номера страниц к каждой строчке и "сойдёт"

но Ярослав, инициатор затеи, просил меня поднажать ещё, что с finereader'ом дальше выходило очень с трудом, поэтому переходим к варианту 3

вариант 3: acrobat хорошо сохраняет структуру, значения из одного столбца pdf оказываются в ~7 столбцах excel, их остаётся только объединить.
Однако, сохраняя максимум информации (даже картинки из pdf и отступы в тексте), имеет очень неприятный side-effect в том, что разные строчки внутри одной ячейки текста pdf оказываются на разных строках excel и нужно нащупывать, где граница между ячейками, а всё, что между - соединять. Также проблема с номерами страниц, он их игнорирует, но я попробую обогатить их из варианта 2. А также остаётся проблема с всякими объединёнными ячейками и переносами страниц

самый жизнеспособный в итоге вариант 3, сохраняет всю инфу и тд, но тоже требует ручной работы (много разнообразных исключений с первой проблемой). я его касался в последний раз 2 недели назад, прошёл большую часть, бросил из-за нехватки времени. Но постараюсь довести до конца всё же на днях по мере сил. Эту историю, к сожалению, сложно паралеллить с кем-то

источник

01:04пожаловаться #6

НК

Никита Кузнецов in msk.opendataday

НК

Никита Кузнецов in msk.opendataday

я обновил гугл диск, там теперь все актуальные данные и скрипты
https://drive.google.com/open?id=0B4Q9qwNz0cETOTdCS1BrWDF5TGM

что сейчас можно сделать, если кто-то может помочь:
1) любую аналитику на данных finereader / data / 3 PZZ
например, повторяемость комментариев, подозрительное внимание к отдельным районам, поиск юридически обоснованных комментариев за или против
2) классифицировать обращения и резолюции по 3 группам: за/против/нейтрально (спецы по ML - welcome, большой простор, я ограничился быстрым простым набором ключевых фраз)
3) попробовать нанести на яндекс карты, если умеете и видите смысл: на гугл картах очень удобно размечать кучу точек: карты-создать новую-залить файл. Но страдает точность карт; возможность группировать кучу меток в одну при удалении, что не позволяет оценивать интерес к разным районам (в одной метке может быть 100 комментариев); метки одного слоя могут перекрывать метки другого слоя. Но есть возможность просматривать удобно достаточно длинные тексты по метке + разделение по слоям. На Яндексе есть Конструктор, но он позволяет только руками забивать. Плюс не знаю, что по слоям. Сайты писать не умею, отрисовать карту соответственно не смогу.
4) просто одноразовый heatmap, но нанесённый на карту, с количеством комментариев за/нейтрально/против

источник

01:11пожаловаться #8

НК

Никита Кузнецов in msk.opendataday

там ещё такое встречается:

источник

01:30пожаловаться #9

НК

Никита Кузнецов in msk.opendataday

За - 162 повтора - С пректои Правил зумлепользования и застройки ознак.. [обрезано]

Изумительное количество совпадений для такой орфографии. И ведь как размазано по страницам документа: 9092, 9638, 9646, 9664 - 9665, 9668, 9675 - 9678, 9686, 9692 - 9695

источник

01:30пожаловаться #10

НК

Никита Кузнецов in msk.opendataday

и повторов подобных дофига
причём все они одобрительные

источник

01:31пожаловаться #11

НК

Никита Кузнецов in msk.opendataday

источник

01:31пожаловаться #12

AK

Alexander Kukushkin in msk.opendataday

Мне, честно говоря, интересно только то, что касается карты и адресов: 1. В итоге адреса извлекали не наташей? 2. Зачем изначально строили карту, что ожидали на ней увидеть и что увидели? Выделяются районы, которые голосовали одинаково: Тушино, Строгино. Это подозрительно?

источник

13:48пожаловаться #13

НК

Никита Кузнецов in msk.opendataday

1) наташей
я модифицировал под себя твой код, он есть в .ipynb по ссылке, сюда же прилагаю html версию
2) без конкретной цели, но зная, что пока не построишь - ничего не увидишь =) для меня это возможность дать каждому посмотреть, что обсуждается в его районе, например, как это сделала Meduza
а дальше нужно детальнее смотреть активистам, но до этого не дошло

https://meduza.io/feature/2017/03/24/kakie-doma-v-moskve-snesut-v-pervuyu-ochered-karta

Meduza

Какие дома в Москве снесут в первую очередь? Карта

Комиссия Мосгордумы по градостроительству назвала серии домов, с которых начнется снос пятиэтажек в Москве. В первую очередь, московские власти решили переселить всех, кто живет в домах серий I-510, I-511 и I-515. «Медуза» отметила на карте Москвы все дома из этих серий.

источник

14:04пожаловаться #14

НК

Никита Кузнецов in msk.opendataday

3+add+coordinates.html

(410.97 Кб)

источник

14:04пожаловаться #15

2017 April 20

M

Mariam in msk.opendataday

Всем привет! @xiunja подскажите, пожалуйста, ожидается ли еще презентация Петра Ермакова про данные hh?

источник

10:08пожаловаться #16

KO

Ksenija V. Orlova in msk.opendataday

Mariam

Всем привет! @xiunja подскажите, пожалуйста, ожидается ли еще презентация Петра Ермакова про данные hh?

Привет! Напомнила ему еще раз. Но пока ответа не было, увы.

источник

10:10пожаловаться #17

M

Mariam in msk.opendataday

Поняла, спасибо! Может кто знает: меня интересует, можно ли как-то заполучить исторические данные с hh. Никто о таком не слышал?

источник

10:14пожаловаться #18

2017 April 21

YN

Yaroslav Nikitenko in msk.opendataday

Никита Кузнецов

а на этой карте уже с домами, особенно это интересно видно в районе Планерной - там практически каждый дом одобрительной меткой помечен.

Что с историей:
1) история не доведена до конца из-за того, что не смог распарсить оценочно 20-30% комментариев из pdf-ки и потому никуда не пошла
2) ПЗЗ приняли, критичность мб и отпала, но довести её, конечно, надо. Оценочная аналитика намекает на вбросы
3) я делал её итеративно, что позволило подобную карту иметь уже через дня 3 после начала и последовательно обновляя её, но из-за этого страдает точность на каждом этапе (в частности, классификация этих обращений): сделал каждый этап, но шлифовать я собирался после того, как доделаю фундамент - распарсить pdf
4) не пытался привлечь ещё народ - мой косяк, для дела нужно было привлекать дополнительных людей. Но мне сильно помогли, опробовав finereader и скинув мне результаты - у меня бы до него руки не дошли. И тебе большое спасибо за natasha

# Детали

с парсингом pdf делал 3 разных подхода, каждый из которых требовал большого количества ручного труда и обработки всё новых и новых исключений
1) pdf -> txt, по тексту распарсить комментарии
2) pdf -> excel с помощью finereader (двумя частями)
3) pdf -> excel с помощью adobe acrobat (примерно по 2 тыщи страниц)

вариант 1: сложно разделить коммент от резолюции на него, в остальном норм

вариант 2: finereader вытаскивает весь текст и пытается сохранить структуру, но у него средненько получается: при том, что (по памяти) из 3 столбцов pdf он сохраняет в 15 столбцов excel, в первом столбце excel может оказать значение из третьего столбца pdf, и так часто происходит с хоть сколько-нибудь длинными комментариями. Поэтому я вытащил оттуда все строки, что выглядят корректно, добавил номера страниц к каждой строчке и "сойдёт"

но Ярослав, инициатор затеи, просил меня поднажать ещё, что с finereader'ом дальше выходило очень с трудом, поэтому переходим к варианту 3

вариант 3: acrobat хорошо сохраняет структуру, значения из одного столбца pdf оказываются в ~7 столбцах excel, их остаётся только объединить.
Однако, сохраняя максимум информации (даже картинки из pdf и отступы в тексте), имеет очень неприятный side-effect в том, что разные строчки внутри одной ячейки текста pdf оказываются на разных строках excel и нужно нащупывать, где граница между ячейками, а всё, что между - соединять. Также проблема с номерами страниц, он их игнорирует, но я попробую обогатить их из варианта 2. А также остаётся проблема с всякими объединёнными ячейками и переносами страниц

самый жизнеспособный в итоге вариант 3, сохраняет всю инфу и тд, но тоже требует ручной работы (много разнообразных исключений с первой проблемой). я его касался в последний раз 2 недели назад, прошёл большую часть, бросил из-за нехватки времени. Но постараюсь довести до конца всё же на днях по мере сил. Эту историю, к сожалению, сложно паралеллить с кем-то

Привет! Огромное спасибо за труд!
1) Поскольку ты его главный двигатель, то смотри сам, что можно, что нет.
Я просто подошёл несколько критично, чтобы потом у других не возникли претензии - я как раз понимаю, что это огромный труд, поэтому пытаюсь следить за деталями. Можно не всё парсить, но тогда оценить погрешность, например.
2) у меня 27.04 экзамен по ML, есть шанс, что я чему-то научусь) Но пока времени не было ни на что по этой задаче. (
3) кто-то убедительный и официальный может спросить у них исходник? Может, дадут?)

источник

01:29пожаловаться #19

2017 May 03

A

ApexFree in msk.opendataday

Maxim Dubinin

эмм, прямо тут?

А вы гео плотно занимаетесь?

источник

21:13пожаловаться #20