Size: a a a

2017 March 23

AK

Alexander Kukushkin in msk.opendataday
Только напишите, что в итоге получилось. Мне интересно это как пример использования natasha
источник

НК

Никита Кузнецов in msk.opendataday
Alexander Kukushkin
Только напишите, что в итоге получилось. Мне интересно это как пример использования natasha
договорились  👊
источник

НК

Никита Кузнецов in msk.opendataday
@ibegtin
наверняка слышали про https://project1917.ru
Зыгарь пообещал выложить после окончания проекта весь архив данных в виде базы)
источник
2017 March 24

IB

Ivan Begtin in msk.opendataday
@NikitaKuznetsov это отличная новость!
источник
2017 April 14

AK

Alexander Kukushkin in msk.opendataday
@NikitaKuznetsov чем история с  ПЗЗ закончилась? Я вижу прикольную карту https://www.google.com/maps/d/viewer?mid=1bY7POQZTeGehVK9eYYpY5-iSmH0&ll=55.77968943318021%2C37.58327916699227&z=11 , она какую-нибудь пользу принесла? В natasha улучшена работа с адресами, если нужно можно извлечь с точностью до домов
источник
2017 April 15

НК

Никита Кузнецов in msk.opendataday
Alexander Kukushkin
@NikitaKuznetsov чем история с  ПЗЗ закончилась? Я вижу прикольную карту https://www.google.com/maps/d/viewer?mid=1bY7POQZTeGehVK9eYYpY5-iSmH0&ll=55.77968943318021%2C37.58327916699227&z=11 , она какую-нибудь пользу принесла? В natasha улучшена работа с адресами, если нужно можно извлечь с точностью до домов
а на этой карте уже с домами, особенно это интересно видно в районе Планерной - там практически каждый дом одобрительной меткой помечен.


Что с историей:
1) история не доведена до конца из-за того, что не смог распарсить оценочно 20-30% комментариев из pdf-ки и потому никуда не пошла
2) ПЗЗ приняли, критичность мб и отпала, но довести её, конечно, надо. Оценочная аналитика намекает на вбросы
3) я делал её итеративно, что позволило подобную карту иметь уже через дня 3 после начала и последовательно обновляя её, но из-за этого страдает точность на каждом этапе (в частности, классификация этих обращений): сделал каждый этап, но шлифовать я собирался после того, как доделаю фундамент - распарсить pdf
4) не пытался привлечь ещё народ - мой косяк, для дела нужно было привлекать дополнительных людей. Но мне сильно помогли, опробовав finereader и скинув мне результаты - у меня бы до него руки не дошли. И тебе большое спасибо за natasha

# Детали

с парсингом pdf делал 3 разных подхода, каждый из которых требовал большого количества ручного труда и обработки всё новых и новых исключений
1) pdf -> txt, по тексту распарсить комментарии
2) pdf -> excel с помощью finereader (двумя частями)
3) pdf -> excel с помощью adobe acrobat (примерно по 2 тыщи страниц)

вариант 1: сложно разделить коммент от резолюции на него, в остальном норм

вариант 2: finereader вытаскивает весь текст и пытается сохранить структуру, но у него средненько получается: при том, что (по памяти) из 3 столбцов pdf он сохраняет в 15 столбцов excel, в первом столбце excel может оказать значение из третьего столбца pdf, и так часто происходит с хоть сколько-нибудь длинными комментариями. Поэтому я вытащил оттуда все строки, что выглядят корректно, добавил номера страниц к каждой строчке и "сойдёт"

но Ярослав, инициатор затеи, просил меня поднажать ещё, что с finereader'ом дальше выходило очень с трудом, поэтому переходим к варианту 3

вариант 3: acrobat хорошо сохраняет структуру, значения из одного столбца pdf оказываются в ~7 столбцах excel, их остаётся только объединить.
Однако, сохраняя максимум информации (даже картинки из pdf и отступы в тексте), имеет очень неприятный side-effect в том, что разные строчки внутри одной ячейки текста pdf оказываются на разных строках excel и нужно нащупывать, где граница между ячейками, а всё, что между - соединять. Также проблема с номерами страниц, он их игнорирует, но я попробую обогатить их из варианта 2. А также остаётся проблема с всякими объединёнными ячейками и переносами страниц


самый жизнеспособный в итоге вариант 3, сохраняет всю инфу и тд, но тоже требует ручной работы (много разнообразных исключений с первой проблемой). я его касался в последний раз 2 недели назад, прошёл большую часть, бросил из-за нехватки времени. Но постараюсь довести до конца всё же на днях по мере сил. Эту историю, к сожалению, сложно паралеллить с кем-то
источник

НК

Никита Кузнецов in msk.opendataday
источник

НК

Никита Кузнецов in msk.opendataday
я обновил гугл диск, там теперь все актуальные данные и скрипты
https://drive.google.com/open?id=0B4Q9qwNz0cETOTdCS1BrWDF5TGM

что сейчас можно сделать, если кто-то может помочь:
1) любую аналитику на данных finereader / data / 3 PZZ
например, повторяемость комментариев, подозрительное внимание к отдельным районам, поиск юридически обоснованных комментариев за или против
2) классифицировать обращения и резолюции по 3 группам: за/против/нейтрально (спецы по ML - welcome, большой простор, я ограничился быстрым простым набором ключевых фраз)
3) попробовать нанести на яндекс карты, если умеете и видите смысл: на гугл картах очень удобно размечать кучу точек: карты-создать новую-залить файл. Но страдает точность карт; возможность группировать кучу меток в одну при удалении, что не позволяет оценивать интерес к разным районам (в одной метке может быть 100 комментариев); метки одного слоя могут перекрывать метки другого слоя. Но есть возможность просматривать удобно достаточно длинные тексты по метке + разделение по слоям. На Яндексе есть Конструктор, но он позволяет только руками забивать. Плюс не знаю, что по слоям. Сайты писать не умею, отрисовать карту соответственно не смогу.
4) просто одноразовый heatmap, но нанесённый на карту, с количеством комментариев за/нейтрально/против
источник

НК

Никита Кузнецов in msk.opendataday
там ещё такое встречается:
источник

НК

Никита Кузнецов in msk.opendataday
За - 162 повтора - С пректои Правил зумлепользования и застройки ознак.. [обрезано]

Изумительное количество совпадений для такой орфографии. И ведь как размазано по страницам документа: 9092, 9638, 9646, 9664 - 9665, 9668, 9675 - 9678, 9686, 9692 - 9695
источник

НК

Никита Кузнецов in msk.opendataday
и повторов подобных дофига
причём все они одобрительные
источник

НК

Никита Кузнецов in msk.opendataday
источник

AK

Alexander Kukushkin in msk.opendataday
Мне, честно говоря, интересно только то, что касается карты и адресов: 1. В итоге адреса извлекали не наташей? 2. Зачем изначально строили карту, что ожидали на ней увидеть и что увидели?  Выделяются районы, которые голосовали одинаково: Тушино, Строгино. Это подозрительно?
источник

НК

Никита Кузнецов in msk.opendataday
1) наташей
я модифицировал под себя твой код, он есть в .ipynb по ссылке, сюда же прилагаю html версию
2) без конкретной цели, но зная, что пока не построишь - ничего не увидишь =) для меня это возможность дать каждому посмотреть, что обсуждается в его районе, например, как это сделала Meduza
а дальше нужно детальнее смотреть активистам, но до этого не дошло

https://meduza.io/feature/2017/03/24/kakie-doma-v-moskve-snesut-v-pervuyu-ochered-karta
источник

НК

Никита Кузнецов in msk.opendataday
источник
2017 April 20

M

Mariam in msk.opendataday
Всем привет! @xiunja подскажите, пожалуйста, ожидается ли еще презентация Петра Ермакова про данные hh?
источник

KO

Ksenija V. Orlova in msk.opendataday
Mariam
Всем привет! @xiunja подскажите, пожалуйста, ожидается ли еще презентация Петра Ермакова про данные hh?
Привет! Напомнила ему еще раз. Но пока ответа не было, увы.
источник

M

Mariam in msk.opendataday
Поняла, спасибо! Может кто знает: меня интересует, можно ли как-то заполучить исторические данные с hh. Никто о таком не слышал?
источник
2017 April 21

YN

Yaroslav Nikitenko in msk.opendataday
Никита Кузнецов
а на этой карте уже с домами, особенно это интересно видно в районе Планерной - там практически каждый дом одобрительной меткой помечен.


Что с историей:
1) история не доведена до конца из-за того, что не смог распарсить оценочно 20-30% комментариев из pdf-ки и потому никуда не пошла
2) ПЗЗ приняли, критичность мб и отпала, но довести её, конечно, надо. Оценочная аналитика намекает на вбросы
3) я делал её итеративно, что позволило подобную карту иметь уже через дня 3 после начала и последовательно обновляя её, но из-за этого страдает точность на каждом этапе (в частности, классификация этих обращений): сделал каждый этап, но шлифовать я собирался после того, как доделаю фундамент - распарсить pdf
4) не пытался привлечь ещё народ - мой косяк, для дела нужно было привлекать дополнительных людей. Но мне сильно помогли, опробовав finereader и скинув мне результаты - у меня бы до него руки не дошли. И тебе большое спасибо за natasha

# Детали

с парсингом pdf делал 3 разных подхода, каждый из которых требовал большого количества ручного труда и обработки всё новых и новых исключений
1) pdf -> txt, по тексту распарсить комментарии
2) pdf -> excel с помощью finereader (двумя частями)
3) pdf -> excel с помощью adobe acrobat (примерно по 2 тыщи страниц)

вариант 1: сложно разделить коммент от резолюции на него, в остальном норм

вариант 2: finereader вытаскивает весь текст и пытается сохранить структуру, но у него средненько получается: при том, что (по памяти) из 3 столбцов pdf он сохраняет в 15 столбцов excel, в первом столбце excel может оказать значение из третьего столбца pdf, и так часто происходит с хоть сколько-нибудь длинными комментариями. Поэтому я вытащил оттуда все строки, что выглядят корректно, добавил номера страниц к каждой строчке и "сойдёт"

но Ярослав, инициатор затеи, просил меня поднажать ещё, что с finereader'ом дальше выходило очень с трудом, поэтому переходим к варианту 3

вариант 3: acrobat хорошо сохраняет структуру, значения из одного столбца pdf оказываются в ~7 столбцах excel, их остаётся только объединить.
Однако, сохраняя максимум информации (даже картинки из pdf и отступы в тексте), имеет очень неприятный side-effect в том, что разные строчки внутри одной ячейки текста pdf оказываются на разных строках excel и нужно нащупывать, где граница между ячейками, а всё, что между - соединять. Также проблема с номерами страниц, он их игнорирует, но я попробую обогатить их из варианта 2. А также остаётся проблема с всякими объединёнными ячейками и переносами страниц


самый жизнеспособный в итоге вариант 3, сохраняет всю инфу и тд, но тоже требует ручной работы (много разнообразных исключений с первой проблемой). я его касался в последний раз 2 недели назад, прошёл большую часть, бросил из-за нехватки времени. Но постараюсь довести до конца всё же на днях по мере сил. Эту историю, к сожалению, сложно паралеллить с кем-то
Привет! Огромное спасибо за труд!
1) Поскольку ты его главный двигатель, то смотри сам, что можно, что нет.
Я просто подошёл несколько критично, чтобы потом у других не возникли претензии - я как раз понимаю, что это огромный труд, поэтому пытаюсь следить за деталями. Можно не всё парсить, но тогда оценить погрешность, например.
2) у меня 27.04 экзамен по ML, есть шанс, что я чему-то научусь) Но пока времени не было ни на что по этой задаче. (
3) кто-то убедительный и официальный может спросить у них исходник? Может, дадут?)
источник
2017 May 03

A

ApexFree in msk.opendataday
Maxim Dubinin
эмм, прямо тут?
А вы гео плотно занимаетесь?
источник