Size: a a a

2017 March 20

IB

Ivan Begtin in msk.opendataday
потому что распознавание русского языка и кириллицы лучше
источник

DL

Dada Lyndell 🔪 in msk.opendataday
там в основном нормальный текст
источник

IB

Ivan Begtin in msk.opendataday
и потому что поддерживает файлы любого размера
источник

AP

Alex Popkov in msk.opendataday
Надо попробовать с бесплатной лицензией
источник

DL

Dada Lyndell 🔪 in msk.opendataday
она на мало страниц
источник

И

Иван in msk.opendataday
Dada Lyndell 🔪
она на мало страниц
Torrent-ы отменили? Попробуйте на полной версии, если заработает - ищите лицензию,а не заработает - не будете гадать. Или я один здесь такой неправильный 😐
источник

IB

Ivan Begtin in msk.opendataday
На общественное дело можно попросить бесплатно
источник

IB

Ivan Begtin in msk.opendataday
Можно как студенту часто попросить бесплатно
источник

IB

Ivan Begtin in msk.opendataday
Не обязательно быть "неправильным"
источник
2017 March 21

YN

Yaroslav Nikitenko in msk.opendataday
Alex Popkov
Можно
Это с помощью OpenStreetMap и чего ещё? Точно ли можно вытащить именно названия улиц и домов из пользовательского текста? Здорово если так. Решения существуют уже?
источник

YN

Yaroslav Nikitenko in msk.opendataday
Ещё интересная тема: есть тома этих правил землепользования и застройки. Оказывается, что в новом варианте карты немного другие, то есть фальсификация. Было бы интересно посмотреть по всем данным, хотя не уверен, что это реально.
https://m.facebook.com/story.php?story_fbid=1323012191112838&id=100002122083230
источник

И

Иван in msk.opendataday
Yaroslav Nikitenko
Это с помощью OpenStreetMap и чего ещё? Точно ли можно вытащить именно названия улиц и домов из пользовательского текста? Здорово если так. Решения существуют уже?
Мб, Яндекс геокодер, у него простое API
источник

AP

Alex Popkov in msk.opendataday
Yaroslav Nikitenko
Это с помощью OpenStreetMap и чего ещё? Точно ли можно вытащить именно названия улиц и домов из пользовательского текста? Здорово если так. Решения существуют уже?
Есть тулза Яндекс Томита. С помощью нее можно анализировать тексты на естественном языке. Вся проблема с ней в сложности настройки
источник

AK

Alexander Kukushkin in msk.opendataday
Для извлечения адреса есть https://github.com/bureaucratic-labs/natasha , смотри http://natasha.readthedocs.io/ru/latest/quickstart/
источник

DL

Dada Lyndell 🔪 in msk.opendataday
класс, спасибо
источник

AN

Alex Natekin in msk.opendataday
Йоу!
Мне тут написали ребята из "Теплицы Социальных Технологий" te-st.ru - готовят материал про ML и хотят попредсказывать пожертвования. Им это надо срочно, а у меня на этой неделе времени особо нет.

Если комуто интересно - сведу с ними и помогу отвалидировать и прокачать получающийся результат (мне кажется хреновой  затеей предсказывать на small data-е то, на что ты напрямую влияешь)
источник

AN

Alex Natekin in msk.opendataday
Тут план:
1. саггрегировать то что хочется предсказывать
2. помедитировать над графиками (наверняка там будут всплески привязываемые к внешней активности и пиару)
3. удовлетворить их любопытство и позапускать предсказания как временных рядов (и проверить)
4. придумать нормальную модель, учитывающую как можно влиять на пожертвования
+А. проверить и может быть дать конкретные рекомендации как получать больше пожертвований (вероятность капитана очевидности высока, но кто знает)
+Б. может нарыть интересных инсайтов из данных и вообще переформулировать задачу
источник

YN

Yaroslav Nikitenko in msk.opendataday
Alex Natekin
Тут план:
1. саггрегировать то что хочется предсказывать
2. помедитировать над графиками (наверняка там будут всплески привязываемые к внешней активности и пиару)
3. удовлетворить их любопытство и позапускать предсказания как временных рядов (и проверить)
4. придумать нормальную модель, учитывающую как можно влиять на пожертвования
+А. проверить и может быть дать конкретные рекомендации как получать больше пожертвований (вероятность капитана очевидности высока, но кто знает)
+Б. может нарыть интересных инсайтов из данных и вообще переформулировать задачу
Задача интересная, но не перекроют ли небольшие общие тенденции (грубо говоря, время постинга) более сильные флуктуации, связанные с самим содержанием кампании по сбору средств (насколько тема значима для аудитории - и это машина вряд ли оценит)?
источник

AN

Alex Natekin in msk.opendataday
Не знаю :)

В данных только инфа по переводам - 600 штук за год+ вида:
"04.04.2016
4,900.00
ООО НКО "Яндекс.Деньги"
Частные пожертвования"
источник

AN

Alex Natekin in msk.opendataday
сходу видно что транзакции могут неделями не идти, а потом раз - и за день куча переводов (а потом их становится все меньше и меньше). так что вероятно, правильнее оценивать скорость затухания таких всплесков (и какие параметры на них влияют)
источник