Size: a a a

спбгеотех

2021 July 12

EK

Eduard Kazakov in спбгеотех
Первый доклад: Михаил Сарафанов про автоматическое заполнение пропущенных значений в рядах гидрометеорологических наблюдений
источник

EK

Eduard Kazakov in спбгеотех
Постановка задачи: "дырки в данных" это обычное дело, причин десятки, от облачности (для ДЗЗ) до поломки измерительного прибора
источник

NN

Nikolay Nikitin in спбгеотех
источник

EK

Eduard Kazakov in спбгеотех
Есть простые методы: например, заполнить все пропуски константой или статистикой (средней, модой, медианой).
источник

EK

Eduard Kazakov in спбгеотех
Для категориальных признаков самое простое - заполнять просто наиболее часто встречающимся классом
источник

EK

Eduard Kazakov in спбгеотех
Чуть-чуть сложнее:
источник

EK

Eduard Kazakov in спбгеотех
В целом про восстановление: часто смущает, что восстановленные данные выглядят слишком искусственными, поэтому иногда специально вносят шум.
источник

EK

Eduard Kazakov in спбгеотех
Столь простые методы в большей части задач не годятся. Поэтому поищем что-то похитрее
источник

EK

Eduard Kazakov in спбгеотех
источник

EK

Eduard Kazakov in спбгеотех
Визуализации для базовых интерполяционных методов
источник

EK

Eduard Kazakov in спбгеотех
Итеративное прогнозирование. Восстановленные данные итеративно начинают использоваться для моделирование следующих пропусков
источник

EK

Eduard Kazakov in спбгеотех
Задача: предсказать последовательность значений на основании того, что наблюдалась в прошлом. Ключевое здесь: время и история наблюдений
источник

EK

Eduard Kazakov in спбгеотех
Список популярных подходов к прогнозированию временных рядов
источник

EK

Eduard Kazakov in спбгеотех
Такие алгоритмы всегда комплексные и включают множество этапов (от подготовки до валидации). Отдельные кусочки собирают в цепочки (pipelines)
источник

EK

Eduard Kazakov in спбгеотех
Машинное обучение работает на таблицах, а как быть с временным рядом? Его тоже раскладывают в специальную таблицу
источник

EK

Eduard Kazakov in спбгеотех
Количество предикторов (красных точек, по которым предсказывается значение синей) - это гиперпараметр, который можно подбирать, и сам этот процесс разложения включать как узел в любую цепочку
источник

EK

Eduard Kazakov in спбгеотех
Предлагается автоматический механизм поиска структур таких цепочек, с помощью эволюционных алгоритмов
источник

EK

Eduard Kazakov in спбгеотех
*В презентации наглядные анимации процесса поиска структуры цепочки"
источник

EK

Eduard Kazakov in спбгеотех
После подбора структуры цепочки, на всех её узлах определяются оптимальные значения гиперпараметров
источник

EK

Eduard Kazakov in спбгеотех
Но задача заполнения пропусков не эквивалентна задаче прогнозирования по временому ряду, ведь есть данные где-то спереди, после пропуска, и не охота их терять. Возникает концепт двустороннего прогнозирования
источник