Size: a a a

2017 November 22

SI

Sviatoslav Iguana in Train My Data
Я за случайное перемешивание перед сплитом.
источник

PF

Pavel Filatov in Train My Data
Ряды на то и ряды, чтобы учиться, разбивать и предсказывать на рядах, а не случайных значениях
источник

С

Сергей in Train My Data
вот тоже сколняюсь все-таки к тому, что должна быть последовательность.
источник

SI

Sviatoslav Iguana in Train My Data
Ну как хотите.
источник

шк

шанэль #4 каюмов in Train My Data
тогда есть два варианта деления: одни ряды в одной выборке, другие в другой. либо же по времени отрезать (сначала паблик, потом приват).
источник

С

Сергей in Train My Data
Ну вот фактически сейчас первый вариант, как вы уже успели заметить)
И думаем перейти на второй, чтобы в паблик попали все-таки все ряды
источник

SI

Sviatoslav Iguana in Train My Data
Pavel Filatov
Ряды на то и ряды, чтобы учиться, разбивать и предсказывать на рядах, а не случайных значениях
Представьте, что у вас есть набор значений и вы хотите знать среднее не обсчитывая все. В каком случае результат будет надёжнее, если вы возьмёте случайные значения или несколько подряд?
источник

SI

Sviatoslav Iguana in Train My Data
Что, если порядок значений не случайный и подряд попадутся только все малые числа?
источник

SI

Sviatoslav Iguana in Train My Data
Кстати, когда примерно планируется выкатить обновление?
источник

С

Сергей in Train My Data
Я надеюсь, что в начале следующей недели уже будет доступен список)
источник

SI

Sviatoslav Iguana in Train My Data
Шик.
источник

PF

Pavel Filatov in Train My Data
Sviatoslav Iguana
Что, если порядок значений не случайный и подряд попадутся только все малые числа?
Конечно же не случайный
источник

PF

Pavel Filatov in Train My Data
Предполагается, что в рядах нынешнее значение зависит от предыдущих
источник

PF

Pavel Filatov in Train My Data
Поэтому разрывать таким образом связь между значениями не стоит
источник

SI

Sviatoslav Iguana in Train My Data
Если вы умеете предсказывать эти шальные пики на 5000000 единиц товара, то конечно не стоит.
источник

AB

Andrei Babenko in Train My Data
Определённо надо мешать случайно. Может быть стратифаем по номеру филиала, канала, етц
источник

N

Nikolay in Train My Data
Так связь и не разрывается.
Ты предсказываешь ряд целиком, потом из него берутся значения и рандомно бьются на паблик/прайват.
Это влияет только на отображение результатов
источник

N

Nikolay in Train My Data
И если ты в целом збс предсказал, то и значения в рандомных точках этого ряда будут близки к истине
источник

SI

Sviatoslav Iguana in Train My Data
Если у нас идут значения подряд, то варианты такие:
1. в паблик попадает пара шальных пиков продаж, локальная валидация говорит одно, лидерборд что-то совсем другое.
2. в паблике самый предсказуемый период, а в прайвате ещё несколько шальных пиков, все радуются адекватному лидерборду, а потом получают результаты лотереи
3. всё тихо спокойно в обеих частях, все молодцы.
источник

SI

Sviatoslav Iguana in Train My Data
Ну ещё вариант с пиками в обеих частях, тогда вообще все оценки не сходятся.
источник