Size: a a a

2017 November 22

С

Сергей in Train My Data
Святослав, есть мысль поменять распределение на паблике так, чтобы туда попали кусочки всех рядов. потому что, как справедливо кто-то здесь замечал, сейчас не все ряды представлены в паблике.
Как вам эта идея? Тогда любое изменение моделей будет более репрезентативно
источник

С

Сергей in Train My Data
Но разумеется делать это мы будем после фичи со списком решений, чтобы можно было посмотреть, какое прошлое решение сколько набрало баллов
источник

SI

Sviatoslav Iguana in Train My Data
По хорошему надо делать случайное меремешивание тестовой выборки, а потом уже сплит на публичную и приватную часть.
источник

С

Сергей in Train My Data
Ну тут могу поспорить. Предположим, мы случайно перемешали и в паблик попало одно значение из какого-нибудь ряда. Разве это одно значение будет репрезентативно?
источник

С

Сергей in Train My Data
отсюда и идея, что надо поровну с каждого ряда взять
источник

SI

Sviatoslav Iguana in Train My Data
Это проблема размеров датасета, а не метода.
источник

С

Сергей in Train My Data
например, по 30% от каждого ряда
источник

С

Сергей in Train My Data
ок, попало не одно, а несколько, но с совсем разных концов, например, неделя 1 и неделя 14, тоже ничего хорошего. Все-таки важно, чтобы эти точки шли подряд, мне кажется
источник

С

Сергей in Train My Data
хотя вам виднее, поэтому с вами и советуюсь)
источник

SI

Sviatoslav Iguana in Train My Data
Если они идут подряд, то это как раз меньше даёт представления о приватном скоре, чем если бы они были взяты случайно.
источник

С

Сергей in Train My Data
ну цель все-таки не узнать о приватном скоре, а сравнить свои варианты решений)
источник

SI

Sviatoslav Iguana in Train My Data
Если у участников слишком много информации о том, как разбита тестовая выборка — это очередное приглашение к злоупотреблениям.
источник

С

Сергей in Train My Data
и если все ряды будут представлены в паблике, то можно будет сравнить свои модели, изменив, допустим, только один из рядов
источник

SI

Sviatoslav Iguana in Train My Data
Ну да, 30% от каждого ряда ништяк. Просто то, что вы об этом заявляете участникам даёт способ получать информацию не только из обучающей выборки, но и с лидерборда.
источник

С

Сергей in Train My Data
не совсем понял, остальные-то данные закрыты все равно
источник

С

Сергей in Train My Data
зато можно фидбек получать от любого изменения
источник

SI

Sviatoslav Iguana in Train My Data
Ок-ок.
источник

С

Сергей in Train My Data
потому что сейчас вы, например, первый на паблике, но может у вас ряды из привата совсем плохие)
источник

SI

Sviatoslav Iguana in Train My Data
Вполне возможно.
источник

С

Сергей in Train My Data
Вот поэтому и хочется дать возможность понимать все-таки вашу позицию по всем рядам, но не по полным, а только по кусочкам
источник