Телеграмм чат группы mlbootcamp страница 13323

пока свои сорцы раскрывать все не хочу, ждёмс организаторов

но вот что могу пошарить, так это пост-процессинг который так неплохо накидывает на финальные результаты

https://gist.github.com/Puzer/4c6f9701aa8617d88f10f591e5873c19

источник

01:35пожаловаться #5

P

Polosataya in ML Boot Camp Official

А я ближайших соседей так ни разу до конца и не досчитала... долго казалось

источник

01:38пожаловаться #6

P

Polosataya in ML Boot Camp Official

Dmitrii Nikitko

пока свои сорцы раскрывать все не хочу, ждёмс организаторов

но вот что могу пошарить, так это пост-процессинг который так неплохо накидывает на финальные результаты

https://gist.github.com/Puzer/4c6f9701aa8617d88f10f591e5873c19

А можешь по простому объяснить, что этот постпроцессинг делает?

источник

01:39пожаловаться #7

DN

Dmitrii Nikitko in ML Boot Camp Official

хер его знает) писалось в 3 часа ночи
я могу только предполагать
—
Основная идея:
доумножили предсказания (y_pred) которые были получены моделью (вне post-processing) на некоторые коэффициенты

мы знаем что в датасете есть дубликаты вопросов
мы знаем что одни и те же дубликаты могут быть как и в y==1 так и в y==0

соотвественно для таких дубликатов мы хотели бы откорректировать предсказания модели
так же хотели бы их откорректировать и для "near-дубликатов"

т.е. мы юзаем некое априорное знание, которого нету у модели, по сути делая корректировку "исходной" модели
almost/exact я думаю self-explanatory
В трейне есть что-то похожее ? ок, докидываем (как в позитивную, так и негативную сторону)

с knn посложнее
1) тут мы задали векторное пространтсов,
2) меру близости
3) нашли расстояние в этом прострастве до ближайшего примера для X_train[y==0] и X_train[y==0]
4) высчитали разницу расстояний

Примеры:
- если и в трейне_pos и трейне_neg есть один и тот же объект (дубликат) - разница равна нулю - пердсказания не меняются

- если это не полные дубликаты, разница будет не нулевой, вытягивает предсказания в эту сторону

источник

02:02пожаловаться #8

DN

Dmitrii Nikitko in ML Boot Camp Official

вобщем сейчас уже 2 ночи, я тоже уже не соображаю)
возможно это всё можно было сделать как-то проще

источник

02:02пожаловаться #9

MK

Mikhail Kovalchuk in ML Boot Camp Official

а без него какой скор?

источник

02:10пожаловаться #10

P

Polosataya in ML Boot Camp Official

Dmitrii Nikitko

хер его знает) писалось в 3 часа ночи
я могу только предполагать
—
Основная идея:
доумножили предсказания (y_pred) которые были получены моделью (вне post-processing) на некоторые коэффициенты

мы знаем что в датасете есть дубликаты вопросов
мы знаем что одни и те же дубликаты могут быть как и в y==1 так и в y==0

соотвественно для таких дубликатов мы хотели бы откорректировать предсказания модели
так же хотели бы их откорректировать и для "near-дубликатов"

т.е. мы юзаем некое априорное знание, которого нету у модели, по сути делая корректировку "исходной" модели
almost/exact я думаю self-explanatory
В трейне есть что-то похожее ? ок, докидываем (как в позитивную, так и негативную сторону)

с knn посложнее
1) тут мы задали векторное пространтсов,
2) меру близости
3) нашли расстояние в этом прострастве до ближайшего примера для X_train[y==0] и X_train[y==0]
4) высчитали разницу расстояний

Примеры:
- если и в трейне_pos и трейне_neg есть один и тот же объект (дубликат) - разница равна нулю - пердсказания не меняются

- если это не полные дубликаты, разница будет не нулевой, вытягивает предсказания в эту сторону

Спасибо за объяснение... я даже днем не могда додуматься, как дубликаты, кроме счетчиков использовать.

источник

02:13пожаловаться #11

AT

Alexey Tikhonov in ML Boot Camp Official

Так что там давало основные эджи ? Я что-то нарегэкспил и в логрег и 72 и всё....

источник

08:27пожаловаться #12

JS

Jury Sergeev in ML Boot Camp Official

Я ещё векторизировал одно-, би- и три-граммы, прунинг, и тфидф

источник

08:34пожаловаться #13

AT

Alexey Tikhonov in ML Boot Camp Official

А по частям есть разбивка ? Например вот именно это сразу с 70 до 75 и т.д.?

источник

08:49пожаловаться #14

SF

Sergei Fironov in ML Boot Camp Official

А результаты-то будут?

источник

09:06пожаловаться #15

SF

Sergei Fironov in ML Boot Camp Official

Или там не было прайвата и это конечные результаты?

источник

09:16пожаловаться #16

N

Noname in ML Boot Camp Official

@lperovskaya

источник

09:25пожаловаться #17

JS

Jury Sergeev in ML Boot Camp Official

Alexey Tikhonov

А по частям есть разбивка ? Например вот именно это сразу с 70 до 75 и т.д.?

ну tfidf и прочая школо-nlp дает 0.65-0.67 где-то, а вот регэкспы много докидывают, надо было еще и с дубликатами поколдовать - некогда было, ну и топики поэкстрактить, да эмеддинги кластеризовать... короче можно было много чего еще сделать

источник

09:42пожаловаться #18

Р

Роман in ML Boot Camp Official

Не использовал регэкспы вообще. Менял только настройки tfidf, и сверху lgbm.

источник

09:57пожаловаться #19

Р

Роман in ML Boot Camp Official

источник

09:58пожаловаться #20