Size: a a a

ML Boot Camp Official

2019 December 17

SD

Stanislav Demchenko in ML Boot Camp Official
гитхаб открой и смело иди 😈
источник

PM

Pavel Morra in ML Boot Camp Official
Иван Брагин
Не отвечают организаторы, пойду спать
+
источник

ИБ

Иван Брагин in ML Boot Camp Official
Stanislav Demchenko
гитхаб открой и смело иди 😈
Так вот по этому поводу и не отвечают
источник

PM

Pavel Morra in ML Boot Camp Official
Что там результаты?
источник

DN

Dmitrii Nikitko in ML Boot Camp Official
пока свои сорцы раскрывать все не хочу, ждёмс организаторов

но вот что могу пошарить, так это пост-процессинг который так неплохо накидывает на финальные результаты

https://gist.github.com/Puzer/4c6f9701aa8617d88f10f591e5873c19
источник

P

Polosataya in ML Boot Camp Official
А я ближайших соседей так ни разу до конца и не досчитала... долго казалось
источник

P

Polosataya in ML Boot Camp Official
Dmitrii Nikitko
пока свои сорцы раскрывать все не хочу, ждёмс организаторов

но вот что могу пошарить, так это пост-процессинг который так неплохо накидывает на финальные результаты

https://gist.github.com/Puzer/4c6f9701aa8617d88f10f591e5873c19
А можешь по простому объяснить, что этот постпроцессинг делает?
источник

DN

Dmitrii Nikitko in ML Boot Camp Official
хер его знает) писалось в 3 часа ночи
я могу только предполагать

Основная идея:
доумножили предсказания (y_pred) которые были получены моделью (вне post-processing) на некоторые коэффициенты

мы знаем что в датасете есть дубликаты вопросов
мы знаем что одни и те же дубликаты могут быть как и в y==1 так и в y==0

соотвественно для таких дубликатов мы хотели бы откорректировать предсказания модели
так же хотели бы их откорректировать и для "near-дубликатов"

т.е. мы юзаем некое априорное знание, которого нету у модели, по сути делая корректировку "исходной" модели
almost/exact я думаю self-explanatory
В трейне есть что-то похожее  ? ок, докидываем (как в позитивную, так и негативную сторону)

с knn посложнее
1) тут мы задали векторное пространтсов,
2) меру близости
3) нашли расстояние в этом прострастве до ближайшего примера для X_train[y==0] и X_train[y==0]
4) высчитали разницу расстояний

Примеры:
- если и в трейне_pos и трейне_neg есть один и тот же объект (дубликат) - разница равна нулю - пердсказания не меняются

- если это не полные дубликаты, разница будет не нулевой, вытягивает предсказания в эту сторону
источник

DN

Dmitrii Nikitko in ML Boot Camp Official
вобщем сейчас уже 2 ночи, я тоже уже не соображаю)
возможно это всё можно было сделать как-то проще
источник

MK

Mikhail Kovalchuk in ML Boot Camp Official
а без него какой скор?
источник

P

Polosataya in ML Boot Camp Official
Dmitrii Nikitko
хер его знает) писалось в 3 часа ночи
я могу только предполагать

Основная идея:
доумножили предсказания (y_pred) которые были получены моделью (вне post-processing) на некоторые коэффициенты

мы знаем что в датасете есть дубликаты вопросов
мы знаем что одни и те же дубликаты могут быть как и в y==1 так и в y==0

соотвественно для таких дубликатов мы хотели бы откорректировать предсказания модели
так же хотели бы их откорректировать и для "near-дубликатов"

т.е. мы юзаем некое априорное знание, которого нету у модели, по сути делая корректировку "исходной" модели
almost/exact я думаю self-explanatory
В трейне есть что-то похожее  ? ок, докидываем (как в позитивную, так и негативную сторону)

с knn посложнее
1) тут мы задали векторное пространтсов,
2) меру близости
3) нашли расстояние в этом прострастве до ближайшего примера для X_train[y==0] и X_train[y==0]
4) высчитали разницу расстояний

Примеры:
- если и в трейне_pos и трейне_neg есть один и тот же объект (дубликат) - разница равна нулю - пердсказания не меняются

- если это не полные дубликаты, разница будет не нулевой, вытягивает предсказания в эту сторону
Спасибо за объяснение... я даже днем не могда додуматься, как дубликаты, кроме счетчиков использовать.
источник

AT

Alexey Tikhonov in ML Boot Camp Official
Так что там давало основные эджи ? Я что-то нарегэкспил и в логрег и 72 и всё....
источник

JS

Jury Sergeev in ML Boot Camp Official
Я ещё векторизировал одно-, би- и три-граммы, прунинг, и тфидф
источник

AT

Alexey Tikhonov in ML Boot Camp Official
А по частям есть разбивка ? Например вот именно это сразу с 70 до 75 и т.д.?
источник

SF

Sergei Fironov in ML Boot Camp Official
А результаты-то будут?
источник

SF

Sergei Fironov in ML Boot Camp Official
Или там не было прайвата и это конечные результаты?
источник

N

Noname in ML Boot Camp Official
источник

JS

Jury Sergeev in ML Boot Camp Official
Alexey Tikhonov
А по частям есть разбивка ? Например вот именно это сразу с 70 до 75 и т.д.?
ну tfidf и прочая школо-nlp дает 0.65-0.67 где-то, а вот регэкспы много докидывают, надо было еще и с дубликатами поколдовать - некогда было, ну и топики поэкстрактить, да эмеддинги кластеризовать... короче можно было много чего еще сделать
источник

Р

Роман in ML Boot Camp Official
Не использовал регэкспы вообще. Менял только настройки tfidf, и сверху lgbm.
источник

Р

Роман in ML Boot Camp Official
источник