Size: a a a

Machine learning

2021 February 13

SS

Sergey Salnikov in Machine learning
catboost тоже может работать с nan.
если поле категориальное, то nan заполняется новым значением типа 'UNKNOWN'.
для числового - видел идею заполнять nan чем-нибудь фиксированным типа 0, с дополнительным полем - 0/1 индикацией наличия значения у исходного поля
источник

ЕО

Егор Овчинников... in Machine learning
Alexander Petrenko
Очень похоже на задачу с каггла от home credit bank. Я с ней долго маялся :)

Предсказывать не надо. Очень долго и результат не о чем вышел. Если пользуешь градиентный бустинг lighgmb / xgboost, то там не надо менять ничего. Работа с пропусками здесь большого результата не принесло мне. Лучше сгенерировать свои фичи и джойнить таблицы (там их дофига было вроде). Ну это по моему опыту:)
Она и есть))) С другими джионить не могу, ноут не позволяет 🤷🏻‍♂️
Спасибо за совет!!!Попробую!
источник

ЕО

Егор Овчинников... in Machine learning
Sergey Salnikov
catboost тоже может работать с nan.
если поле категориальное, то nan заполняется новым значением типа 'UNKNOWN'.
для числового - видел идею заполнять nan чем-нибудь фиксированным типа 0, с дополнительным полем - 0/1 индикацией наличия значения у исходного поля
Спасибо большое за совет! 🤝 Тоже буду делать!
источник

ЕО

Егор Овчинников... in Machine learning
Чинаски
Переслано от Егор Овчинников
И разве использование медианы,моды,среднего на таком количестве пропусков не отрицательно скажутся результате?
Так естественно! Поэтому вопрос и не заключался в том, чем заполнить пропуски из этих трех. Про них я ответил на предыдущее сообщение.
источник

AP

Alexander Petrenko in Machine learning
Егор Овчинников
Она и есть))) С другими джионить не могу, ноут не позволяет 🤷🏻‍♂️
Спасибо за совет!!!Попробую!
А что озу не хватает? У меня после джойна третей таблицы память забилась. В итоге засвопил до 40гб и порядок. У меня убунту, там это просто делается. Теперь на все хватает. Правда это на скорости должно сказываться, но я не заметил.
источник

ЕО

Егор Овчинников... in Machine learning
Проблема в том, что я пока что СОВСЕМ не знаю как манипулировать памятью и впринципе вычислительной мощностью для работы с относительно большими объемами данных. Так что "засвопил" для меня пока что матерное слово)
источник

ЕО

Егор Овчинников... in Machine learning
Alexander Petrenko
А что озу не хватает? У меня после джойна третей таблицы память забилась. В итоге засвопил до 40гб и порядок. У меня убунту, там это просто делается. Теперь на все хватает. Правда это на скорости должно сказываться, но я не заметил.
Если подскажешь статейку или каким запросом загуглить, буду благодарен!
источник

AP

Alexander Petrenko in Machine learning
Егор Овчинников
Если подскажешь статейку или каким запросом загуглить, буду благодарен!
Вбиваешь в Гугл убунту swap и начинаешь читать :)

Вот первая статья https://help.ubuntu.ru/wiki/swap

Но это для убунту. Если винда, то наверное там иначе
источник

ЕО

Егор Овчинников... in Machine learning
Да, я на винде
источник

AP

Alexander Petrenko in Machine learning
Егор Овчинников
Проблема в том, что я пока что СОВСЕМ не знаю как манипулировать памятью и впринципе вычислительной мощностью для работы с относительно большими объемами данных. Так что "засвопил" для меня пока что матерное слово)
Но сначала убедись что проблема в том что памяти не хватает :)
источник

AP

Alexander Petrenko in Machine learning
Егор Овчинников
Да, я на винде
Сорян:)
источник

ЕО

Егор Овчинников... in Machine learning
Теперь знаю, что есть еще пути, кроме как плать за ядра)
источник

ЕО

Егор Овчинников... in Machine learning
Спасибо
источник

MZ

Maxim Zadonskiy in Machine learning
источник

I

Ibp in Machine learning
Егор Овчинников
Она и есть))) С другими джионить не могу, ноут не позволяет 🤷🏻‍♂️
Спасибо за совет!!!Попробую!
там можно сделать так: заменить пропуски на средние значения в столбце , например, но перед этим добавить признак, сколько в каждой строке было изначально нанов суммарно
источник

ЕО

Егор Овчинников... in Machine learning
Ibp
там можно сделать так: заменить пропуски на средние значения в столбце , например, но перед этим добавить признак, сколько в каждой строке было изначально нанов суммарно
Это да, но меня беспокоит тот факт, что я сомневаюсь в замене такого количества нанов. То что вы описали нормально работает? Не влияет негативно на результат модели?
источник

i

igor in Machine learning
Вы уже спрашивали, иногда влияет иногда нет
источник

I

Ibp in Machine learning
средние значения или нули в этой задаче скорее всего не повлияют на результат, так по крайней мере пишет человек у которого лучшая модель там, а дополнительный признак можно попробовать
источник

ЕО

Егор Овчинников... in Machine learning
Хм... То есть все таки есть смысл пробовать! Спасибо! А такое можно понять только методом тыка или все-таки есть какая-то закономерность? То есть например если есть подобная ситуация но с другим сетом и стоит выбор запихнуть с нанами в модель или заполнить пропуски с доп. фичами? Нужно просто пробовать и смотреть, что даст лучший результат?
источник

I

Ibp in Machine learning
Егор Овчинников
Хм... То есть все таки есть смысл пробовать! Спасибо! А такое можно понять только методом тыка или все-таки есть какая-то закономерность? То есть например если есть подобная ситуация но с другим сетом и стоит выбор запихнуть с нанами в модель или заполнить пропуски с доп. фичами? Нужно просто пробовать и смотреть, что даст лучший результат?
допустим в задаче, Homesite Quote Conversation наны заменяли на минус 1 и делали суммарный признак таких минус единиц. и это работало, но там было меньше пропусков, поэтому минус единицы и не советую:) хотя можно попробовать
источник