Телеграмм чат группы datasciencecourse страница 4786

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Machine learning

7718 membersпожаловаться на группу

2021 February 13

SS

Sergey Salnikov in Machine learning

catboost тоже может работать с nan.
если поле категориальное, то nan заполняется новым значением типа 'UNKNOWN'.
для числового - видел идею заполнять nan чем-нибудь фиксированным типа 0, с дополнительным полем - 0/1 индикацией наличия значения у исходного поля

источник

21:02пожаловаться #1

ЕО

Егор Овчинников... in Machine learning

Alexander Petrenko

Очень похоже на задачу с каггла от home credit bank. Я с ней долго маялся :)

Предсказывать не надо. Очень долго и результат не о чем вышел. Если пользуешь градиентный бустинг lighgmb / xgboost, то там не надо менять ничего. Работа с пропусками здесь большого результата не принесло мне. Лучше сгенерировать свои фичи и джойнить таблицы (там их дофига было вроде). Ну это по моему опыту:)

Она и есть))) С другими джионить не могу, ноут не позволяет 🤷🏻‍♂️
Спасибо за совет!!!Попробую!

источник

21:10пожаловаться #2

ЕО

Егор Овчинников... in Machine learning

Sergey Salnikov

catboost тоже может работать с nan.
если поле категориальное, то nan заполняется новым значением типа 'UNKNOWN'.
для числового - видел идею заполнять nan чем-нибудь фиксированным типа 0, с дополнительным полем - 0/1 индикацией наличия значения у исходного поля

Спасибо большое за совет! 🤝 Тоже буду делать!

источник

21:10пожаловаться #3

ЕО

Егор Овчинников... in Machine learning

Переслано от Егор Овчинников

И разве использование медианы,моды,среднего на таком количестве пропусков не отрицательно скажутся результате?

Так естественно! Поэтому вопрос и не заключался в том, чем заполнить пропуски из этих трех. Про них я ответил на предыдущее сообщение.

источник

21:12пожаловаться #4

AP

Alexander Petrenko in Machine learning

Егор Овчинников

Она и есть))) С другими джионить не могу, ноут не позволяет 🤷🏻‍♂️
Спасибо за совет!!!Попробую!

А что озу не хватает? У меня после джойна третей таблицы память забилась. В итоге засвопил до 40гб и порядок. У меня убунту, там это просто делается. Теперь на все хватает. Правда это на скорости должно сказываться, но я не заметил.

источник

21:17пожаловаться #5

ЕО

Егор Овчинников... in Machine learning

Проблема в том, что я пока что СОВСЕМ не знаю как манипулировать памятью и впринципе вычислительной мощностью для работы с относительно большими объемами данных. Так что "засвопил" для меня пока что матерное слово)

источник

21:19пожаловаться #6

ЕО

Егор Овчинников... in Machine learning

Alexander Petrenko

А что озу не хватает? У меня после джойна третей таблицы память забилась. В итоге засвопил до 40гб и порядок. У меня убунту, там это просто делается. Теперь на все хватает. Правда это на скорости должно сказываться, но я не заметил.

Если подскажешь статейку или каким запросом загуглить, буду благодарен!

источник

21:21пожаловаться #7

AP

Alexander Petrenko in Machine learning

Егор Овчинников

Если подскажешь статейку или каким запросом загуглить, буду благодарен!

Вбиваешь в Гугл убунту swap и начинаешь читать :)

Вот первая статья https://help.ubuntu.ru/wiki/swap

Но это для убунту. Если винда, то наверное там иначе

источник

21:24пожаловаться #8

ЕО

Егор Овчинников... in Machine learning

Да, я на винде

источник

21:24пожаловаться #9

AP

Alexander Petrenko in Machine learning

Егор Овчинников

Проблема в том, что я пока что СОВСЕМ не знаю как манипулировать памятью и впринципе вычислительной мощностью для работы с относительно большими объемами данных. Так что "засвопил" для меня пока что матерное слово)

Но сначала убедись что проблема в том что памяти не хватает :)

источник

21:24пожаловаться #10

AP

Alexander Petrenko in Machine learning

Егор Овчинников

Да, я на винде

Сорян:)

источник

21:25пожаловаться #11

ЕО

Егор Овчинников... in Machine learning

Теперь знаю, что есть еще пути, кроме как плать за ядра)

источник

21:25пожаловаться #12

ЕО

Егор Овчинников... in Machine learning

Спасибо

источник

21:25пожаловаться #13

MZ

Maxim Zadonskiy in Machine learning

https://t.me/bichatik

BI-чатик

Чатик для специалистов по BI.
Обсуждение
Data engineering,
Data mining,
Visualization.
Залетайте и давайте создавать
BI-community!

источник

21:26пожаловаться #14

I

Ibp in Machine learning

Егор Овчинников

Она и есть))) С другими джионить не могу, ноут не позволяет 🤷🏻‍♂️
Спасибо за совет!!!Попробую!

там можно сделать так: заменить пропуски на средние значения в столбце , например, но перед этим добавить признак, сколько в каждой строке было изначально нанов суммарно

источник

22:31пожаловаться #15

ЕО

Егор Овчинников... in Machine learning

Ibp

там можно сделать так: заменить пропуски на средние значения в столбце , например, но перед этим добавить признак, сколько в каждой строке было изначально нанов суммарно

Это да, но меня беспокоит тот факт, что я сомневаюсь в замене такого количества нанов. То что вы описали нормально работает? Не влияет негативно на результат модели?

источник

22:34пожаловаться #16

i

igor in Machine learning

Вы уже спрашивали, иногда влияет иногда нет

источник

22:35пожаловаться #17

I

Ibp in Machine learning

средние значения или нули в этой задаче скорее всего не повлияют на результат, так по крайней мере пишет человек у которого лучшая модель там, а дополнительный признак можно попробовать

источник

22:37пожаловаться #18

ЕО

Егор Овчинников... in Machine learning

Хм... То есть все таки есть смысл пробовать! Спасибо! А такое можно понять только методом тыка или все-таки есть какая-то закономерность? То есть например если есть подобная ситуация но с другим сетом и стоит выбор запихнуть с нанами в модель или заполнить пропуски с доп. фичами? Нужно просто пробовать и смотреть, что даст лучший результат?

источник

22:41пожаловаться #19

I

Ibp in Machine learning

Егор Овчинников

Хм... То есть все таки есть смысл пробовать! Спасибо! А такое можно понять только методом тыка или все-таки есть какая-то закономерность? То есть например если есть подобная ситуация но с другим сетом и стоит выбор запихнуть с нанами в модель или заполнить пропуски с доп. фичами? Нужно просто пробовать и смотреть, что даст лучший результат?

допустим в задаче, Homesite Quote Conversation наны заменяли на минус 1 и делали суммарный признак таких минус единиц. и это работало, но там было меньше пропусков, поэтому минус единицы и не советую:) хотя можно попробовать

источник

22:45пожаловаться #20