Size: a a a

Machine learning

2020 May 05

RK

Ruslan Kam in Machine learning
Я люблю мир
источник

RK

Ruslan Kam in Machine learning
0.00021129
источник

OF

Olga Fedotova in Machine learning
странная там классификация. Пример токсичного комментария: "У тебя воображение - так себе"
источник

RK

Ruslan Kam in Machine learning
я думал
источник

RK

Ruslan Kam in Machine learning
я думаю
источник

RK

Ruslan Kam in Machine learning
надо другой датасет использовать
источник

RK

Ruslan Kam in Machine learning
Ivan Krokhalyov
посмотреть что будет
спасибо большое за помощь
источник

SG

Sergey Galich in Machine learning
#c3w3
Коллеги, добрый день! Проверьте пожалуйста мой ноутбук. Заранее спасибо!
https://www.coursera.org/learn/unsupervised-learning/peer/ATLR5/vizualizatsiia-dannykh/review/og-PaI2_EeqPSxJQZcUQVQ
источник

АК

Артур Ким in Machine learning
Ruslan Kam
надо другой датасет использовать
О, анализ тональности отзывов! Я никак не мог побить 0.85, пока не собрал датасет именно по отзывам на мобильные телефоны.
источник

RK

Ruslan Kam in Machine learning
Артур Ким
О, анализ тональности отзывов! Я никак не мог побить 0.85, пока не собрал датасет именно по отзывам на мобильные телефоны.
Понял, спасибо
источник

OG

Olga Gonch in Machine learning
Коллеги, есть старожилы, кто прошёл финальный проект?
источник

OG

Olga Gonch in Machine learning
Проходили по 1 теме, или по всем?
источник

GB

Gennady Borisov in Machine learning
Что делать если в тестовой выборке оказывается больше категорий чем в обучающей? Что делать с такими объектами? Их выкидывать? Категориальные признаки кодируются OrdinalEncoder.
Поясню на примере: есть признак животное. В обучающую выборку попадают объекты со значениями этого признака: корова, лошадь, свинья. А в тестовую: корова, лошадь, свинья, верблюд. Что делать с верблюдом?
источник

A

Akim in Machine learning
Все такие признаки (в данном случае верблюд) получат значения 0 для всех дамми-переменных (животное=корова, животное=лошадь)
источник

GB

Gennady Borisov in Machine learning
Akim
Все такие признаки (в данном случае верблюд) получат значения 0 для всех дамми-переменных (животное=корова, животное=лошадь)
Для дамми все понятно, но я хотел использовать ordinal encoder. Что делать в этом случае. Просто признаков много и категорий в них тоже достаточно при дамми кодирование таблица сильно разрастается.
источник

A

Akim in Machine learning
Пардон, не увидел сразу. Так Вы же должны настраивать OE на всем датасете (до его разбиения).
источник

GB

Gennady Borisov in Machine learning
Akim
Пардон, не увидел сразу. Так Вы же должны настраивать OE на всем датасете (до его разбиения).
А я думал как раз наоборот, сначала разбивается датасет, потом только тренировочная выборка изменяется. Если делать по другому, то произойдет утечка данных, т.е. часть информации о данных попадет в тестовую выборку. Во втором курсе специализации, при работе с категориальными признакими, использовали пайплайны при кроссвалидации, чтобы информация не утекла в тестовый фолд.
источник

A

Akim in Machine learning
Все правильно, только проблема несоответствия с ОЕ вынуждает либо использовать другие методы обработки категориальных признаков, либо настраивать его на всей выборке. Иногда еще все несоответствующие значения кодируют Nan-ами, -1, 999 и тд.
источник

A

Akim in Machine learning
источник

EA

Eliah Avvakumov in Machine learning
источник