Size: a a a

Machine learning

2020 June 24

АГ

Артём Глазунов... in Machine learning
Без таргета как-то легче)
источник

K

K-S in Machine learning
Да. Действительно проще. А если потом еще стекать, то ой, ну нафиг. Скорее запутаешься во всех этих валидациях
источник

АГ

Артём Глазунов... in Machine learning
То есть рабочий алго - лейбл для низкой кардинальности(скажем, меньше 10-15 категорий), каунт для высокой.
источник

K

K-S in Machine learning
Не, каунт всегда. Он просто даже как доп фичей может идти
источник

АГ

Артём Глазунов... in Machine learning
Попробую, спасибо
источник

АГ

Артём Глазунов... in Machine learning
K-S
Не, каунт всегда. Он просто даже как доп фичей может идти
Ясно
источник

Х

Хэнк in Machine learning
источник

АК

Александр Кошелев... in Machine learning
#C6W1 Идентификация пользователей
Всем привет
Я построил функцию следующим образом, считываю данные по очереди и собираю их в один датафрейм, нумерую пользователей, сессии и сайты, а затем с помощью pandas crosstab создаю сводную таблицу по сессиям и сайтам. Это все работает только на 3 и 10 юзерах. На 150 ошибка: ValueError: Unstacked DataFrame is too big, causing int32 overflow
Кажется эту ошибку победить не получится, надо переписать функцию
Кто проходил, поделитесь, пожалуйста подходами :)
Спасибо
источник

А

Артем in Machine learning
опытные, подскажите, пожалуйста, как эффективнее выстроить обучение. я сейчас в начале 3го курса. стоит ли сейчас ввязываться в кагл для лучшего закрепления или быстрее дойти до 5го курса и начинать практику с бОльшим обьемом знаний?
источник

А

Артем in Machine learning
пока титаником занимаюсь, но ощущение, что пальцем в небо тычу, не хватает знаний, для более направленного поиска решений
источник

A

Arkadiy in Machine learning
Артем
пока титаником занимаюсь, но ощущение, что пальцем в небо тычу, не хватает знаний, для более направленного поиска решений
попробуй чужие кернелы разбирать. я так делаю, мне кажется, полезная штука. по несколько разных кернелов для одного соревнования
источник

Х

Хэнк in Machine learning
источник

АГ

Артём Глазунов... in Machine learning
Александр Кошелев
#C6W1 Идентификация пользователей
Всем привет
Я построил функцию следующим образом, считываю данные по очереди и собираю их в один датафрейм, нумерую пользователей, сессии и сайты, а затем с помощью pandas crosstab создаю сводную таблицу по сессиям и сайтам. Это все работает только на 3 и 10 юзерах. На 150 ошибка: ValueError: Unstacked DataFrame is too big, causing int32 overflow
Кажется эту ошибку победить не получится, надо переписать функцию
Кто проходил, поделитесь, пожалуйста подходами :)
Спасибо
Ну я сначала словарь по файлам создал и отсортировал, затем проходил по файлам снова и создавал строки np.zeros размера сессий, заполняя их id сайтов, закладывая их в список по очереди. Затем уже датафрейм в самом конце получил. Главное, правильно обработать конец файла юзера, чтобы неполная сессия нулями заканчивалась.
источник

АГ

Артём Глазунов... in Machine learning
Там ещё пара реализаций есть, к примеру просто файл пользователя сразу весь обработать, заполнить id сайта, а затем пройтись окном длины сессии и записать  в np. Array. Тут попроще концы файлов обработать, вроде, nan  будут или вроде того, в датафрейм в конце просто нулями их.
источник

АГ

Артём Глазунов... in Machine learning
Давно было, может, и неточно чуть-чуть
источник

АГ

Артём Глазунов... in Machine learning
Артем
опытные, подскажите, пожалуйста, как эффективнее выстроить обучение. я сейчас в начале 3го курса. стоит ли сейчас ввязываться в кагл для лучшего закрепления или быстрее дойти до 5го курса и начинать практику с бОльшим обьемом знаний?
Там на 6 курсе много каггла будет, но ничего не мешает попробовать
источник

R

Ruslan in Machine learning
#c3w3
Привет всем)
Проверьте пожалуйста работу c3w3)
Кидайте в ответ ваши ссылки, проверю тоже

https://www.coursera.org/learn/unsupervised-learning/peer/ATLR5/vizualizatsiia-dannykh/review/oZ0vxLYwEeqJmA5kT-X02w
источник

RM

Roman Majorant in Machine learning
Господа, можете посоветовать ресурсы/книги по теории чисел?
источник

И

Илья in Machine learning
Привет, кто уже делал C6W6 Идентификация пользователей
Ребят, скиньте, пожалуйста, датасет из кегла про 400 пользователей, а то на кегле их не оказалось
источник

I

Ibp in Machine learning
Подскажите, пожалуйста, по питону:
я так понимаю, что выражение типа
if x and x !=y:
равнозначно
if x !=y:
   if x:
?
Как называется такое условие и где о таких конструкциях почитать можно?
источник