Size: a a a

Data Science Chat

2021 August 23

P

Pavel in Data Science Chat
Всем привет. Приглашаю всех, кто разбирается в DS/ML, в эксперты нашего сообщества на яндекс кью. У нас много интересных вопросов, но с компетентными ответами бывают проблемы, поэтому буду очень рад новым экспертам.
источник

a

afalex in Data Science Chat
Не удержался) это была шутка)
источник

A

Andrey in Data Science Chat
тут было трудно не удержаться
источник

S

Somebody in Data Science Chat
источник

a

afalex in Data Science Chat
Я уже там
источник

a

afalex in Data Science Chat
Ахах
источник

S

Somebody in Data Science Chat
Вай
источник

RY

Ruslan515 Y in Data Science Chat
привет. подскажите пж как работать с оперативной память в питоне при использовании pandas для больших таблиц. такая ситуация: функция считывает фрейм большой, отрабатывает, затем идут еще ряд функций, которые тоже жрут память. пробовал del, но он не работает. как можно избавляться от мусора в процессе работы?
источник

A

Andrey in Data Science Chat
после del

import gc; gc.collect()
источник

SK

Sergei Korolev in Data Science Chat
Всем привет. Возникла странная проблема.

sns.lineplot(data = test[test.segment == '0-5'].groupby('variable').mean())
и

fig = sns.lineplot(x=test.variable, y=test.value, data=test[test['segment'] == '0-5'])
выдают разные результаты (динамика на графике одна, но значения во втором примере на 1к больше. Есть ли идеи, с чем это может быть связано?
Пробовал передать estimator - картина не меняется.

upd решил: просто вместо x и y надо было задавать относительно ( 'variable', 'value'), а не абсолютные
источник

ПЧ

Призрачный Человек... in Data Science Chat
Здравствуйте, имеется вопрос по классификации текста.

Сейчас используем лог регрессию для классификации текстов. На вход модели подаём матрицу, полученную с помощью TF-IDF.

Заказчик спрашивает, можно ли самим задать набор слов, ключевых для каждого класса, что бы модель как бы обращала на них в первую очередь. В качестве реализации этой идеи мне приходит в голову только добавить к уже имеющийся матрицы TF-IDF one-hot фичи этих заранее известных слов. Типо, если слово встречается в тексте, то у соответствующей фичи проставляется флаг. С другой стороны, это слово и так уже должно присутствовать в матрице TF-IDF, тогда есть ли вообще смысл в этой отдельной фичи?... Если вообще смысл пытаться реализовывать подобную "помощь" для модели? И куда лучше копать для улучшения точности классификации текста?
источник

A

Andrey in Data Science Chat
либо настроить tfidf, либо более тяжёлую артиллерию заюзать.

а для начала можно же посмотреть, что для класса логрег самым важным считает
источник

ПЧ

Призрачный Человек... in Data Science Chat
да, конечно уже смотрели, но те слова, которая логрег определяет для себя как важные, не совпадают с ожиданием заказчика.

Что стоит использовать в качестве тяжёлой артиллерии?
источник

JT

Jack Torrance in Data Science Chat
Всем привет! Такой вопрос. В наборе данных категориальные и непрерывные фичи. Категориальные прошли через one-hot encoding. Нужно ли стандартизировать категориальные фичи после енкодинга вместе с непрерывными или стандартизацию нужно делать только для непрерывных?
источник

A

Andrey in Data Science Chat
BERT какой
источник

ПЧ

Призрачный Человек... in Data Science Chat
какой?
источник

F

Fander in Data Science Chat
Привет, посоветуйте пожалуйста хороший курс по машинному обучению. Заранее спасибо!
источник

D•

Dan • Captain in Data Science Chat
Andrew Ng самый лучший
источник

ES

Ekaterina S. in Data Science Chat
Мне очень зашла специализация физтеха и Яндекса на курсере, вроде называлась "Машинное обучение и анализ данных" - супер годно для того, чтобы прямо с нуля учиться)
источник

ВМ

Владислав Мостовик... in Data Science Chat
Да можно и обычный, если дообучить
источник