Подскажите, пожалуйста, какие есть пакеты в Python для подсчета дескриптивных текстовых фич (кол-во слов, символов, средняя длина слова, % уникальных слов в тексте и тп)? Мигрирую из R и еще не знаком со всеми библиотеками
Привет, я рекрутер. Нужна помощь для составления вакансии для логистической компании - есть только задача, которую нужно решить DS, навыки размытые. Можем с кем то можно созвониться обсудить как правильно сформулировать навыки. Пишите в личку. Спасибо за помощь)
Есть задача регрессии. Уместен ли вообще подход на датасете сформировать лейблы (разбить по классам), построить по ним классификатор, а потом предсказания классификатора (вероятность принадлежности семпла к тому или иному классу) использовать в том числе в регрессии?
Логически кажется, что дополнительное предсказание принадлежности семпла к определенному классу должно помочь основной модельке с регрессией. С другой стороны, при этом распространяется на датасет ошибка предсказаний классификатора, которая может только мешать и мультиплицировать ошибку основной модельки регрессии.
Есть зависимая переменная с высокой корреляцией, которой нет в тест (ну и из трейна она тоже выбрасывается). На основании этой переменной с помощью дерева датасет разбивается на 5 частей. На графике всё красиво. %)