Телеграмм чат группы datasciencechat страница 7167

Подскажите, пожалуйста, какие есть пакеты в Python для подсчета дескриптивных текстовых фич (кол-во слов, символов, средняя длина слова, % уникальных слов в тексте и тп)?
Мигрирую из R и еще не знаком со всеми библиотеками

источник

17:54пожаловаться #5

Alexander Khachikyan in Data Science Chat

nltk

источник

18:07пожаловаться #6

Mikle Mikle in Data Science Chat

А в каком модуле в NLTK не подскажете?

источник

18:11пожаловаться #7

Alexander Khachikyan in Data Science Chat

Простите, WordPunctTokenizer; FreqDist

источник

18:31пожаловаться #8

Mikle Mikle in Data Science Chat

Спасибо

источник

18:31пожаловаться #9

Alexander Khachikyan in Data Science Chat

Ещё library: Regex

источник

18:32пожаловаться #10

Тимерлан in Data Science Chat

ребят,всем привет. посоветуйте пожалуйста курс по d3.js,желательно ,чтоб во время курса были примеры построения свечных графиков.

источник

19:25пожаловаться #11

2021 November 03

София in Data Science Chat

Привет, я рекрутер. Нужна помощь для составления вакансии для логистической компании - есть только задача, которую нужно решить DS, навыки размытые. Можем с кем то можно созвониться обсудить как правильно сформулировать навыки. Пишите в личку. Спасибо за помощь)

источник

15:57пожаловаться #12

Andrey in Data Science Chat

София, опишите профиль лучше,
- скорее найдете,
- больше пользы соберёте.

а то какие-то женские интрижки

источник

15:59пожаловаться #13

2021 November 04

Dmitry in Data Science Chat

всем привет

источник

01:45пожаловаться #14

Dmitry in Data Science Chat

Есть задача регрессии. Уместен ли вообще подход на датасете сформировать лейблы (разбить по классам), построить по ним классификатор, а потом предсказания классификатора (вероятность принадлежности семпла к тому или иному классу) использовать в том числе в регрессии?

источник

01:47пожаловаться #15

Dmitry in Data Science Chat

Логически кажется, что дополнительное предсказание принадлежности семпла к определенному классу должно помочь основной модельке с регрессией.
С другой стороны, при этом распространяется на датасет ошибка предсказаний классификатора, которая может только мешать и мультиплицировать ошибку основной модельки регрессии.

источник

01:50пожаловаться #16

Sergey Kolchenko in Data Science Chat

А разбить на классы на основании чего?

источник

02:00пожаловаться #17

Adel Garaev in Data Science Chat

А может лучше кластеризовать?🙃

источник

02:00пожаловаться #18

ОН

Олег Новицкий... in Data Science Chat

Компания как-то связана с логистической регрессией?

источник

02:05пожаловаться #19

Dmitry in Data Science Chat

Есть зависимая переменная с высокой корреляцией, которой нет в тест (ну и из трейна она тоже выбрасывается).
На основании этой переменной с помощью дерева датасет разбивается на 5 частей. На графике всё красиво. %)

источник

02:13пожаловаться #20