Телеграмм чат группы pydata

Denis Pugach in Python для анализа данных

17:02пожаловаться #4

Подскажите,

Есть список из 2000 абзацев русского текста. Как их по смыслу разнести по 10 категориям? То есть на выходе, чтобы напротив каждого абзаца был балл от 1 до 10.

Интересуют простые способы, чтобы потом погрузится в тему. А то столько разных библиотек, непонятно с чего начать.

18:14пожаловаться #5

АМ

Clustering documents with TFIDF and KMeans

Из самого простого: сначала для каждого абзаца сформировать вектор с помощью tf-idf vectorizer, а потом k-means. Вот пример тетрадки: https://www.kaggle.com/jbencina/clustering-documents-with-tfidf-and-kmeans

Kaggle

Explore and run machine learning code with Kaggle Notebooks | Using data from Department of Justice 2009-2018 Press Releases

18:18пожаловаться #6

ВЛ

Какой же пандас логичный))

Denis Pugach in Python для анализа данных

18:46пожаловаться #7

Алексей Макаров

Kaggle

Clustering documents with TFIDF and KMeans

Explore and run machine learning code with Kaggle Notebooks | Using data from Department of Justice 2009-2018 Press Releases

Спасибо! А он русский текст поддерживает? Извините, что у вас, а не у гугла спрашиваю.

Vlad Nykytenko in Python для анализа данных

18:57пожаловаться #8

Привет!
А не подскажите, какой-нибудь гайд по стримингу данных из ГА в BQ?

Vlad Nykytenko in Python для анализа данных

18:58пожаловаться #9

https://web-analytics.me/streaming_in_bigquery
Находил вот это, но тут как я понял все данные из ГА кидаются в BQ, а мб можно как-то отфильтровать, что нужно?

web-analytics.me

Стриминг данных из Google Analytics в BigQuery

Решение Евгения Черного по возможности самостоятельно загружать данные из Google Analytics в Google BigQuery

18:59пожаловаться #10

АМ

Denis Pugach

Спасибо! А он русский текст поддерживает? Извините, что у вас, а не у гугла спрашиваю.

Tf-idf - это просто алгоритм. Он с любыми текстами работает. Другое дело, что качество кластеризации у вас будет выше если вы сначала произведёте лемматизацию текста. Для этого можно использовать pymystem

18:59пожаловаться #11

ВЛ

или вок2век

19:01пожаловаться #12

АМ

Владислав Литвинюк

или вок2век

word2vec?

19:02пожаловаться #13

ВЛ

да

19:03пожаловаться #14

ВЛ

написал криво

Маша Чакчурина... in Python для анализа данных

19:03пожаловаться #15

МЧ

Denis Pugach

Решала недавно похожую задачу, делала как @ax_makarov описал сейчас, только еще добавила биграммы. Сама бэендер, ДС задачу решала случайно, но ее приняли.

19:06пожаловаться #16

АМ

Ну да, его можно использовать вместо tf-idf для того, чтобы текст к вектору привести. Только тогда нужно взять для каждого слова из фразы вектор из word2vec и все их усреднить. Более правильный подход взять что-то вроде seq2vec или doc2vec

19:07пожаловаться #17

АМ

А вообще если продолжать дальше, то чатик начнёт превращаться в чатик по DS. Мне бы этого не хотелось))

19:08пожаловаться #18

ВЛ

Алексей Макаров

А вообще если продолжать дальше, то чатик начнёт превращаться в чатик по DS. Мне бы этого не хотелось))

а там про железо слишком много говорят))

Nikolay in Python для анализа данных

19:10пожаловаться #19

Есть кто плотно с апи серч консоли работает?