Size: a a a

Python для анализа данных

2019 October 08

АМ

Алексей Макаров... in Python для анализа данных
источник

НК

Николай Курдюбов... in Python для анализа данных
Большое спасибо. Че-та я как-будто неправильные курсы по питону смотрел 😄
источник

АМ

Алексей Макаров... in Python для анализа данных
Ну это такие достаточно низкоуровневые хаки pandas. Их мало где системно освещают(
источник

e

eolay in Python для анализа данных
Результаты опроса разработчиков от jeybrains (в целом и с разделением по языкам) - интересно) посмотрите в целом и потом ткните в python)
https://www.jetbrains.com/lp/devecosystem-2019/
источник

DP

Denis Pugach in Python для анализа данных
Подскажите,

Есть список из 2000 абзацев русского текста. Как их по смыслу разнести по 10 категориям? То есть на выходе, чтобы напротив каждого абзаца был балл от 1 до 10.

Интересуют простые способы, чтобы потом погрузится в тему. А то столько разных библиотек, непонятно с чего начать.
источник

АМ

Алексей Макаров... in Python для анализа данных
Из самого простого: сначала для каждого абзаца сформировать вектор с помощью tf-idf vectorizer, а потом k-means. Вот пример тетрадки: https://www.kaggle.com/jbencina/clustering-documents-with-tfidf-and-kmeans
источник

ВЛ

Владислав Литвинюк... in Python для анализа данных
Какой же пандас логичный))
источник

DP

Denis Pugach in Python для анализа данных
Алексей Макаров
Из самого простого: сначала для каждого абзаца сформировать вектор с помощью tf-idf vectorizer, а потом k-means. Вот пример тетрадки: https://www.kaggle.com/jbencina/clustering-documents-with-tfidf-and-kmeans
Спасибо! А он русский текст поддерживает? Извините, что у вас, а не у гугла спрашиваю.
источник

VN

Vlad Nykytenko in Python для анализа данных
Привет!
А не подскажите, какой-нибудь гайд по стримингу данных из ГА в BQ?
источник

VN

Vlad Nykytenko in Python для анализа данных
https://web-analytics.me/streaming_in_bigquery
Находил вот это, но тут как я понял все данные из ГА кидаются в BQ, а мб можно как-то отфильтровать, что нужно?
источник

АМ

Алексей Макаров... in Python для анализа данных
Denis Pugach
Спасибо! А он русский текст поддерживает? Извините, что у вас, а не у гугла спрашиваю.
Tf-idf - это просто алгоритм. Он с любыми текстами работает. Другое дело, что качество кластеризации у вас будет выше если вы сначала произведёте лемматизацию текста. Для этого можно использовать pymystem
источник

ВЛ

Владислав Литвинюк... in Python для анализа данных
или вок2век
источник

АМ

Алексей Макаров... in Python для анализа данных
word2vec?
источник

ВЛ

Владислав Литвинюк... in Python для анализа данных
да
источник

ВЛ

Владислав Литвинюк... in Python для анализа данных
написал криво
источник

МЧ

Маша Чакчурина... in Python для анализа данных
Denis Pugach
Подскажите,

Есть список из 2000 абзацев русского текста. Как их по смыслу разнести по 10 категориям? То есть на выходе, чтобы напротив каждого абзаца был балл от 1 до 10.

Интересуют простые способы, чтобы потом погрузится в тему. А то столько разных библиотек, непонятно с чего начать.
Решала недавно похожую задачу, делала как @ax_makarov описал сейчас, только еще добавила биграммы. Сама бэендер, ДС задачу решала случайно, но ее приняли.
источник

АМ

Алексей Макаров... in Python для анализа данных
Ну да, его можно использовать вместо tf-idf для того, чтобы текст к вектору привести. Только тогда нужно взять для каждого слова из фразы вектор из word2vec и все их усреднить. Более правильный подход взять что-то вроде seq2vec или doc2vec
источник

АМ

Алексей Макаров... in Python для анализа данных
А вообще если продолжать дальше, то чатик начнёт превращаться в чатик по DS. Мне бы этого не хотелось))
источник

ВЛ

Владислав Литвинюк... in Python для анализа данных
Алексей Макаров
А вообще если продолжать дальше, то чатик начнёт превращаться в чатик по DS. Мне бы этого не хотелось))
а там про железо слишком много говорят))
источник

N

Nikolay in Python для анализа данных
Есть кто плотно с апи серч консоли работает?
источник