Size: a a a

Python для анализа данных

2019 April 20

NN

N N in Python для анализа данных
Viktoria
Dask подошёл
Во точно, Dask)
А у вас случайно не *.tsv был ?
источник

V

Viktoria in Python для анализа данных
N N
Во точно, Dask)
А у вас случайно не *.tsv был ?
У меня вообще без формата. Но может если как-то преобразовать...
read_csv работал, если что
источник

A

Andrei in Python для анализа данных
чат, какой самый memory-efficient тип данных для времени?

чтобы им в датафрейме ворочать
источник

V

Viktoria in Python для анализа данных
Как можно ускорить процесс лемминга? Читаю датасет построчно, каждую строку разбиваю на слова, леммы. Много строк в датасете, порядочно выполняет.
источник

A

Andrei in Python для анализа данных
Viktoria
Как можно ускорить процесс лемминга? Читаю датасет построчно, каждую строку разбиваю на слова, леммы. Много строк в датасете, порядочно выполняет.
чем лемматизируешь?
источник
2019 April 21

V

Viktoria in Python для анализа данных
Andrei
чем лемматизируешь?
Nltk
источник

A

Andrei in Python для анализа данных
а какой язык текстов?
источник

V

Viktoria in Python для анализа данных
Русский
источник

A

Andrei in Python для анализа данных
Viktoria
Как можно ускорить процесс лемминга? Читаю датасет построчно, каждую строку разбиваю на слова, леммы. Много строк в датасете, порядочно выполняет.
профилировщиком находишь узкое место, от этого пляшешь
источник

A

Andrei in Python для анализа данных
Viktoria
Русский
а чё тогда nltk, а не pymorphy2?
источник

V

Viktoria in Python для анализа данных
Он лучше?
источник

A

Andrei in Python для анализа данных
попробуй)
источник

V

Viktoria in Python для анализа данных
Что быстрее нагуглилось))
источник

V

Viktoria in Python для анализа данных
Подскажите, пожалуйста
Есть df - dask dstaframe с колонкой a.
Хочу написал типо
tfidf_vectorizer.fit_transform(df[a] )

Но тип данных ему не нравится. И value, и tolist не подходят. Что ещё можно попробовать?
источник

DR

Dmitry Rodin in Python для анализа данных
а название колонки не надо строкой сделать? Ну а если это "типо" то лучше прислать точный код и текст ошибки
источник

V

Viktoria in Python для анализа данных
источник

V

Viktoria in Python для анализа данных
данные есть, колонка не пустая
источник

R

Roman in Python для анализа данных
Ну я тф идф с файла всегда читал, проблем не было. Напрямую с датафрейма не читал.
источник
2019 April 22

VN

Vlad Nykytenko in Python для анализа данных
Всем привет, можете пожалуйста подсказать, как лучше смерджить два дата фрейма?

Размер df1 - (49203, 3)
Размер df2 - (47194, 3)

Есть ключ id

Но когда использую pd.merge(df1,df2, on="id", how="left") получаю огромный df
источник

АМ

Алексей Макаров... in Python для анализа данных
А точно ключи совпадают? Пришлите скриншоты head у df1 и df2
источник