Size: a a a

Data Science Kazakhstan (DS/ML kz)

2020 May 12

S

Sneddy in Data Science Kazakhstan (DS/ML kz)
просто срез спарс матрицы берешь, конвертируешь, сохраняешь, удаляешь срез и выход, идешь дальше
источник

S

Sneddy in Data Science Kazakhstan (DS/ML kz)
import scipy.sparse
row = np.array([0,0,1,2,2,2])
col = np.array([0,2,2,0,1,2])
data = np.array([1,2,3,4,5,6])
matrix = scipy.sparse.csr_matrix((data,(row,col)), shape=(5,3) )
print(matrix.todense())
print('=' * 20)

n_rows = matrix.shape[0]
step = 3

for start_row, fin_row in zip(range(0, n_rows - step, step), range(step, n_rows + step, step)):
   matrix_slice = matrix[start_row: fin_row]
   print(matrix_slice.todense())

matrix_slice = matrix[fin_row:]
print(matrix_slice.todense())
источник

S

Sneddy in Data Science Kazakhstan (DS/ML kz)
типа такого, только вместо принта сохранение. Сохраняет по step строк
источник

S

SanGGG in Data Science Kazakhstan (DS/ML kz)
Sneddy
import scipy.sparse
row = np.array([0,0,1,2,2,2])
col = np.array([0,2,2,0,1,2])
data = np.array([1,2,3,4,5,6])
matrix = scipy.sparse.csr_matrix((data,(row,col)), shape=(5,3) )
print(matrix.todense())
print('=' * 20)

n_rows = matrix.shape[0]
step = 3

for start_row, fin_row in zip(range(0, n_rows - step, step), range(step, n_rows + step, step)):
   matrix_slice = matrix[start_row: fin_row]
   print(matrix_slice.todense())

matrix_slice = matrix[fin_row:]
print(matrix_slice.todense())
Рахмет, щас пробую по частям конвертировать
источник

D

Dakan in Data Science Kazakhstan (DS/ML kz)
SanGGG
Что можно сделать если не хватает RAM при конвертировании scipy.csr_matrix в numpy.array?
а для чего вы конвертируете sparse матрицу в np.array?
источник

S

SanGGG in Data Science Kazakhstan (DS/ML kz)
Dakan
а для чего вы конвертируете sparse матрицу в np.array?
Вообще spars матрицу получаю через count vectorizer из мешка слов, перевожу в numpy.array чтобы обучить модель на этих данных
источник

S

Sneddy in Data Science Kazakhstan (DS/ML kz)
много алгоритмов умеют работать со спарс матрицами
источник

S

Sneddy in Data Science Kazakhstan (DS/ML kz)
почти все умеют, кроме катбуста)
источник

D

Dakan in Data Science Kazakhstan (DS/ML kz)
SanGGG
Вообще spars матрицу получаю через count vectorizer из мешка слов, перевожу в numpy.array чтобы обучить модель на этих данных
А как она (sparse матрица) используется в обучении? Вы из неё выдергиваете элементы, чтобы построить X (или y), потом скармливаете X и y в какой-то ML алгоритм?
источник

S

SanGGG in Data Science Kazakhstan (DS/ML kz)
Dakan
А как она (sparse матрица) используется в обучении? Вы из неё выдергиваете элементы, чтобы построить X (или y), потом скармливаете X и y в какой-то ML алгоритм?
Да
источник

D

Dakan in Data Science Kazakhstan (DS/ML kz)
Если так, то sparse матрицу можно индексировать напрямую A[i, j]
(Upd: какую-то нельзя, не помню то ли CSC, то ли CSR)

Если нужны слайсы или fancy indexing, то можно сначала сконвертировать в lil_matrix:
B = A.tolil()

Если же нужна прям вся матрица, то можно аппроксимировать через SVD, чтобы понизить ранг.
источник

S

SanGGG in Data Science Kazakhstan (DS/ML kz)
Dakan
Если так, то sparse матрицу можно индексировать напрямую A[i, j]
(Upd: какую-то нельзя, не помню то ли CSC, то ли CSR)

Если нужны слайсы или fancy indexing, то можно сначала сконвертировать в lil_matrix:
B = A.tolil()

Если же нужна прям вся матрица, то можно аппроксимировать через SVD, чтобы понизить ранг.
Спасибо за совет! Я по частям перевел , вроде сработала
источник

p

panda in Data Science Kazakhstan (DS/ML kz)
привет всем! не подскажете ресурс где можно потренировать sql запросы: оконные функции, rollup-cube-grouping set? или какой-то сборник задач с собесед?
источник

RA

Renat Alimbekov in Data Science Kazakhstan (DS/ML kz)
panda
привет всем! не подскажете ресурс где можно потренировать sql запросы: оконные функции, rollup-cube-grouping set? или какой-то сборник задач с собесед?
источник

p

panda in Data Science Kazakhstan (DS/ML kz)
там именно из того что я хочу особо нет
источник

МС

Михаил Скаков... in Data Science Kazakhstan (DS/ML kz)
Товарищи! А кто нибудь проходил какие нибудь курсы у geekbrains?
источник

RA

Renat Alimbekov in Data Science Kazakhstan (DS/ML kz)
panda
там именно из того что я хочу особо нет
источник

p

panda in Data Science Kazakhstan (DS/ML kz)
thx👍🏻👍
источник

RA

Renat Alimbekov in Data Science Kazakhstan (DS/ML kz)
не уверен что там есть, то что нужно. о хз
источник

ТФ

Тимур Фаткулин... in Data Science Kazakhstan (DS/ML kz)
panda
привет всем! не подскажете ресурс где можно потренировать sql запросы: оконные функции, rollup-cube-grouping set? или какой-то сборник задач с собесед?
Здесь неплохой разбор задач на собесах:
https://quip.com/2gwZArKuWk7W
источник