Size: a a a

ML Boot Camp Official

2020 June 19

ДС

Дмитрий Симаков... in ML Boot Camp Official
1.
источник

IV

Ivan Veriga in ML Boot Camp Official
Хм
источник

IV

Ivan Veriga in ML Boot Camp Official
Ты его бустил?
источник

ДС

Дмитрий Симаков... in ML Boot Camp Official
Сохранение ареев в пикл ускорило в два раза итерацию по датасету. До 20 минут.

С мультипроцессингом в пайторчовом даталоадере помогло pin_memory=False, затыки бывают, но на секунду или около того. В целом норм. Но это с пиклом. При загрузке файлов чистым нампаем все равно долгие случаются.
источник

ДС

Дмитрий Симаков... in ML Boot Camp Official
Ivan Veriga
Ты его бустил?
Неа.
источник

IV

Ivan Veriga in ML Boot Camp Official
Дмитрий Симаков
Тупой вопрос, а как быстро в цикле можно считывать с диска нампай ареи? (или во что их сохранять). Файлы - многомерные тензоры, примерно от 20 до 100мб.

Сохранение и загрузка через .npy - быстрая. Но если помимо считывания добавить хоть одну операцию, например, поделить на 1, то скорость сразу замедляется. Как здесь https://stackoverflow.com/questions/9619199/best-way-to-preserve-numpy-arrays-on-disk.
Проход по всем файлам начинает занимать с 10 секунд - 40 минут. Какие есть варианты?

h5py считывает как нампай + операция. Менять параметры mmap нампая при загрузке ни на что не влияет.
По поводу этого, там проход по файлу хитрый, при добавлении операции там итерация происходит по каждой строке, поэтому так долго
источник

ДС

Дмитрий Симаков... in ML Boot Camp Official
Ivan Veriga
По поводу этого, там проход по файлу хитрый, при добавлении операции там итерация происходит по каждой строке, поэтому так долго
Просто у меня точно такая же схема. Если сделать просто загрузку в цикле. То 10 секунд. Если загрузка / 1, то уже 40 минут.
источник

ДС

Дмитрий Симаков... in ML Boot Camp Official
С пиклом 20 минут)
источник

IV

Ivan Veriga in ML Boot Camp Official
Ну смотри, чтение/запись просто - это один набор инструкций, а ты к этому для процессора ещё набор добавляешь, при чём существенный
источник

IV

Ivan Veriga in ML Boot Camp Official
Не забывай, процессор не умеет нормально вычитать
источник

IV

Ivan Veriga in ML Boot Camp Official
А если там ещё и вещественные числа, то ещё больше инструкций
источник

IV

Ivan Veriga in ML Boot Camp Official
Так что вроде бы обычное действие может нормально нагрузить
источник

IV

Ivan Veriga in ML Boot Camp Official
Либо это затык либы
источник

IV

Ivan Veriga in ML Boot Camp Official
Раз с пиклом 20
источник

ДС

Дмитрий Симаков... in ML Boot Camp Official
Но вот почему нампай свои нативные файлы долго считывает. Если они большие относительно. 4 измерения с 60 элементов в каждом.
источник

IV

Ivan Veriga in ML Boot Camp Official
Np опен-сорсный, можно попробовать поправить)
источник

ДС

Дмитрий Симаков... in ML Boot Camp Official
Куда уж
источник

IV

Ivan Veriga in ML Boot Camp Official
Чтоб для всех прям😂
источник

ДС

Дмитрий Симаков... in ML Boot Camp Official
источник

IV

Ivan Veriga in ML Boot Camp Official
Ну мало ли, может ты какую-то крутую фичу придумаешь, свежим взглядом
источник