#C6W1 Идентификация пользователей
Всем привет
Я построил функцию следующим образом, считываю данные по очереди и собираю их в один датафрейм, нумерую пользователей, сессии и сайты, а затем с помощью pandas crosstab создаю сводную таблицу по сессиям и сайтам. Это все работает только на 3 и 10 юзерах. На 150 ошибка: ValueError: Unstacked DataFrame is too big, causing int32 overflow
Кажется эту ошибку победить не получится, надо переписать функцию
Кто проходил, поделитесь, пожалуйста подходами :)
Спасибо
Ну я сначала словарь по файлам создал и отсортировал, затем проходил по файлам снова и создавал строки np.zeros размера сессий, заполняя их id сайтов, закладывая их в список по очереди. Затем уже датафрейм в самом конце получил. Главное, правильно обработать конец файла юзера, чтобы неполная сессия нулями заканчивалась.