Телеграмм чат группы scrapy

Подскажите, есть сеты табличных данных в консоли показано количество td в сете. (название ячейки и значение)

Таких сетов почти 15к. Есть решение лучше чем на ходу создавать колонки под название ячейки чтобы сохранить в нормальном виде ?

(проверять наличие колонки, сохранять значение)

Например можно писать в формат с разделителем - csv

источник

09:52пожаловаться #5

B

Bulatbulat48 in Scrapy

rtme

Тот случай когда парсинг делал по одной странице и пустил на все остальные ) теперь думаю как нормализовать эту дичь

Может лучше заново спарить в нормальный вид?

источник

09:53пожаловаться #6

r

rtme in Scrapy

Bulatbulat48

Может лучше заново спарить в нормальный вид?

да там сами данные такие, у одного объекта могут быть разные комплектации. Можно конечно повозиться, но не думаю что это сильно упростит задачу

источник

09:54пожаловаться #7

B

Bulatbulat48 in Scrapy

rtme

да там сами данные такие, у одного объекта могут быть разные комплектации. Можно конечно повозиться, но не думаю что это сильно упростит задачу

Тогда можно писать в json, к каждому объекту добавлять значения

источник

09:57пожаловаться #8

r

rtme in Scrapy

rtme

Это по сути количество типов таблиц, под каждый парсить тот ещё гем. А так это один объект, просто у одного меньше полей у другого больше. Просто перед тем как парсить на основе пары страниц посмотрел что они вроде одинаковые, а спарсил получил такой разбег в объёме полей.

источник

09:57пожаловаться #9

r

rtme in Scrapy

Bulatbulat48

Тогда можно писать в json, к каждому объекту добавлять значения

С json сильная просадка по скорости в таких объёмах

источник

09:59пожаловаться #10

B

Bulatbulat48 in Scrapy

я всеравно я не очень понимаю что не так с данными, покажите пример. Ну или можно кто другой подскажет.

источник

09:59пожаловаться #11

МС

Михаил Синегубов in Scrapy

rtme

Это по сути количество типов таблиц, под каждый парсить тот ещё гем. А так это один объект, просто у одного меньше полей у другого больше. Просто перед тем как парсить на основе пары страниц посмотрел что они вроде одинаковые, а спарсил получил такой разбег в объёме полей.

А какие объемы? Если не секрет. Ну и, никто не отменял базы. Либо типа монги

источник

10:04пожаловаться #12

r

rtme in Scrapy

Bulatbulat48

я всеравно я не очень понимаю что не так с данными, покажите пример. Ну или можно кто другой подскажет.

Brand;model;year;modifications; у модификации 20–100 полей (key, value)

Думаю собрать все названия полей, в sqlite создать колонки, а потом по совпадению записывать данные.

источник

10:04пожаловаться #13

r

rtme in Scrapy

Михаил Синегубов

А какие объемы? Если не секрет. Ну и, никто не отменял базы. Либо типа монги

15к объектов

источник

10:05пожаловаться #14

МС

Михаил Синегубов in Scrapy

rtme