Size: a a a

2021 April 05

S

SoHard 🎄 in Scrapy
strip() еще
источник

i

i in Scrapy
а я не знал раньше, что перед ::text можно тоже пробел со значением как в остальных селекторах, и тогда он получается все вложенные текста берет, а не тока прямого  child,  я писал без пробела и получал одни /n в итоге. Долго мучился пока эту либу не нашел ^_^
источник

AR

Andrey Rahmatullin in Scrapy
Это равносильно *::text, как везде в цсс селекторах, никакой спецмагии тут нет
источник
2021 April 06

AZ

Alexandr Zamaraev in Scrapy
Документации по CPython 3.8.8 на русском языке

Леонид Хозяинов подготовил перевод  документации по CPython 3.8.8. Опубликованный материал по своей структуре, оформлению и функциональным возможностям стремится к официальной документации docs.python.org. Переведены следующие разделы.

https://www.opennet.ru/opennews/art.shtml?num=54908
источник

NZ

Nikita Zhidkov in Scrapy
Привет, подскажите, пожалуйста, какой обычно используется способ для создания уникального айди для страницы? Может берут url и как-то трансформируют?
источник

S

SoHard 🎄 in Scrapy
а чем тогда url не подходит?
источник

NZ

Nikita Zhidkov in Scrapy
да не то чтобы не подходит, я в базе собираюсь хранить, может есть какие другие способы которые будут получше
источник

S

SoHard 🎄 in Scrapy
вообще можешь хэшировать что-либо текст страницы/url и тд
источник

МС

Михаил Синегубов... in Scrapy
1. сам url  в явном виде. Плюс - глазкам понятно, минус - он большой, если у тебя десятки/сотни млн. записей
2. crc16/crc32. Плюс - это целое число, так что 4/8 байт, минус - они вроде не безопасны, в плане дублей
3. нарыть какой то ID на странице
источник

МС

Михаил Синегубов... in Scrapy
а вообще, для чего тебе этот ID потом нужен?
источник

i

i in Scrapy
url-то может проще как url и хранить, просто убрать из get-запроса какие-нибудь варианты ssid. Заодно избавляет от дубликативности. Из минусов - если ты хочешь версионирования, то еще надо хранить дату "съема" данных.
источник

МС

Михаил Синегубов... in Scrapy
тут, главный вопрос - нахрена козе баян? :)). Может все легко и просто, по факту
источник

NZ

Nikita Zhidkov in Scrapy
В целом айдишник далее используется для взаимодействия с пользователем, чтобы было понятно с каким элементом он взаимодействовал, тоесть поиск в базе будет по этому айдишнику для записи взаимодействия
источник

i

i in Scrapy
если уж прям надо хэшировать - лично я предлагаю blake3 - да, там больше символов, но оптимизирован так что по-скорости не отстает от md5 и в нем меньше коллизий.
источник

МС

Михаил Синегубов... in Scrapy
Мляк
источник

i

i in Scrapy
Все еще непонятно, не проще пользователю провзаимодействовать с урлом?
источник

i

i in Scrapy
имхо это какой-то частный случай XY-problem, термин, который я выучил из этого чатика)
источник

NZ

Nikita Zhidkov in Scrapy
пользователю урл и айдишник не нужны
источник

МС

Михаил Синегубов... in Scrapy
1. Поле url с уникальным ключём (чтобы не было дублей)
2. ID автоинкремент
источник

МС

Михаил Синегубов... in Scrapy
Все аплейты по id делать. Будет шустро
источник