Size: a a a

2019 September 14

I

Ivan in Scrapy
Кофе зерновой LavAzza Qualita Rossa (оригинал Аскания) 1 кг
источник

I

Ivan in Scrapy
Кофе в зернах Lavazza Qualita Rossa 1кг
источник

I

Ivan in Scrapy
Кофе LAVAZZA QUALITA ROSSA (1кг)
источник

I

Ivan in Scrapy
3 варианта
источник

К

Кирилл in Scrapy
да, тогда норм вариант убрать кирилицу
источник

К

Кирилл in Scrapy
и lower()
источник

iz

izzz zzi in Scrapy
Кирилл
и lower()
+
источник

К

Кирилл in Scrapy
и пробелы.. наверное
источник

iz

izzz zzi in Scrapy
Кирилл
и пробелы.. наверное
strip
источник

I

Ivan in Scrapy
re.compile('[^a-zA-Z ,0-9]')
источник

I

Ivan in Scrapy
так хочу фильтровать
источник

К

Кирилл in Scrapy
нет, я полностью имею ввиду, между словами тоже, только  ASCII оставить
источник

iz

izzz zzi in Scrapy
Кирилл
нет, я полностью имею ввиду, между словами тоже, только  ASCII оставить
Ну если он регуляркой будет получать текст
источник

I

Ivan in Scrapy
просто есть товары с название кириллицей
источник

I

Ivan in Scrapy
Стаканчик бумажный 175 мл. 50 шт
Стаканчик картонный 175мл (50шт)
источник

К

Кирилл in Scrapy
тогда NLP :D
источник

EB

Elisei Badanin in Scrapy
Ещё проблема в размере упаковки
источник

МС

Михаил Синегубов in Scrapy
Ivan
просто есть товары с название кириллицей
а если пошагово подойти? к примеру
1. испльзовать либу Wordnet
2. для оставшихся убрать кирилицу и сравнить, если осталось более 1/3 длины
3. еще что то придумать

я про то, что не надо кидаться сразу писать универсальное средство
источник

I

Ivan in Scrapy
Михаил Синегубов
а если пошагово подойти? к примеру
1. испльзовать либу Wordnet
2. для оставшихся убрать кирилицу и сравнить, если осталось более 1/3 длины
3. еще что то придумать

я про то, что не надо кидаться сразу писать универсальное средство
там всего 600 товаров на сравнение, так что то что плохо сравнит буду руками делать, и связывать по url товаров, а потом по url буду фильтровать
источник

МС

Михаил Синегубов in Scrapy
Ivan
там всего 600 товаров на сравнение, так что то что плохо сравнит буду руками делать, и связывать по url товаров, а потом по url буду фильтровать
ааа, так то да, тут и 50% нормуль будет.
иногда "дешевле" руками все сделать, а не курить код несколько дней 😂
тем более, если оно единоразово надо
источник