Size: a a a

2021 June 03

MZ

Marsel Ziatdinov in Scrapy
источник

MZ

Marsel Ziatdinov in Scrapy
remove_tags где-то взял
источник

AR

Andrey Rahmatullin in Scrapy
мда
источник

AR

Andrey Rahmatullin in Scrapy
ну ок, успехов
источник

AR

Andrey Rahmatullin in Scrapy
а, или ты про \n в репр дикта? :))))
источник

MZ

Marsel Ziatdinov in Scrapy
from w3lib.html import remove_tags
источник

MZ

Marsel Ziatdinov in Scrapy
да
источник

MZ

Marsel Ziatdinov in Scrapy
ну они и к тексту применяются тоже, не понятно
источник

AR

Andrey Rahmatullin in Scrapy
не применяются
источник

AR

Andrey Rahmatullin in Scrapy
потому что "их" нет
источник

AR

Andrey Rahmatullin in Scrapy
нет никакого " вставляет в значения в словари '\n'" как мы видим
источник

MZ

Marsel Ziatdinov in Scrapy
А почему тогда, когда я использую обычный словарь, то text выводится в строчку. А если я использую ItemLoader(), то так. Ну если он не меняет сами значения, то мне норм
источник

AR

Andrey Rahmatullin in Scrapy
это неправда
источник

МС

Михаил Синегубов... in Scrapy
дай пару айтемов
источник

МС

Михаил Синегубов... in Scrapy
неочищенных от этих "волшебных" концов строк
источник

AR

Andrey Rahmatullin in Scrapy
ну и чем это вообще печатается? скрапишным логгером?
источник

MZ

Marsel Ziatdinov in Scrapy
print()
источник

MZ

Marsel Ziatdinov in Scrapy
import unicodedata


import scrapy
from itemloaders.processors import TakeFirst, MapCompose
from w3lib.html import remove_tags


def replace_more(value):
   value = value.strip().replace(u'\r', u'').replace(u'\n', u'').replace(u'\t', u'')\
       .replace(u'\u200c', u'').replace(u'\u200b', u'')
   value = unicodedata.normalize("NFKD", value)
   return value


class CompetitorsNewsItem(scrapy.Item):
   from_site = scrapy.Field(output_processor=TakeFirst())
   published_date = scrapy.Field(output_processor=TakeFirst())
   title = scrapy.Field(input_processor=MapCompose(remove_tags, replace_more), output_processor=TakeFirst())
   href = scrapy.Field(output_processor=TakeFirst())
   text = scrapy.Field(input_processor=MapCompose(remove_tags, replace_more), output_processor=TakeFirst())
   is_match = scrapy.Field(output_processor=TakeFirst())
   ti_id = scrapy.Field(output_processor=TakeFirst())
источник

MZ

Marsel Ziatdinov in Scrapy
или так
источник

МС

Михаил Синегубов... in Scrapy
выведи в JSON  и посмотри что там, или в csv
источник