Python使用scrapy抓取网站sitemap信息的方法

2024-04-10 22:45:07 互联网

一个兢兢业业、无微不至的保姆。你用自己的一只手——雪，把那青绿的麦苗爱抚地搂在怀里，给他以温暖和关怀。麦苗在那层层棉被下静静地期待，期待着来春生长发育。蛇、鳝、熊等等，有的钻进了深泥，有的藏入树洞，休息一冬，养精蓄锐，方有新春来到时的精神振奋。你用自己的另一只手――寒风，举刀挥剑，把那些残害农作物的害虫，砍光杀尽，把那些残害人类、牲畜的虎豹豺豺狼驱赶进深山老林。冬呵！你严守阵地，不容侵犯；你，是一位最负责任的对友火热温情，对敌残忍无情的好保姆。

本文实例讲述了Python使用scrapy抓取网站sitemap信息的方法。分享给大家供大家参考。具体如下：

import re
from scrapy.spider import BaseSpider
from scrapy import log
from scrapy.utils.response import body_or_str
from scrapy.http import Request
from scrapy.selector import HtmlXPathSelector
class SitemapSpider(BaseSpider):
 name = "SitemapSpider"
 start_urls = ["http://www.domain.com/sitemap.xml"]
 def parse(self, response):
  nodename = 'loc'
  text = body_or_str(response)
  r = re.compile(r"(<%s[\s>])(.*?)(</%s>)"%(nodename,nodename),re.DOTALL)
  for match in r.finditer(text):
   url = match.group(2)
   yield Request(url, callback=self.parse_page)
 def parse_page(self, response):
    hxs = HtmlXPathSelector(response)
    #Mock Item
  blah = Item()
  #Do all your page parsing and selecting the elemtents you want
    blash.divText = hxs.select('//div/text()').extract()[0]
  yield blah

希望本文所述对大家的Python程序设计有所帮助。

本文Python使用scrapy抓取网站sitemap信息的方法到此结束。人不能像走兽一样活着，应该追求知识与美德。小编再次感谢大家对我们的支持！

全站频道

大家都在搜索：

Python使用scrapy抓取网站sitemap信息的方法