Python使用urllib2模块抓取HTML页面资源的实例分享

2024-03-21 11:31:42 网络

大家快瞧那结冰的湖水，春风一吹冰都融化了，河里的小鱼都游出海面，在湖水中自由的游来游去，多可爱的小鱼啊！多么欢快的小鱼啊！真是让人深深的为它那可爱的摸样着迷。春风一吹过那枯黄的小草身边时，小草突然边了摸样，它从原来的枯黄变成了嫩绿，慢慢地小草从嫩绿变成了鲜绿渐渐地越变越绿，绿的让人难以相信那是小草。啊！小草我为你的样子感到是个奇迹。

先把要抓取的网络地址列在单独的list文件中

//www.haodaima.com/article/83440.html
//www.haodaima.com/article/83437.html
//www.haodaima.com/article/83430.html
//www.haodaima.com/article/83449.html

然后我们来看程序操作，代码如下：

#!/usr/bin/python

import os
import sys
import urllib2
import re

def Cdown_data(fileurl, fpath, dpath):
 if not os.path.exists(dpath):
  os.makedirs(dpath)
 try:
  getfile = urllib2.urlopen(fileurl) 
  data = getfile.read()
  f = open(fpath, 'w')
  f.write(data)
  f.close()
 except:
 print 

with open('u1.list') as lines:
 for line in lines:
  URI = line.strip()
  if '?' and '%' in URI:
   continue
 elif URI.count('/') == 2:
   continue
  elif URI.count('/') > 2:
   #print URI,URI.count('/')
  try:
    dirpath = URI.rpartition('/')[0].split('//')[1]
    #filepath = URI.split('//')[1].split('/')[1]
    filepath = URI.split('//')[1]
   if filepath:
     print URI,filepath,dirpath
     Cdown_data(URI, filepath, dirpath)
   except:
    print URI,'error'

以上就是Python使用urllib2模块抓取HTML页面资源的实例分享。爱情的成功，很简单，就是做一个有安全感的男人。像一个男人那样的活着。把自己想象成一个狮王，方圆百里大的狮王。事业的成功则需要不断的努力，以前生存没现在这么简单，那么要做的就是……活下去。现在活下去很简单了。那么要做的就是……更好的活下去。向着自己喜欢的那个方向，不断前进，永不放弃。更多关于Python使用urllib2模块抓取HTML页面资源的实例分享请关注haodaima.com其它相关文章！

全站频道

大家都在搜索：

Python使用urllib2模块抓取HTML页面资源的实例分享