2024-04-20 00:03:49
普通来讲对我们而言,需求抓取的是某个网站或者某个应用的内容,提取有用的价值。内容普通分为两局部,非构造化的数据 和 构造化的数据。
非构造化数据:先有数据,再有构造
构造化数据:先有构造、再有数据
不同类型的数据,我们需求采用不同的方式来处置。
非构造化的数据处置
文本、电话号码、邮箱地址
正则表达式
HTML 文件
正则表达式
XPath
CSS选择器
构造化的数据处置
JSON 文件
JSON Path
转化成Python类型停止操作(json类)
XML 文件
转化成Python类型(xmltodict)
XPath
CSS选择器
正则表达式
实践上python爬虫一共就四个主要步骤:
明白目的 (要晓得你准备在哪个范围或者网站去搜索)
爬 (将一切的网站的内容全部爬下来)
取 (去掉对我们没用途的数据)
处置数据(依照我们想要的方式存储和运用)
2024-04-20 11:19:43
2024-04-20 07:07:25