Python如何使用第三方库xpath?Python爬虫怎么实现网页节点解析

python之中爬虫直接访问网页时会将整个网页的源代码,也就是html格式的数据给抓取回来,那么所需要做的事情就是用库和模块来解析网页从而获取所需数据 。下文会来讲解一下该怎么使用第三方库xpath来完成对网页节点的解析,一起往下看看吧 。

Python如何使用第三方库xpath?Python爬虫怎么实现网页节点解析

文章插图
一、HTML结构
在使用这个第三方库之前首先需要知道html格式是一个典型的树形节点结构,示例如下所示:
<div price="99.8">  <ul>    <li>时间</li>    <li>地点</li>   <li>任务</li>  </ul></div>这种格式的数据之中所有的内容都是由一对对标签所组成的,而这个标签就是节点 。以上html结构是一个三层节点数,div下面是ul,而ul下面又是三个li节点,通过这样一层层的顺序节点结构就很容易找到所需要的数据 。
二、xpath解析网页
那么使用xpath这个第三方库来对html网页数据进行解析的话,就是有很多中不同的方式,其中//是最为常用的 。它表示能够取到文档之中所有匹配的节点,示例如下所示:
print tree.xpath('//@code')html数据之中每个标签内都是可以去自定义属性的,而这个属性还能够赋值并且取值 。而以上代码的作用就是,获取到所有节点并将属性code的值给输出 。
从这里就可以知道xpath库是根据属性、id、name、class等等标签所具有的的特征来获取到对应节点的,得到节点之后就可以修改其中的值或者是得到属性对应的值了 。
【Python如何使用第三方库xpath?Python爬虫怎么实现网页节点解析】以上就是关于“Python如何使用第三方库xpath?Python爬虫怎么实现网页节点解析”的全部内容了,希望对你有所帮助 。

    推荐阅读