在python爬虫脚本之中通过requests库以及urllib库抓取回来的数据都是一整个网页的源代码,而有些时候可能只是需要这些html代码中某一个标签内的数据 。所以本篇文章会来给大家详细的介绍一下python处理html网页代码并且获取标签内容的方法,一起往下看看吧 。
文章插图
【Python怎么获取网页标签中的内容?Python如何获取网页某个标签】1.爬虫抓取数据的模块requests是不需要去下载安装,导入之后直接调用里面的get()以及post()方法就可以从指定网页上抓取数据会来 。但是处理html网页标签则要用到第三方模块BeautifulSoup了,调用pip工具在命令行把它下载安装好再导入程序中,示例如下:
import requestsfrom bs4 import BeautifulSoupreq=requests.get('https://www.cgo.cc/ier.html?page=1')2.req就是从网页上面抓取回来的数据,虽然是html格式的,但是以字符串类型保存 。第二步是将其编码格式设置为支持中文的utf-8,然后使用Soup方法通过parser解析器将html网页数据之中的文本进行解析并且返回,示例如下:
req.encoding = "utf-8"req = BeautifulSoup(html.text, 'html.parser')3.上面这一步已经将整个req都转为了可以去进行解析和处理的html格式数据,接下来得要使用find_all()来通过标签名以及类名、name值、id名等属性来寻找到指定的标签 。然后才可以使用text属性将标签内容给取出来,这里的标签类名等需要自己打开F12查看源代码,代码示例如下所示:
company_item = soup.find("div",class_="detail_head")dd = company_item.text.strip()print(dd)以上就是关于“Python怎么获取网页标签中的内容?Python如何获取网页某个标签”的全部内容了,希望对你有所帮助 。
推荐阅读
- 现代索纳塔怎么样值得入手吗 索纳塔2021款怎么样值得买吗
- Python怎么保存csv文件?Python保存csv格式文件需要用什么方法
- 深圳天源迪科公司怎么样 天源迪科是国企还是私企
- 在拼多多开网店免费 拼多多怎么申请开店
- 新款雪佛兰迈锐宝xl 雪佛兰迈锐宝1.5t怎么样
- 星露谷物语电池组怎么获得
- 高C时是怎样的感觉 女生自己怎么对自己那个
- 福王朱常洵被煮怎么回事 明末福王朱常洵的凄惨结局
- 原神稻妻绀田村井怎么开
- 历史上左宗棠怎么评价曾国藩 左宗棠瞧不起曾国藩吗