Python中html乱码怎么办?一招教你轻松解决

在使用python爬虫去抓取数据的时候一般都是将这个网站的HTML结构和数据都抓取回来再进行数据的处理,但是有些小伙伴发现在打印html的时候没有乱码,保存在文件里就出现乱码了 。那么下面这一篇文章就来讲一个办法来解决html乱码的问题,一起看看吧 。

Python中html乱码怎么办?一招教你轻松解决

文章插图
在python之中直接将html代码输出到控制台的时候没有出现乱码的原因是当前的python程序已经设置了编码格式为中文的utf-8,但是在保存为文件的时候也需要去设置为中文编码格式,否则当html数据中有中文的时候就会出现乱码的情况 。
【Python中html乱码怎么办?一招教你轻松解决】在使用open()方法去打开或创建一个文本文档文件并写入数据的时候可以需要设置一下encoding参数的值为utf-8,这样这个文件就变成中文编码字符集了 。同时也要使用with语法来在这个文件写入数据完毕时自动的关闭文件并释放资源,示例如下:
from urllib import request    url = "http://www.renren.com/967487029/profile"    rsp = request.urlopen(url)html = rsp.read().decode()# 设置中文编码字符集    with open("rsp.html","w",encoding="utf-8")as f:        print(html)        f.write(html)以上就是关于“Python中html乱码怎么办?一招教你轻松解决”的全部内容了,想要了解更多python的实用知识和代码示例可以持续关注这个频道,每次更新都会有很多新的知识技术分享给大家 。

    推荐阅读