用python3可能抓取可能遇到编码问题
# _*_ coding:utf-8 _*_
__author__ = 'zb'
import urllib3
http = urllib3.PoolManager()
r = http.request('GET','http://www.baidu.com/')
print (r.status)
print(r.data.decode())
UnicodeEncodeError: ‘gbk’ codec can’t encode character ‘\xbb’ in position 3654: illegal multibyte sequence
你可以用.decode(‘gbk’, errors=‘ignore’)来解码
如 print(r.data.decode(‘gbk’, errors=‘ignore’))
本文探讨了使用Python3进行网页抓取时可能遇到的编码问题,具体展示了如何使用urllib3库抓取百度首页,并处理了由于编码不匹配导致的UnicodeEncodeError异常。通过调整解码方式为'gbk'并设置错误处理为'ignore',成功解决了问题。
2041

被折叠的 条评论
为什么被折叠?



