需要安装
pip install chardet
可以检测网页,也可以检测字符串
import urllib import chardet ‘‘‘ 从网页的头部信息可以查看的内容 网页的大小,编码等(有时候可能为空) 可以使用chardet来检测网页的编码 ‘‘‘ url = ‘http://baidu.com‘ headerInfo = urllib.urlopen(url).info() # headerInfo.getparam(‘charset‘) cOntext= urllib.urlopen(url) print chardet.detect(context)
返回的是一个字典,可以通过字典的key拿到对应的值
result = chardet.detect(context) print result[‘encoding‘]
import urllib import chardet ‘‘‘ 代码的封装 ‘‘‘ def auto_getCharset(targetUrl): cOntext= urllib.urlopen(targetUrl).read() result = chardet.detect(context) return result[‘encoding‘] if __name__==‘__main__‘: urls = [‘http://www.csdn.net/‘,‘http://www.imooc.com/‘,‘http://www.51cto.com/‘, ‘http://www.mukedaba.com/‘,‘http://www.nowcoder.com/‘] for url in urls: print url , auto_getCharset(url)
版权声明:本文为博主原创文章,未经博主允许不得转载。
chardet字符集检测模块