在处理下载网页的时候,有时候会碰到一些奇葩的网页,在使用beautifulsoup解析的时候,会修改原来的html源码,导致下载的网页不完整。
比如:
from bs4 import BeautifulSoup html="""12
12
""" soup = BeautifulSoup(html) print str(soup)
结果:12
我的本意是先使用BeautifulSoup先对源代码进行解析处理,之后在保存html源码到本地。
而上面的例子,很明显就改变了网页源码了,导致下载的网页不全。
目前的解决办法
html = re.sub("