我想用正则表达式来取出文件中的html标签,在stack overflow上查了发现很多人说正则表达式不能完美解决这个问题,请问有什么好的库可以完成吗?
不知道题主知不知道xpath? xpath w3school
Beautiful Soup完全满足你的需求文档下载地址
http://www.crummy.com/software/BeautifulSoup/bs4/doc/