作者:safecaps | 来源:互联网 | 2017-05-14 02:20
现在只用Readability可以抓取一部分大站内容,但还是有很多网站的内容不能准确抓取到,所以想配合使用xpath规则抓取特定网站的内容。但是如果文章是图文混排的,抓取完成后的图文顺序就打乱了。是否有办法记录下...
现在只用
Readability
可以抓取一部分大站内容,但还是有很多网站的内容不能准确抓取到,所以想配合使用xpath规则抓取特定网站的内容。
但是如果文章是图文混排的,抓取完成后的图文顺序就打乱了。
是否有办法记录下顺序,或者用xpath完整地抓取特定区域内的图文。
回复内容:
现在只用Readability
可以抓取一部分大站内容,但还是有很多网站的内容不能准确抓取到,所以想配合使用xpath规则抓取特定网站的内容。
但是如果文章是图文混排的,抓取完成后的图文顺序就打乱了。
是否有办法记录下顺序,或者用xpath完整地抓取特定区域内的图文。
好吧,自己想到了一个解决方案。
预先用xpath把图片url提取出来,然后把原先图片部分node替换成image url
这样只要输出的时候做一下图片url判断就行。