我试图让scrapy解析页面上的链接来刮擦.不幸的是,此页面上的链接包含在JavaScript onclick功能中.我想使用SgmlLinkExtractor规则来提取解析JavaScript的链接,并创建用于callback ='parse_item'的URL(如果可能).
以下是使用JS函数的每个链接的示例:
Link Text
我只需要链接提取器发送到回调parse_item:http://domain.com/page.asp?ProductID = 3679
我如何编写CrawlSpider规则来执行此操作?
如果这不可能,那么最终能够解析在定义的一组起始页上嵌入这种JavaScript链接格式的所有页面的最佳方法是什么?
谢谢你们.