作者:mobiledu2502891413 | 来源:互联网 | 2018-05-13 08:53
抓取天猫的商品列表数据,但是一页的数据量是60条商品,一页的数据量大小为530k,有效的列表数据是200k左右。现在抓取的时间太慢了,我使用的是curl进行抓取,在执行curl_exec的时候,执行时间达到了7-9s通过正...
抓取天猫的商品列表数据,但是一页的数据量是60条商品,一页的数据量大小为530k,有效的列表数据是200k左右。
现在抓取的时间太慢了,我使用的是 curl 进行抓取,在执行curl_exec的时候,执行时间达到了7-9s
通过正则去分解列表页我觉得是做不到,好像是可以规定从多少k的数据量大小的位置进行抓取,到哪里结束??
回复内容:
抓取天猫的商品列表数据,但是一页的数据量是60条商品,一页的数据量大小为530k,有效的列表数据是200k左右。
现在抓取的时间太慢了,我使用的是 curl 进行抓取,在执行curl_exec的时候,执行时间达到了7-9s
通过正则去分解列表页我觉得是做不到,好像是可以规定从多少k的数据量大小的位置进行抓取,到哪里结束??
普通的网页服务器一般不设分段下载的机制,所以也没法拆分数据。如果仅500K的内容就抓这么久,看来你需要检查CURL的配置或者网络问题了。
看样子是网速问题,建议多开几个抓取进程。
@有明 求助
试试curl_multi
php还想怎样