热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

phpcurl抓網頁數據問題,聽說內地神人很多,求神人解

因工作需求,需要抓取别人网站的数据,使用php+curl但是遇到问题无解听说内地的神人很多,请各位神人帮帮小弟,来自台湾的小弟已经爬文爬文三天了。网址:www.cbssports.commlbscoreboard然后,选...
因工作需求,需要抓取别人网站的数据,使用php + curl 但是遇到问题无解

听说内地的神人很多,请各位神人帮帮小弟,来自台湾的小弟已经爬文爬文三天了。


网址:http://www.cbssports.com/mlb/scoreboard

然后,选择下方正在比赛中的赛事,点选GAMETRACKER 就可以看到直播

问题来了

以这个网址为例:(当各位大大看到时,也许赛事已经结束了)

ttp://www.cbssports.com/mlb/gametracker/live/MLB_20140527_TB@TOR

小弟写的程序如下:

$game=array();
$ch = curl_init(); 
$search1=$_GET['searcharg']; 
$url ="http://www.cbssports.com/mlb/gametracker/live/MLB_20140527_TB@TOR"; 


$ch = curl_init(); 
curl_setopt($ch, CURLOPT_URL, $url); 
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); 
curl_setopt($ch, CURLOPT_USERAGENT, "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11");
$data = curl_exec($ch);

curl_close($ch);
preg_match_all('/(.*?)<\/span>/is',$data,$teamCity);

….(进行字符串解析)

目前已知问题:
不管是 「另存新檔」save as ,还是 检视原始档 ,一些该出现的html都没有出现,例如:
原网站为:


    
    Pitcher:M. Mariot |  # 48 RP
        
Game Stats

0.1 IP

0-0, 5.73 ERA, 11.0 IP, 9 K's, 6 BB

不管是另存新档的网页或是curl 抓出来的结果为


不管是另存新档的网页或是curl 抓出来的结果为


Pitcher:
Game Stats

上面蓝色代表没有显示出来的,

目前我试过的方式,送COOKIE!模拟浏览器 ,还是没效,
不知道各位内地的神人有没有解?请给小弟一个方向吧(跪求)

回复内容:

因工作需求,需要抓取别人网站的数据,使用php + curl 但是遇到问题无解

听说内地的神人很多,请各位神人帮帮小弟,来自台湾的小弟已经爬文爬文三天了。


网址:http://www.cbssports.com/mlb/scoreboard

然后,选择下方正在比赛中的赛事,点选GAMETRACKER 就可以看到直播

问题来了

以这个网址为例:(当各位大大看到时,也许赛事已经结束了)

ttp://www.cbssports.com/mlb/gametracker/live/MLB_20140527_TB@TOR

小弟写的程序如下:

$game=array();
$ch = curl_init(); 
$search1=$_GET['searcharg']; 
$url ="http://www.cbssports.com/mlb/gametracker/live/MLB_20140527_TB@TOR"; 


$ch = curl_init(); 
curl_setopt($ch, CURLOPT_URL, $url); 
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); 
curl_setopt($ch, CURLOPT_USERAGENT, "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11");
$data = curl_exec($ch);

curl_close($ch);
preg_match_all('/(.*?)<\/span>/is',$data,$teamCity);

….(进行字符串解析)

目前已知问题:
不管是 「另存新檔」save as ,还是 检视原始档 ,一些该出现的html都没有出现,例如:
原网站为:

Pitcher:M. Mariot |  # 48 RP
Game Stats

0.1 IP

0-0, 5.73 ERA, 11.0 IP, 9 K's, 6 BB

Pitcher:
Game Stats

上面蓝色代表没有显示出来的,

目前我试过的方式,送COOKIE!模拟浏览器 ,还是没效,
不知道各位内地的神人有没有解?请给小弟一个方向吧(跪求)

额,不知道你碰到了什么问题,不过我看了下就是简单的抓取,完全没问题啊。另外,解析HTML请不要在用正则了,推荐你用一下 phpQuery 这个库,PHP抓取利器。以你给的网址为例:

include "phpQuery.php";
phpQuery::newDocumentFile("http://www.cbssports.com/mlb/gametracker/live/MLB_20140527_TB@TOR");
echo pq("#current-pitcher")->html();

我遇到的问题 其实说穿了就是

...我用firbug 或 chrome debug时,所追踪的html 跟我 「检视原始档」和「另存新档」时所看到的资料不同:

目前有赛事 http://www.cbssports.com/mlb/gametracker/live/MLB_20140527_DET@OAK

神人求解

你想要抓去的html内容,是由Javascript生成的,抓包工具都不会解析执行Javascript的。
解决方法就是用phantomjs,可以跑一个受脚本控制的,无界面的webkit。

推荐阅读
  • ECMA262规定typeof操作符的返回值和instanceof的使用方法
    本文介绍了ECMA262规定的typeof操作符对不同类型的变量的返回值,以及instanceof操作符的使用方法。同时还提到了在不同浏览器中对正则表达式应用typeof操作符的返回值的差异。 ... [详细]
  • Python瓦片图下载、合并、绘图、标记的代码示例
    本文提供了Python瓦片图下载、合并、绘图、标记的代码示例,包括下载代码、多线程下载、图像处理等功能。通过参考geoserver,使用PIL、cv2、numpy、gdal、osr等库实现了瓦片图的下载、合并、绘图和标记功能。代码示例详细介绍了各个功能的实现方法,供读者参考使用。 ... [详细]
  • 文章目录简介HTTP请求过程HTTP状态码含义HTTP头部信息Cookie状态管理HTTP请求方式简介HTTP协议(超文本传输协议)是用于从WWW服务 ... [详细]
  • 最近在学Python,看了不少资料、视频,对爬虫比较感兴趣,爬过了网页文字、图片、视频。文字就不说了直接从网页上去根据标签分离出来就好了。图片和视频则需要在获取到相应的链接之后取做下载。以下是图片和视 ... [详细]
  • Scrapy 爬取图片
    1.创建Scrapy项目scrapystartprojectCrawlMeiziTuscrapygenspiderMeiziTuSpiderhttps:movie.douban.c ... [详细]
  • 目录爬虫06scrapy框架1.scrapy概述安装2.基本使用3.全栈数据的爬取4.五大核心组件对象5.适当提升scrapy爬取数据的效率6.请求传参爬虫06scrapy框架1. ... [详细]
  • Voicewo在线语音识别转换jQuery插件的特点和示例
    本文介绍了一款名为Voicewo的在线语音识别转换jQuery插件,该插件具有快速、架构、风格、扩展和兼容等特点,适合在互联网应用中使用。同时还提供了一个快速示例供开发人员参考。 ... [详细]
  • 使用正则表达式爬取36Kr网站首页新闻的操作步骤和代码示例
    本文介绍了使用正则表达式来爬取36Kr网站首页所有新闻的操作步骤和代码示例。通过访问网站、查找关键词、编写代码等步骤,可以获取到网站首页的新闻数据。代码示例使用Python编写,并使用正则表达式来提取所需的数据。详细的操作步骤和代码示例可以参考本文内容。 ... [详细]
  • 深入理解CSS中的margin属性及其应用场景
    本文主要介绍了CSS中的margin属性及其应用场景,包括垂直外边距合并、padding的使用时机、行内替换元素与费替换元素的区别、margin的基线、盒子的物理大小、显示大小、逻辑大小等知识点。通过深入理解这些概念,读者可以更好地掌握margin的用法和原理。同时,文中提供了一些相关的文档和规范供读者参考。 ... [详细]
  • 使用chrome编辑器实现网页截图功能的方法
    本文介绍了在chrome浏览器中使用编辑器实现网页截图功能的方法。通过在地址栏中输入特定命令,打开控制台并调用命令面板,用户可以方便地进行网页截图操作。 ... [详细]
  • 本文整理了常用的CSS属性及用法,包括背景属性、边框属性、尺寸属性、可伸缩框属性、字体属性和文本属性等,方便开发者查阅和使用。 ... [详细]
  • css元素可拖动,如何使用CSS禁止元素拖拽?
    一、用户行为三剑客以下3个CSS属性:user-select属性可以设置是否允许用户选择页面中的图文内容;user-modify属性可以设置是否允许输入 ... [详细]
  • 这个问题发生在重新安装系统后,丢失了之前的privatekey等。所以解决方法就是提示的revokeandrequest。到developercenter中找到certificat ... [详细]
  • 1,关于死锁的理解死锁,我们可以简单的理解为是两个线程同时使用同一资源,两个线程又得不到相应的资源而造成永无相互等待的情况。 2,模拟死锁背景介绍:我们创建一个朋友 ... [详细]
  • 2016 linux发行版排行_灵越7590 安装 linux (manjarognome)
    RT之前做了一次灵越7590黑苹果炒作业的文章,希望能够分享给更多不想折腾的人。kawauso:教你如何给灵越7590黑苹果抄作业​zhuanlan.z ... [详细]
author-avatar
me
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有