作者:me | 来源:互联网 | 2017-05-14 02:20
因工作需求,需要抓取别人网站的数据,使用php+curl但是遇到问题无解听说内地的神人很多,请各位神人帮帮小弟,来自台湾的小弟已经爬文爬文三天了。网址:www.cbssports.commlbscoreboard然后,选...
因工作需求,需要抓取别人网站的数据,使用php + curl 但是遇到问题无解
听说内地的神人很多,请各位神人帮帮小弟,来自台湾的小弟已经爬文爬文三天了。
网址:http://www.cbssports.com/mlb/scoreboard
然后,选择下方正在比赛中的赛事,点选GAMETRACKER 就可以看到直播
问题来了
以这个网址为例:(当各位大大看到时,也许赛事已经结束了)
ttp://www.cbssports.com/mlb/gametracker/live/MLB_20140527_TB@TOR
小弟写的程序如下:
$game=array();
$ch = curl_init();
$search1=$_GET['searcharg'];
$url ="http://www.cbssports.com/mlb/gametracker/live/MLB_20140527_TB@TOR";
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_USERAGENT, "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11");
$data = curl_exec($ch);
curl_close($ch);
preg_match_all('/(.*?)<\/span>/is',$data,$teamCity);
….(进行字符串解析)
目前已知问题:
不管是 「另存新檔」save as ,还是 检视原始档 ,一些该出现的html都没有出现,例如:
原网站为:
Pitcher: M. Mariot | # 48 RP
Game Stats
0.1 IP
0-0, 5.73 ERA, 11.0 IP, 9 K's, 6 BB
不管是另存新档的网页或是curl 抓出来的结果为
Pitcher:
Game Stats
上面蓝色代表没有显示出来的,
目前我试过的方式,送COOKIE!模拟浏览器 ,还是没效,
不知道各位内地的神人有没有解?请给小弟一个方向吧(跪求)
回复内容:
因工作需求,需要抓取别人网站的数据,使用php + curl 但是遇到问题无解
听说内地的神人很多,请各位神人帮帮小弟,来自台湾的小弟已经爬文爬文三天了。
网址:http://www.cbssports.com/mlb/scoreboard
然后,选择下方正在比赛中的赛事,点选GAMETRACKER 就可以看到直播
问题来了
以这个网址为例:(当各位大大看到时,也许赛事已经结束了)
ttp://www.cbssports.com/mlb/gametracker/live/MLB_20140527_TB@TOR
小弟写的程序如下:
$game=array();
$ch = curl_init();
$search1=$_GET['searcharg'];
$url ="http://www.cbssports.com/mlb/gametracker/live/MLB_20140527_TB@TOR";
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_USERAGENT, "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11");
$data = curl_exec($ch);
curl_close($ch);
preg_match_all('/(.*?)<\/span>/is',$data,$teamCity);
….(进行字符串解析)
目前已知问题:
不管是 「另存新檔」save as ,还是 检视原始档 ,一些该出现的html都没有出现,例如:
原网站为:
Pitcher: M. Mariot | # 48 RP
Game Stats
0.1 IP
0-0, 5.73 ERA, 11.0 IP, 9 K's, 6 BB
不管是另存新档的网页或是curl 抓出来的结果为
Pitcher:
Game Stats
上面蓝色代表没有显示出来的,
目前我试过的方式,送COOKIE!模拟浏览器 ,还是没效,
不知道各位内地的神人有没有解?请给小弟一个方向吧(跪求)
额,不知道你碰到了什么问题,不过我看了下就是简单的抓取,完全没问题啊。另外,解析HTML请不要在用正则了,推荐你用一下 phpQuery 这个库,PHP抓取利器。以你给的网址为例:
include "phpQuery.php";
phpQuery::newDocumentFile("http://www.cbssports.com/mlb/gametracker/live/MLB_20140527_TB@TOR");
echo pq("#current-pitcher")->html();
我遇到的问题 其实说穿了就是
...我用firbug 或 chrome debug时,所追踪的html 跟我 「检视原始档」和「另存新档」时所看到的资料不同:
目前有赛事 http://www.cbssports.com/mlb/gametracker/live/MLB_20140527_DET @OAK
神人求解
你想要抓去的html内容,是由Javascript生成的,抓包工具都不会解析执行Javascript的。
解决方法就是用phantomjs,可以跑一个受脚本控制的,无界面的webkit。
推荐阅读
本文介绍了ECMA262规定的typeof操作符对不同类型的变量的返回值,以及instanceof操作符的使用方法。同时还提到了在不同浏览器中对正则表达式应用typeof操作符的返回值的差异。 ...
[详细]
蜡笔小新 2023-12-10 17:31:51
本文提供了Python瓦片图下载、合并、绘图、标记的代码示例,包括下载代码、多线程下载、图像处理等功能。通过参考geoserver,使用PIL、cv2、numpy、gdal、osr等库实现了瓦片图的下载、合并、绘图和标记功能。代码示例详细介绍了各个功能的实现方法,供读者参考使用。 ...
[详细]
蜡笔小新 2023-12-13 12:14:55
文章目录简介HTTP请求过程HTTP状态码含义HTTP头部信息Cookie状态管理HTTP请求方式简介HTTP协议(超文本传输协议)是用于从WWW服务 ...
[详细]
蜡笔小新 2023-10-15 14:59:43
最近在学Python,看了不少资料、视频,对爬虫比较感兴趣,爬过了网页文字、图片、视频。文字就不说了直接从网页上去根据标签分离出来就好了。图片和视频则需要在获取到相应的链接之后取做下载。以下是图片和视 ...
[详细]
蜡笔小新 2023-10-15 09:28:43
1.创建Scrapy项目scrapystartprojectCrawlMeiziTuscrapygenspiderMeiziTuSpiderhttps:movie.douban.c ...
[详细]
蜡笔小新 2023-10-14 15:02:27
目录爬虫06scrapy框架1.scrapy概述安装2.基本使用3.全栈数据的爬取4.五大核心组件对象5.适当提升scrapy爬取数据的效率6.请求传参爬虫06scrapy框架1. ...
[详细]
蜡笔小新 2023-10-13 22:01:54
本文介绍了一款名为Voicewo的在线语音识别转换jQuery插件,该插件具有快速、架构、风格、扩展和兼容等特点,适合在互联网应用中使用。同时还提供了一个快速示例供开发人员参考。 ...
[详细]
蜡笔小新 2023-12-13 20:01:16
本文介绍了使用正则表达式来爬取36Kr网站首页所有新闻的操作步骤和代码示例。通过访问网站、查找关键词、编写代码等步骤,可以获取到网站首页的新闻数据。代码示例使用Python编写,并使用正则表达式来提取所需的数据。详细的操作步骤和代码示例可以参考本文内容。 ...
[详细]
蜡笔小新 2023-12-12 19:16:21
本文主要介绍了CSS中的margin属性及其应用场景,包括垂直外边距合并、padding的使用时机、行内替换元素与费替换元素的区别、margin的基线、盒子的物理大小、显示大小、逻辑大小等知识点。通过深入理解这些概念,读者可以更好地掌握margin的用法和原理。同时,文中提供了一些相关的文档和规范供读者参考。 ...
[详细]
蜡笔小新 2023-12-12 18:01:10
本文介绍了在chrome浏览器中使用编辑器实现网页截图功能的方法。通过在地址栏中输入特定命令,打开控制台并调用命令面板,用户可以方便地进行网页截图操作。 ...
[详细]
蜡笔小新 2023-12-10 15:50:00
本文整理了常用的CSS属性及用法,包括背景属性、边框属性、尺寸属性、可伸缩框属性、字体属性和文本属性等,方便开发者查阅和使用。 ...
[详细]
蜡笔小新 2023-12-09 03:01:43
一、用户行为三剑客以下3个CSS属性:user-select属性可以设置是否允许用户选择页面中的图文内容;user-modify属性可以设置是否允许输入 ...
[详细]
蜡笔小新 2023-10-17 14:35:15
这个问题发生在重新安装系统后,丢失了之前的privatekey等。所以解决方法就是提示的revokeandrequest。到developercenter中找到certificat ...
[详细]
蜡笔小新 2023-10-15 12:07:56
1,关于死锁的理解死锁,我们可以简单的理解为是两个线程同时使用同一资源,两个线程又得不到相应的资源而造成永无相互等待的情况。 2,模拟死锁背景介绍:我们创建一个朋友 ...
[详细]
蜡笔小新 2023-12-13 19:12:25
RT之前做了一次灵越7590黑苹果炒作业的文章,希望能够分享给更多不想折腾的人。kawauso:教你如何给灵越7590黑苹果抄作业zhuanlan.z ...
[详细]
蜡笔小新 2023-12-10 19:11:07