热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

PHPCurl实现登陆采集

登陆采集,是指某些网页内容需要使用帐号登陆以后,才可以查看,传统的file_get_contents无法获取到登陆后才可查看的内容。curl是PHP中一个强大的组件,可以实现HTTP协议的HEAD,GET,POST方式访问数据,通过POST即可模拟用户登陆,然后拿到SESSION再获取具体的页面。注意事项:1、网页编码问题,如果对方的网页编码与你
登陆采集,是指某些网页内容需要使用帐号登陆以后,才可以查看,传统的file_get_contents无法获取到登陆后才可查看的内容。
curl是PHP中一个强大的组件,可以实现HTTP协议的HEAD,GET,POST方式访问数据,通过POST即可模拟用户登陆,然后拿到SESSION再获取具体的页面。

注意事项:
1、网页编码问题,如果对方的网页编码与你的不一致,请自行使用iconv或mb_string进行编码转换。
2、COOKIE保存的路径必须是绝对路径,一开始测试的时候,在WINDOWS上怎么也保存不上COOKIE,请确认你的路径。

废话不多说,直接看代码:

'coldstar','password'=>'123456.');
$COOKIEpath = $_SERVER["DOCUMENT_ROOT"] .'\\' .MD5($UserURL);	//以登陆域名的MD5值设置为COOKIE文件名
$html = curl_post_contents($UserURL,$UserData,$COOKIEpath);	//模拟登陆
if($html){
	if(stripos($html,'登陆成功')){
		$html = curl_get_contents($testURL,True,$COOKIEpath);	//获取真正的内容
	}else{
		$html = '登陆失败';
	}
}
echo $html;


function curl_get_contents($url,$useCOOKIE = 0,$COOKIEpath = ''){
	$userAgent = 'Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1)';
	$referer = $url;
	$ch = curl_init();
	curl_setopt($ch, CURLOPT_URL, $url);				//设置访问的url地址
	curl_setopt($ch, CURLOPT_TIMEOUT, 10);				//设置超时
	curl_setopt($ch, CURLOPT_USERAGENT, $userAgent);	//用户访问代理 User-Agent
	curl_setopt($ch, CURLOPT_REFERER, $referer);		//设置 referer
	if($useCOOKIE){
		curl_setopt($ch, CURLOPT_COOKIEFILE, $COOKIEpath);	//COOKIE的存储路径,传送时使用
	}
	curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);		//跟踪301
	curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);		//返回结果
	$r = curl_exec($ch);
	curl_close($ch);
	return $r;
}

function curl_post_contents($url,$data = array(),$COOKIEpath = ''){
	$userAgent = 'Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1)';
	$referer = $url;
	if(!is_array($data) || !$url) return '';
	foreach($data as $key=>$value){$post .= urlencode($key).'='.$value.'&';}
	rtrim($post ,'&');
	$ch = curl_init();
	curl_setopt($ch, CURLOPT_URL, $url);				//设置访问的url地址
	curl_setopt($ch, CURLOPT_TIMEOUT, 10);				//设置超时
	curl_setopt($ch, CURLOPT_USERAGENT, $userAgent);	//用户访问代理 User-Agent
	curl_setopt($ch, CURLOPT_REFERER, $referer);		//设置 referer
	curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 0);		//跟踪301
	curl_setopt($ch, CURLOPT_POST, 1);					//指定post数据
	curl_setopt($ch, CURLOPT_POSTFIELDS, $post);		//添加变量
	curl_setopt($ch, CURLOPT_COOKIEJAR, $COOKIEpath);	//COOKIE的存储路径,返回时保存COOKIE的路径
	curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);		//返回结果
	$r = curl_exec($ch);
	curl_close($ch);
	return $r;
}
?>

原文:http://www.yanghengfei.com/archives/506/


推荐阅读
  • Windows下配置PHP5.6的方法及注意事项
    本文介绍了在Windows系统下配置PHP5.6的步骤及注意事项,包括下载PHP5.6、解压并配置IIS、添加模块映射、测试等。同时提供了一些常见问题的解决方法,如下载缺失的msvcr110.dll文件等。通过本文的指导,读者可以轻松地在Windows系统下配置PHP5.6,并解决一些常见的配置问题。 ... [详细]
  • GetWindowLong函数
    今天在看一个代码里头写了GetWindowLong(hwnd,0),我当时就有点费解,靠,上网搜索函数原型说明,死活找不到第 ... [详细]
  • 本文介绍了lua语言中闭包的特性及其在模式匹配、日期处理、编译和模块化等方面的应用。lua中的闭包是严格遵循词法定界的第一类值,函数可以作为变量自由传递,也可以作为参数传递给其他函数。这些特性使得lua语言具有极大的灵活性,为程序开发带来了便利。 ... [详细]
  • 基于layUI的图片上传前预览功能的2种实现方式
    本文介绍了基于layUI的图片上传前预览功能的两种实现方式:一种是使用blob+FileReader,另一种是使用layUI自带的参数。通过选择文件后点击文件名,在页面中间弹窗内预览图片。其中,layUI自带的参数实现了图片预览功能。该功能依赖于layUI的上传模块,并使用了blob和FileReader来读取本地文件并获取图像的base64编码。点击文件名时会执行See()函数。摘要长度为169字。 ... [详细]
  • 如何去除Win7快捷方式的箭头
    本文介绍了如何去除Win7快捷方式的箭头的方法,通过生成一个透明的ico图标并将其命名为Empty.ico,将图标复制到windows目录下,并导入注册表,即可去除箭头。这样做可以改善默认快捷方式的外观,提升桌面整洁度。 ... [详细]
  • 本文介绍了使用Java实现大数乘法的分治算法,包括输入数据的处理、普通大数乘法的结果和Karatsuba大数乘法的结果。通过改变long类型可以适应不同范围的大数乘法计算。 ... [详细]
  • HDU 2372 El Dorado(DP)的最长上升子序列长度求解方法
    本文介绍了解决HDU 2372 El Dorado问题的一种动态规划方法,通过循环k的方式求解最长上升子序列的长度。具体实现过程包括初始化dp数组、读取数列、计算最长上升子序列长度等步骤。 ... [详细]
  • 本文讨论了Alink回归预测的不完善问题,指出目前主要针对Python做案例,对其他语言支持不足。同时介绍了pom.xml文件的基本结构和使用方法,以及Maven的相关知识。最后,对Alink回归预测的未来发展提出了期待。 ... [详细]
  • 本文讨论了如何优化解决hdu 1003 java题目的动态规划方法,通过分析加法规则和最大和的性质,提出了一种优化的思路。具体方法是,当从1加到n为负时,即sum(1,n)sum(n,s),可以继续加法计算。同时,还考虑了两种特殊情况:都是负数的情况和有0的情况。最后,通过使用Scanner类来获取输入数据。 ... [详细]
  • 本文介绍了C#中数据集DataSet对象的使用及相关方法详解,包括DataSet对象的概述、与数据关系对象的互联、Rows集合和Columns集合的组成,以及DataSet对象常用的方法之一——Merge方法的使用。通过本文的阅读,读者可以了解到DataSet对象在C#中的重要性和使用方法。 ... [详细]
  • 本文介绍了OC学习笔记中的@property和@synthesize,包括属性的定义和合成的使用方法。通过示例代码详细讲解了@property和@synthesize的作用和用法。 ... [详细]
  • Mac OS 升级到11.2.2 Eclipse打不开了,报错Failed to create the Java Virtual Machine
    本文介绍了在Mac OS升级到11.2.2版本后,使用Eclipse打开时出现报错Failed to create the Java Virtual Machine的问题,并提供了解决方法。 ... [详细]
  • 在说Hibernate映射前,我们先来了解下对象关系映射ORM。ORM的实现思想就是将关系数据库中表的数据映射成对象,以对象的形式展现。这样开发人员就可以把对数据库的操作转化为对 ... [详细]
  • 本文介绍了在SpringBoot中集成thymeleaf前端模版的配置步骤,包括在application.properties配置文件中添加thymeleaf的配置信息,引入thymeleaf的jar包,以及创建PageController并添加index方法。 ... [详细]
  • 本文介绍了在Win10上安装WinPythonHadoop的详细步骤,包括安装Python环境、安装JDK8、安装pyspark、安装Hadoop和Spark、设置环境变量、下载winutils.exe等。同时提醒注意Hadoop版本与pyspark版本的一致性,并建议重启电脑以确保安装成功。 ... [详细]
author-avatar
平凡我86
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有