热门标签 | HotTags
当前位置:  开发笔记 > 前端 > 正文

用CI框架抓取文章标题、内容、来源图片代码

这是一个抓取页面的代码,做一个备份,方便以后调用,看了看代码还可以,所以转过来分享给朋友们。有意见的后面登录留言
这是一个抓取页面的代码,做一个备份,方便以后调用,看了看代码还可以,所以转过来分享给朋友们。有意见的后面登录留言
public function snatch()
  {
       set_time_limit(0);
       $this->benchmark->mark('code_start');
       /*获取不同类别的二手车新闻*/
       for($i=1;$i<=4;$i++)
       {
        $url = 'http://news.2sche.cn/list.asp?stype='.$i;
        $result = $this->curl_snatch($url);

        preg_match_all('/\d\/(.*?)<\/strong>/', $result, $page_news);
        //print_r($page_news);
        //echo '
'; /*获取单个类别下所有分页页面的新闻列表*/ for($j=1;$j<=$page_news[1];$j++) { if(1 == $j) { $url_news = 'http://news.2sche.cn/list.asp?stype='.$i; } else { $url_news = 'http://news.2sche.cn/list.asp?page='.$j.'&stype='.$i; } $result_news = $this->curl_snatch($url_news); preg_match_all('/.*?<\/a><\/td>/sim', $result_news, $url_newslist); //print_r($url_newslist); /*遍历列表页每个url*/ foreach($url_newslist[1] as $url_newslists) { $url_newsinfo = 'http://news.2sche.cn/'.$url_newslists; $result_newsinfo = $this->curl_snatch($url_newsinfo); /*获取标题*/ preg_match_all('/

(.*?)<\/strong><\/h3>/sim', $result_newsinfo, $title); //print_r($title[1]); /*获取来源*/ preg_match_all('/【来源:(.*?) 】<\/span><\/td>/sim', $result_newsinfo, $source); //print_r($source[1]); /*获取内容*/ preg_match_all('/(.*?)<\/td>/sim', $result_newsinfo, $content); //print_r($content[1][0]); /*获取内容里的所有图片url*/ //preg_match_all('//sim', $content[1][0], $img); preg_match_all('//sim', $content[1][0], $img); //echo 'ddddd'; //print_r($img[1]); //echo 'dddd
'; //exit; $picture = ''; foreach($img[1] as $imgs) { //echo $imgs; //echo '
'; if(strpos($imgs, 'http://') === false) { continue; } $img_source = file_get_contents($imgs); /*获取单个图片的名称*/ $img_names = trim(strrchr($imgs,'/'), '/'); //print_r($img_name); //echo $img_names; //exit; $picture .= $img_names.':'; file_put_contents("./static/uploads/news/".$img_names, $img_source); //图片路径替换 $img_path = '/static/uploads/news/'.$img_names; $content[1][0] = str_replace($imgs, $img_path, $content[1][0]); } //print_r($picture) ; //echo 'hhhh
'; //print_r($content[1][0]); //echo '
'; $data = array( 'title' => $title[1][0], 'source' => $source[1][0], 'contents' => trim($content[1][0]), 'picture' => $picture, 'style' => $i, 'create_time' => time(), ); if(!$this->News_model->add($data)) { continue; } //print_r($data);exit; } echo '
'; } } $this->benchmark->mark('code_end'); echo $this->benchmark->elapsed_time('code_start', 'code_end'); } function curl_snatch($url='http://www.2sche.cn/buy.asp') { $url = trim($url); $cOntent= ''; if (extension_loaded('curl')) { $ch = curl_init(); // 2. 设置选项,包括URL curl_setopt($ch, CURLOPT_URL, $url); curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1); curl_setopt($ch, CURLOPT_HEADER, 0); // 3. 执行并获取HTML文档内容 $output = curl_exec($ch); $cOntent= iconv("GBK", "UTF-8", $output); if ($output === FALSE) { echo "cURL Error: " . curl_error($ch); } //$info = curl_getinfo($ch); //echo '获取'. $info['url'] . '耗时'. $info['total_time'] . '秒'; // 4. 释放curl句柄 curl_close($ch); } else { $cOntent= file_get_contents($url); } return trim($content); }


作者:李佳顺


推荐阅读
  • 本文介绍了使用CentOS7.0 U盘刻录工具进行安装的详细步骤,包括使用USBWriter工具刻录ISO文件到USB驱动器、格式化USB磁盘、设置启动顺序等。通过本文的指导,用户可以轻松地使用U盘安装CentOS7.0操作系统。 ... [详细]
  • Lodop中特殊符号打印设计和预览样式不同的问题解析
    本文主要解析了在Lodop中使用特殊符号打印设计和预览样式不同的问题。由于调用的本机ie引擎版本可能不同,导致在不同浏览器下样式解析不同。同时,未指定文字字体和样式设置也会导致打印设计和预览的差异。文章提出了通过指定具体字体和样式来解决问题的方法,并强调了以打印预览和虚拟打印机测试为准。 ... [详细]
  • Nginx使用(server参数配置)
    本文介绍了Nginx的使用,重点讲解了server参数配置,包括端口号、主机名、根目录等内容。同时,还介绍了Nginx的反向代理功能。 ... [详细]
  • 基于layUI的图片上传前预览功能的2种实现方式
    本文介绍了基于layUI的图片上传前预览功能的两种实现方式:一种是使用blob+FileReader,另一种是使用layUI自带的参数。通过选择文件后点击文件名,在页面中间弹窗内预览图片。其中,layUI自带的参数实现了图片预览功能。该功能依赖于layUI的上传模块,并使用了blob和FileReader来读取本地文件并获取图像的base64编码。点击文件名时会执行See()函数。摘要长度为169字。 ... [详细]
  • 电销机器人作为一种人工智能技术载体,可以帮助企业提升电销效率并节省人工成本。然而,电销机器人市场缺乏统一的市场准入标准,产品品质良莠不齐。创业者在代理或购买电销机器人时应注意谨防用录音冒充真人语音通话以及宣传技术与实际效果不符的情况。选择电销机器人时需要考察公司资质和产品品质,尤其要关注语音识别率。 ... [详细]
  • 这是原文链接:sendingformdata许多情况下,我们使用表单发送数据到服务器。服务器处理数据并返回响应给用户。这看起来很简单,但是 ... [详细]
  • 如何去除Win7快捷方式的箭头
    本文介绍了如何去除Win7快捷方式的箭头的方法,通过生成一个透明的ico图标并将其命名为Empty.ico,将图标复制到windows目录下,并导入注册表,即可去除箭头。这样做可以改善默认快捷方式的外观,提升桌面整洁度。 ... [详细]
  • 本文介绍了使用AJAX的POST请求实现数据修改功能的方法。通过ajax-post技术,可以实现在输入某个id后,通过ajax技术调用post.jsp修改具有该id记录的姓名的值。文章还提到了AJAX的概念和作用,以及使用async参数和open()方法的注意事项。同时强调了不推荐使用async=false的情况,并解释了JavaScript等待服务器响应的机制。 ... [详细]
  • 本文介绍了数据库的存储结构及其重要性,强调了关系数据库范例中将逻辑存储与物理存储分开的必要性。通过逻辑结构和物理结构的分离,可以实现对物理存储的重新组织和数据库的迁移,而应用程序不会察觉到任何更改。文章还展示了Oracle数据库的逻辑结构和物理结构,并介绍了表空间的概念和作用。 ... [详细]
  • Java实战之电影在线观看系统的实现
    本文介绍了Java实战之电影在线观看系统的实现过程。首先对项目进行了简述,然后展示了系统的效果图。接着介绍了系统的核心代码,包括后台用户管理控制器、电影管理控制器和前台电影控制器。最后对项目的环境配置和使用的技术进行了说明,包括JSP、Spring、SpringMVC、MyBatis、html、css、JavaScript、JQuery、Ajax、layui和maven等。 ... [详细]
  • 本文介绍了使用Java实现大数乘法的分治算法,包括输入数据的处理、普通大数乘法的结果和Karatsuba大数乘法的结果。通过改变long类型可以适应不同范围的大数乘法计算。 ... [详细]
  • Webpack5内置处理图片资源的配置方法
    本文介绍了在Webpack5中处理图片资源的配置方法。在Webpack4中,我们需要使用file-loader和url-loader来处理图片资源,但是在Webpack5中,这两个Loader的功能已经被内置到Webpack中,我们只需要简单配置即可实现图片资源的处理。本文还介绍了一些常用的配置方法,如匹配不同类型的图片文件、设置输出路径等。通过本文的学习,读者可以快速掌握Webpack5处理图片资源的方法。 ... [详细]
  • 本文是一位90后程序员分享的职业发展经验,从年薪3w到30w的薪资增长过程。文章回顾了自己的青春时光,包括与朋友一起玩DOTA的回忆,并附上了一段纪念DOTA青春的视频链接。作者还提到了一些与程序员相关的名词和团队,如Pis、蛛丝马迹、B神、LGD、EHOME等。通过分享自己的经验,作者希望能够给其他程序员提供一些职业发展的思路和启示。 ... [详细]
  • HDU 2372 El Dorado(DP)的最长上升子序列长度求解方法
    本文介绍了解决HDU 2372 El Dorado问题的一种动态规划方法,通过循环k的方式求解最长上升子序列的长度。具体实现过程包括初始化dp数组、读取数列、计算最长上升子序列长度等步骤。 ... [详细]
  • 目录实现效果:实现环境实现方法一:基本思路主要代码JavaScript代码总结方法二主要代码总结方法三基本思路主要代码JavaScriptHTML总结实 ... [详细]
author-avatar
投资改变生活-青岛_688
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有