热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

新浪科技文章采集代码

提供各种官方和用户发布的代码示例,代码参考,欢迎大家交流学习
新浪科技的文章一键采集ThinkPhp适用代码
/* 新浪科技文章采集 */
public function sina_tech() {
/* NEED CAULL PAGE NUM */
$page_num = intval($_POST['get_post_page_num']);
if (empty($page_num)) $page_num = 1;
/* FIRST COUNT */
$post_count_a = M('post')->count();
/* FOR CULL */
for ($page = 1; $page <= $page_num; $page++) {

$fullpage = CurlGetPage(&#039;http://roll.tech.sina.com.cn/s/channel.php?ch=05#col=30&spec=&type=&ch=05&k=&offset_page=0&offset_num=0&num=5&asc=&page=&#039;.$page);

preg_match_all(&#039;/\s+(.*)\s+<\/p>/Us&#039;, $fullpage, $match);
$fullpage = iconv("GB2312", "UTF-8", $match[1][0]);//echo $data1;die;

preg_match_all(&#039;/
  • (.*)<\/li>/isU&#039;, $fullpage, $in_li_tags);
    foreach (array_unique($in_li_tags[1]) as $row) {
    /* TITLE */
    preg_match_all(&#039;/(.*)<\/a>/&#039;, $row, $title);
    $title = $title[1][0];
    /* LINK */
    preg_match_all(&#039;/href="([^"]*)"/&#039;, $row, $link);
    $link = $link[1][0];
    /* DATE */
    preg_match_all(&#039;/(.*)<\/span>/i&#039;, $row, $date);
    $date = date("Y-", time()) . $date[1][0] . &#039;:00&#039;;
    // echo $title.&#039; &#039;.$link.&#039; &#039;.$date.&#039;
    &#039;;

    /* GOING THE POST PAGE */
    $fullpage_post = CurlGetPage($link);
    /* FIX TAGS */
    $fullpage_post = preg_replace(&#039;/

    (.*)<\/p>/isU&#039;, &#039;${1}&#039;, $fullpage_post);
    $fullpage_post = preg_replace(&#039;/

    (.*)<\/p>/Us&#039;, &#039;&#039;, $fullpage_post);
    //echo htmlspecialchars($fullpage_post);die;

    /* POST CONTENT */
    preg_match_all(&#039;/\s+(.*)\s+<\/p>/Us&#039;, $fullpage_post, $post_content);
    /* DEL A TAGS */
    $post_cOntent= preg_replace("/]*>(.*)<\/a>/isU", &#039;${1}&#039;, $post_content[1][0]);
    // echo &#039;

    &#039;.$title.&#039;

    &#039;.$url.&#039;
    &#039;.$date.&#039;
    &#039;.$postCon.&#039;
    &#039;;

    /* SAVE TO DB */
    $post_title_count = M(&#039;post&#039;)->where("title=&#039;$title&#039;")->count();
    if ($post_title_count == 0) {
    $dataMySql["title"] = $title;
    $dataMySql["content"] = $post_content;
    $dataMySql["datetime"] = $date;
    M(&#039;post&#039;)->add($dataMySql);
    }
    }
    }
    /* LAST COUNT */
    $post_count_b = M(&#039;post&#039;)->count();
    $post_add_num = $post_count_b - $post_count_a;
    /* CALLBACK */
    if ($post_count_a == $post_count_b) {
    echo &#039;{"success":1,"msg":"文章数无变化"}&#039;;
    } else {
    echo &#039;{"success":1,"msg":"成功采集 &#039; . $post_add_num . &#039; 篇文章"}&#039;;
    }
    }

    AD:真正免费,域名+虚机+企业邮箱=0元

  • 推荐阅读
    • 本文介绍了在开发Android新闻App时,搭建本地服务器的步骤。通过使用XAMPP软件,可以一键式搭建起开发环境,包括Apache、MySQL、PHP、PERL。在本地服务器上新建数据库和表,并设置相应的属性。最后,给出了创建new表的SQL语句。这个教程适合初学者参考。 ... [详细]
    • 在说Hibernate映射前,我们先来了解下对象关系映射ORM。ORM的实现思想就是将关系数据库中表的数据映射成对象,以对象的形式展现。这样开发人员就可以把对数据库的操作转化为对 ... [详细]
    • 本文介绍了在SpringBoot中集成thymeleaf前端模版的配置步骤,包括在application.properties配置文件中添加thymeleaf的配置信息,引入thymeleaf的jar包,以及创建PageController并添加index方法。 ... [详细]
    • 知识图谱——机器大脑中的知识库
      本文介绍了知识图谱在机器大脑中的应用,以及搜索引擎在知识图谱方面的发展。以谷歌知识图谱为例,说明了知识图谱的智能化特点。通过搜索引擎用户可以获取更加智能化的答案,如搜索关键词"Marie Curie",会得到居里夫人的详细信息以及与之相关的历史人物。知识图谱的出现引起了搜索引擎行业的变革,不仅美国的微软必应,中国的百度、搜狗等搜索引擎公司也纷纷推出了自己的知识图谱。 ... [详细]
    • Monkey《大话移动——Android与iOS应用测试指南》的预购信息发布啦!
      Monkey《大话移动——Android与iOS应用测试指南》的预购信息已经发布,可以在京东和当当网进行预购。感谢几位大牛给出的书评,并呼吁大家的支持。明天京东的链接也将发布。 ... [详细]
    • 本文介绍了lua语言中闭包的特性及其在模式匹配、日期处理、编译和模块化等方面的应用。lua中的闭包是严格遵循词法定界的第一类值,函数可以作为变量自由传递,也可以作为参数传递给其他函数。这些特性使得lua语言具有极大的灵活性,为程序开发带来了便利。 ... [详细]
    • 本文介绍了数据库的存储结构及其重要性,强调了关系数据库范例中将逻辑存储与物理存储分开的必要性。通过逻辑结构和物理结构的分离,可以实现对物理存储的重新组织和数据库的迁移,而应用程序不会察觉到任何更改。文章还展示了Oracle数据库的逻辑结构和物理结构,并介绍了表空间的概念和作用。 ... [详细]
    • Java实战之电影在线观看系统的实现
      本文介绍了Java实战之电影在线观看系统的实现过程。首先对项目进行了简述,然后展示了系统的效果图。接着介绍了系统的核心代码,包括后台用户管理控制器、电影管理控制器和前台电影控制器。最后对项目的环境配置和使用的技术进行了说明,包括JSP、Spring、SpringMVC、MyBatis、html、css、JavaScript、JQuery、Ajax、layui和maven等。 ... [详细]
    • 本文讨论了Alink回归预测的不完善问题,指出目前主要针对Python做案例,对其他语言支持不足。同时介绍了pom.xml文件的基本结构和使用方法,以及Maven的相关知识。最后,对Alink回归预测的未来发展提出了期待。 ... [详细]
    • 本文介绍了如何使用php限制数据库插入的条数并显示每次插入数据库之间的数据数目,以及避免重复提交的方法。同时还介绍了如何限制某一个数据库用户的并发连接数,以及设置数据库的连接数和连接超时时间的方法。最后提供了一些关于浏览器在线用户数和数据库连接数量比例的参考值。 ... [详细]
    • 本文介绍了Redis的基础数据结构string的应用场景,并以面试的形式进行问答讲解,帮助读者更好地理解和应用Redis。同时,描述了一位面试者的心理状态和面试官的行为。 ... [详细]
    • 本文讨论了如何优化解决hdu 1003 java题目的动态规划方法,通过分析加法规则和最大和的性质,提出了一种优化的思路。具体方法是,当从1加到n为负时,即sum(1,n)sum(n,s),可以继续加法计算。同时,还考虑了两种特殊情况:都是负数的情况和有0的情况。最后,通过使用Scanner类来获取输入数据。 ... [详细]
    • Windows下配置PHP5.6的方法及注意事项
      本文介绍了在Windows系统下配置PHP5.6的步骤及注意事项,包括下载PHP5.6、解压并配置IIS、添加模块映射、测试等。同时提供了一些常见问题的解决方法,如下载缺失的msvcr110.dll文件等。通过本文的指导,读者可以轻松地在Windows系统下配置PHP5.6,并解决一些常见的配置问题。 ... [详细]
    • Metasploit攻击渗透实践
      本文介绍了Metasploit攻击渗透实践的内容和要求,包括主动攻击、针对浏览器和客户端的攻击,以及成功应用辅助模块的实践过程。其中涉及使用Hydra在不知道密码的情况下攻击metsploit2靶机获取密码,以及攻击浏览器中的tomcat服务的具体步骤。同时还讲解了爆破密码的方法和设置攻击目标主机的相关参数。 ... [详细]
    • 本文由编程笔记小编整理,介绍了PHP中的MySQL函数库及其常用函数,包括mysql_connect、mysql_error、mysql_select_db、mysql_query、mysql_affected_row、mysql_close等。希望对读者有一定的参考价值。 ... [详细]
    author-avatar
    事过人空
    这个家伙很懒,什么也没留下!
    PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
    Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有