当前位置: 开发笔记 > 编程语言 > 正文

代码仔的实验室_微信公众平台&PHP抓取网页

作者：多米音乐_34306427 | 来源：互联网 | 2023-08-08 03:56

前言用了一早上的时间，成功实现了PHP抓取csdn博客信息，并且通过公众平台实现了自动回复。实现效果：用户在我的公众平台上输入“博客”，自动返回实时的博客访问量等信息，这里边有两个重要的部分，一个是微

前言

用了一早上的时间，成功实现了PHP抓取csdn博客信息，并且通过公众平台实现了自动回复。

实现效果：用户在我的公众平台上输入“博客”，自动返回实时的博客访问量等信息，

这里边有两个重要的部分，一个是微信公众平台的信息获取、解析并按照格式返回内容；另一个是在后台利用SAE提供的类实现网页抓取并筛选出所需的部分。

欢迎大家关注我的公众号“代码仔的实验室”

微信公众平台

新手接入

在申请好了公众号之后，如果需要打开开发模式，需要进行接口验证，这部分的内容微信的开发文档里都有，并且附上了例子，我们需要做的就是有一个自己的服务器，当微信的服务器发来数据包之后进行处理，返回正确的数据包即可，相关的代码微信都有提供，只要放在服务器目录里，能被调用到就好了。

微信开发文档_新手接入

获取数据包并返回

这部分微信也提供了例子，在wechatCallbackapiTest类中，有一个公有成员函数responseMsg()，相当于一个简单的HelloWorld例子，原始的例子里并没有调用这个函数，我们可以看看这里的代码，这是一个基本的接收消息、解析、自动回复的函数。

我对这个函数加了中文注释，便于大家理解。

public function responseMsg()

    {

//根据不同的服务器环境，这里需要获取POST来的数据

$postStr = $GLOBALS["HTTP_RAW_POST_DATA"];



      //解析数据

if (!empty($postStr)){

                //按照XML文件的格式解析

              $postObj = simplexml_load_string($postStr, 'SimpleXMLElement', LIBXML_NOCDATA);

                $fromUsername = $postObj->FromUserName;

                $toUsername = $postObj->ToUserName;

                $keyword = trim($postObj->Content);//trim函数负责去除前后的空格

                $time = time();

                $textTpl = "





%s





0

";//制作返回数据包XML文件

if(!empty( $keyword ))

                {

              $msgType = "text";//返回的数据类型，这里是text文本信息

                $cOntentStr= "Welcome to wechat world!";//返回数据的内容，默认是Welcome to wechat world!

                    //注意这里格式化写入，$fromUsername对应在XML文件里的位置在ToUserName，

                    //因为我们要返回信息，所以接受到的数据包里的"收件人"就成了"发件人"

                $resultStr = sprintf($textTpl, $fromUsername, $toUsername, $time, $msgType, $contentStr);

                echo $resultStr;//返回数据包

                }else{

                    //如果收到的数据为空，则返回对应信息

                echo "Input something...";

                }



        }else {

        echo "";//如果无法获取到POST数据包，则返回对应信息

        exit;

        }

    }

有了这个代码，我们只需要修改我们需要的自定义部分，就可以顺利的返回数据。注意这里建议将错误信息补全，考虑到尽可能多的错误情况并echo对应的信息，将来查错会非常方便。

官方例子中的这个类不好用，还是我们自己写一个吧，在写之前简单的思考了一下，大概的结构是这样的：

class wechat
{
public function distribute();//判断收到的信息是哪些
public function text($postObj);//文本消息
public function location($postObj)//地理位置消息
}

如果将来需要扩展新的回复内容，可以在distribute函数中增加新的判断项，并添加新的处理函数，就可以有效的应对新的内容。

distribute()是入口函数，负责将收到的信息进行解析，找到其中的MsgType，判断接受到的信息类型，并传递给相应的处理函数，如果无法获取数据返回对应的错误值。

代码如下：

public function distribute()//判断收到的信息是哪些
    {
        $postStr = $GLOBALS["HTTP_RAW_POST_DATA"];
        //extract post data
        if (!empty($postStr))
        {
            $postObj = simplexml_load_string($postStr, 'SimpleXMLElement', LIBXML_NOCDATA); 
            $msgType = $postObj->MsgType;

            switch ($msgType) //分发
            {
                case "text":
                    $this->text($postObj);
                    break;
                case "location": 
                    $this->location($postObj);
                
                default:
                    echo "未知的消息类别";
                    break;
            }
        }
        else//无法得到返回值
        {
            echo "无法得到返回值";
        }

    }

text()是负责处理文本的函数，是这次开发的重点，主体的结构参照了微信官方的例子，在其中进行了自定义，包括对特定信息的自动回复，比如这次实现了当收到“博客”的时候，自动返回博客信息，如果收到了其他信息，返回通用的自动回复信息。

代码如下：

public function text($postObj)//文本消息
    {
        $cOntent= trim($postObj->Content);

        switch ($content)
        {
            case "博客":
                $info = new fetch();
                $result = $info->get();
                $cOntentStr= "我的博客\n《Coder成长之路》\n目前信息:\n";
                $contentStr .=$result[0]."\n";//访问
                $contentStr .=$result[1]."\n";//积分
                $contentStr .=$result[2]."\n";//排名
                $contentStr .=$result[3]."\n";//原创
                $contentStr .=$result[4]."\n";//转载
                $contentStr .=$result[5]."\n";//译文
                $contentStr .=$result[6]."\n";//评论
                $contentStr .= "欢迎访问我的博客\n http://t.cn/8kvGx7T \n";
                break;
            
            default:
                $cOntentStr= "欢迎使用我的公众号，目前只有 1 个功能\n其余功能正在开发当中，请谅解。\n1. 回复“博客”可以获得我的博客的实时信息。";
                break;
        }
        $fromUsername = $postObj->FromUserName;
        $toUsername = $postObj->ToUserName;
        $keyword = $content;
        $time = time();
        $textTpl = "
                        
                        
                        %s
                        
                        
                        0
                    ";
        if(!empty( $keyword ))
        {
            $msgType = "text";
            $resultStr = sprintf($textTpl, $fromUsername, $toUsername, $time, $msgType, $contentStr);
            echo $resultStr;
        }
        else
        {
            echo "无法获取输入的信息";
        }
    }

主要的内容和之前的例子一样，如果有疑问可以看之前有中文注释的代码，如果还是有问题可以在下边评论。

地理位置信息还没有做，目前也还没有什么想法，原本想返回一个当地的地图，但是坑爹的微信公众平台不支持订阅号发送图片，只有服务号可以...坑……

或许可以返回一下周围的餐馆信息..

PHP抓取网页

SAE的类

对于网页抓取，SAE提供了一个类方便我们调用，虽然也支持curl，但是原文是这么说的...大家体会一下……

为了少收费..我还是乖乖用它的类吧。其实都挺简单的，就像这样

$page = new SaeFetchurl();

$cOntent= $page->fetch(“http://blog.csdn.net/yuri_4_vera");

这样就能把整个网页抓下来了，如果这时候echo $content，会看到整个HTML代码以文本的形式输出。

正则表达式

抓到网页很简单..难的是怎么把访问量评论数什么的挑出来..我关注的部分在这里：



    访问：508次


    积分：72分


    排名：千里之外






    原创：7篇


    转载：0篇


    译文：0篇


    评论：0条

我最初想到的是字符串匹配...实在想不出简单的办法，于是想要利用之前Python写的正则表达式，但好像两个函数支持的不一样，总有些符号不太对，PHP的函数会报错，后来在网上搜索了很多资料，很难找到适合我的需求的，我想要从

标签开始，直到标签结束，中间的所有标签都不要，只要里边的文本。

最后实在没办法，找了一些例子试了试，用了三个例子，改了改，这样实现了挑选：

1.找到所有匹配

标签的元素

2.去除“”（包括里的）

3.去除“/”

代码变得略复杂..用了三次正则表达式，一次搜索两次替换

class fetch

{

    public function get()

    {

        $page = new SaeFetchurl();//SAE的抓取网页类

        $cOntent= $page->fetch("http://blog.csdn.net/yuri_4_vera");

        

        if($page->errno() == 0)

        {

            $regex = ‘/(.*?)<\/li>/si’;//第一次匹配的正则表达式，找出所有
和
内的部分

            if(preg_match_all($regex, $content,$result,PREG_PATTERN_ORDER))

            {

                for ( $i = 0; $i <7; $i ++ )//对于每个部分分别进行操作

                {

                        $result[1][$i] = preg_replace("<[][^]*>","", $result[1][$i]);//去除部分

                        $result[1][$i] = preg_replace("<[][^/]*>","", $result[1][$i]);//去除”/”

                }

                return $result[1];

            }

        }

        else

            echo $page->errmsg();

    }

}

反思

正则表达式学不好耽误了很长时间...始终没法有效的挑出需要的片段并剔除不要的部分

这次使用了SVN工具，很方便的上传代码。

订阅号真的坑..只能发文本好吗……谁借我个服务号试试？哪怕一个月只能推送一条…我认了..

推荐阅读

case
订阅号如何获取用户基本信息？

首先，你的订阅号必须认证。其次，你需要获取用户的openid。订阅号获取openid的方式有限，无法通过网页授权的方式获取（服务号，且认证过才能使用）。唯一的方式是，当用户和公众号产生交互以 ... [详细]

蜡笔小新 2023-08-23 16:01:47
request
如何实现织梦DedeCms全站伪静态

本文介绍了如何通过修改织梦DedeCms源代码来实现全站伪静态，以提高管理和SEO效果。全站伪静态可以避免重复URL的问题，同时通过使用mod_rewrite伪静态模块和.htaccess正则表达式，可以更好地适应搜索引擎的需求。文章还提到了一些相关的技术和工具，如Ubuntu、qt编程、tomcat端口、爬虫、php request根目录等。 ... [详细]

蜡笔小新 2023-12-14 19:45:47
uri
知识图谱——机器大脑中的知识库

本文介绍了知识图谱在机器大脑中的应用，以及搜索引擎在知识图谱方面的发展。以谷歌知识图谱为例，说明了知识图谱的智能化特点。通过搜索引擎用户可以获取更加智能化的答案，如搜索关键词"Marie Curie"，会得到居里夫人的详细信息以及与之相关的历史人物。知识图谱的出现引起了搜索引擎行业的变革，不仅美国的微软必应，中国的百度、搜狗等搜索引擎公司也纷纷推出了自己的知识图谱。 ... [详细]

蜡笔小新 2023-12-14 10:06:19
char
PHP操作MySql数据库_PHP教程

PHP操作MySql数据库_PHP教程:链接数据库$conn@mysql_connect(localhost,root,88888888)ordie(链接错误);解决中文乱码mys ... [详细]

蜡笔小新 2023-10-17 04:43:28
case
阿里面试官：“说一下从 url 输入到返回请求的过程”！网友：直接收藏本文a...

点击上方[全栈开发者社区]→右上角[]→[设为星标⭐]前言年前准备换工作，总结了一波面试最频繁的面试问题跟大家交流。此文章是关于浏览器的常见问题， ... [详细]

蜡笔小新 2023-10-15 19:57:03
request
curl php authorization,PHP CURL 执行Authorization请求

在使用豆瓣OAuth登录接口时，我们需要发送这样的HTTPREQUEST请求:GETv2user~meHTTP1.1Host:https:api.douban.com ... [详细]

蜡笔小新 2023-10-15 13:35:22
request
【玩转微信公众平台之六】搭建新浪SAE服务器

赶紧接上一篇继续讲。------本篇将介绍如何搭建新浪SAE服务器。猛戳http:sae.sina.com.cn1、先自己注册一个账号，如果有新浪的账号，微博之类的都可以直接拿来用，授权一 ... [详细]

蜡笔小新 2023-09-03 19:58:43
request
手把手教你搭建一个属于自己的网站-适合零基础小白，文末附网站模板

本文主要介绍关于服务器,百度,http的知识点，对【手把手教你搭建一个属于自己的网站-适合零基础小白，文末附网站模板】和【微信公众平台】有兴趣的朋友可以看下由【普通网友】投稿的技术文章，希望该技术和经 ... [详细]

蜡笔小新 2023-08-25 16:42:13
request
微信公众平台开发—利用OAuth2.0获取微信用户基本信息[申明：来源于网络]

微信公众平台开发—利用OAuth2.0获取微信用户基本信息[申明：来源于网络]地址：http:blog.sina.com.cnsblog_9c2960490101waaz.ht ... [详细]

蜡笔小新 2023-08-24 09:51:27
request
微信公众平台开发获取关注者列表

微信小程序|微信开发微信公众平台微信小程序-微信开发本文介绍在微信公众平台上如何使用高级接口开发获取关注者列表的功能。防丢器源码,vscode快速生成,vm虚拟机能装ubuntu, ... [详细]

蜡笔小新 2023-08-11 19:51:45
request
小程序自动授权和手动接入的方式及操作步骤

本文介绍了小程序支持的两种接入方式：自动授权和手动接入，并详细说明了它们的操作步骤。同时还介绍了如何在两种方式之间切换，以及手动接入后如何下载代码包和提交审核。 ... [详细]

蜡笔小新 2023-12-11 18:21:09
request
codeigniter技巧——防止model-controller名字冲突

使用这个技巧要达到的目标：一般来说，模型和控制器你都不会有相同的类名字。让我先创建一个取名为post的model。classPostextendsModel{}现在 ... [详细]

蜡笔小新 2023-10-17 19:12:02
request
php连接mysql显示数据,php连接mysql数据库的算法思想

本文目录一览：1、怎么用php显示mysql数据表数据 ... [详细]

蜡笔小新 2023-10-16 13:24:54
request
电信网为不能访问联通服务器的网站_老板说网站慢，我们总结了三大阶段提升性能...

作者：李平来源：https:www.cnblogs.comleefreemanp3998757.html前言在前一篇随笔《大型网站系统架构的演化》中&# ... [详细]

蜡笔小新 2023-10-16 11:59:07
spring
java接入微信公众平台

一、注册公众号并认证二、准备一台服务器，必须用80端口三、定义一个接口，用于与微信服务器通信，配置开发者中心的服务器配置中的url1、服务器url下一个token，是自己定义的，但是要在你定义的这个接 ... [详细]

蜡笔小新 2023-09-11 10:54:26

多米音乐_34306427

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章