热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

PHP客户端与MongoDB通信协议

MongoDB的PHP客户端有一个MongoCursor类,它是用于获取一次查询结果集的句柄(或者叫游标),这个简单的取数据操作,内部实现其实不是那么简单。本文就通过对MongoCursor类一些操作进行分析,向大家揭开MongoDB客户端服务器通信的一些内部细节。getN

MongoDB 的 PHP 客户端有一个 MongoCursor 类,它是用于获取一次查询结果集的句柄(或者叫游标),这个简单的取数据操作,内部实现其实不是那么简单。本文就通过对 MongoCursor 类一些操作进行分析,向大家揭开 MongoDB 客户端服务器通信的一些内部细节。

getNext与网络请求

通常来说,每一次find操作都会返回一个MongoCursor对象,在这个对象上调用getNext方法,就能够获得一条结果数据。循环调用getNext方法就能获取多条数据。下面我们就来看看其内部取数据的具体逻辑。

首先我们用最简单的方法来生成一个MongoCursor对象:

2 $collection = $m->demoDb->demoCollection;
3 $cursor = $collection->find();

当我们调用 find 方法的时候,会生成一个 MongoCursor 对象,而这时候只是生成一个内存中的对象而已,并不会把我们的 find 查询发送到服务端,因为在生成 MongoCursor 对象后,我们还可能对它做一些其它操作,比如 sort,limit 等等。这就对查询条件进行了改变。

那什么时候 PHP 会对 MongoDB 发起 find 的网络请求呢,是在 MongoCursor 调用 getNext 方法的时候。比如我们在上面代码的基础上,再执行 sort 和 getNext 两个方法:

1 $cursor->sort( array( 'name' => 1 ) );
2 $result = $cursor->getNext();

这时候第二行代码就会触发 find 的网络请求,具体请求的内容如下图,下图是对这次请求的二进制协议进行解析后的数据结构展示:

从上面图中我们可以看到,Number to Return 字段是0,MongoDB 协议里0表示不做限制,获取全部数据。所以这一次的 find 操作会把所有这个 collection 中的所有数据都拿到。而我们调用一次 getNext 实际上只拿到一条数据。那是不是说我们每调一次 getNext,PHP 就会进行一次网络请求获取一条数据呢?结果当然是否定的,这样效率未免也太低了。那好,那是不是 PHP 在第一次调用 getNext 就把所有数据拿回来,存在内存中,然后后续的 getNext 调用都在本地内存里取就行了呢?结果还是否定的,这样数据量大点 PHP 就容易被暴菊了吧。

所以事实上是怎么做的呢?我们来看下面一张图:

图上的 Number Returned 的值是101,也就是说 MongoDB 给我们返回了101条数据,这个101实际上就是服务器默认的 batchSize 大小。也就是说在没有指定返回多少条的情况下,会默认返回101条数据。这101条数据会存在 PHP 的内存中,这样后续的100次 getNext 调用,都不会再进行网络请求,而是直接从内存中返回数据。

如果我们在上面的 getNext 后再进行下面的调用。

1 // skip the other 100 docs
2 for ($i = 0; $i <100; $i++) { $cursor->getNext(); }
3 // request document 102:
4 $result = $cursor->getNext();

上面先循环调用了100次 getNext,内存中的101项数据就都已经被取光了,然后当我们再次调用 getNext 去获取第102条数据的时候,PHP 内存中已经没有数据可以提供了,这时候又会再发起一次向 MongoDB 服务器的请求,去获取更多的数据。客户端这次会发起如下请求:

这次我们看到,请求的码变成了 Get More。也就是在上次的基础上获取更多数据。这时候实际 MongoDB 不会再按一个特定的条数返回数据,而是按一个特定的大小,目前是4M,也就是说,这一次,MongoDB 会返回最多4M的数据。对上面的请求,MongoDB 的返回如下:

这次返回结果中,标识了是从第101条开始,共返回了34673条数据。大小是4194378,正好是4M。

设置batchSize

上面我们说了,MongoDB 默认的 batchSize 是101条,这个条数实际上我们可以通过客户端来设定的。在 PHP 中,通过 batchSize 函数来进行设置。比如我们用下面命令设定 batchSize 为25:

1 $cursor = $collection->find()->sort( array( 'name' => 1 ) );
3 $result = $cursor->getNext();

上面代码调用了一次 getNext,按上面讲到的,会一次性批量取N条数据回客户端。上面代码运行时产生的网络请求如下:

我们可以看到,Number to Return被设置为了25。

如果我们再循环执行getNext函数25次,加上上面代码一共执行26次,那么因为第一次只返回了25条记录,所以第26次调用getNext函数时会再一次触发网络请求。请求体如下:

由于我们设定了 batchSize 为25,所以这一次要求返回的也只有25条。服务端返回的数据也就只有25条。

使用limit

除了 batchSize 函数以外,还有一个方法可以控制每次网络请求批量返回的记录条数,那就是在 MongoCursor 上调用 limit 函数,直接设置需要获取的记录条数。

比如下面代码,我们通过设置 limit 查询前50000条记录:

1 $cursor = $c->find()->sort( array( 'name' => 1 ) );
2 $cursor->limit( 50000 );
3 $res = $cursor->getNext();

上面代码会发出下面的请求

我们看到,要求返回的数目是50000条,那么MongoDB服务器是不是就乖乖返回50000条数据了呢。让我们直接来看一下具体的返回数据包

很遗憾,MongoDB 服务端只返回了34678条,而不是我们理想中的50000条,其实原因也很简单,从 Message Length 的值就能看出来,因为目前请求包已经达到4M大小了,这个上限无法逾越。所以只能返回34678条数据了。

而同时,客户端在收到返回的数据包时,发现只有34678条数据,不够自己要求的50000条,还差 50000 ? 34678 = 15322 条,所以会再发起一次请求,要求服务器返回剩余的15322条记录。如下:

batchSize 和 limit 相组合

有时候我们可能会需要取很多条数据,比如上面的,通过设置limit为50000来获取50000条数据,而取这50000条数据的获取可能会超出 我们设置的 MongoCursor 的 timeout 限制,抛出 Cursor 超时的异常。这时候我们可以在设置 limit 的同时,设置 batchSize 来控制每两次请求服务器的时间间隔。以免由于获取大量数据导致的 MongoCursor 超时。

比如下面的例子里,我们要获取128条数据,但是通过设置 batchSize 来控制每次只从服务器取回50条。这样在后续的 getNext 调用中,就会发生三次网络请求,分别请求数目是50条,50条,28条。

1 $cursor = $c->find()->sort( array( 'name' => 1 ) );
2 $cursor->limit( 128 )->batchSize( 50 );
3 $res = $cursor->getNext();
4 // retrieve the other 127 documents that we still want
5 for ($i = 0; $i <127; $i++) { $cursor->getNext(); }
关于 batchSize 函数的小问题

上面我们说了通过设置 batchSiz e来控制客户端与 MongoDB 服务器的数据交换。但是这里有一个特例,当 batchSize 被设置为1,或者是负数时,MongoDB 只会返回第一次请求的数据包,然后直接关闭掉这个连接。也就是说,如果我们执行下面的命令:

1 $cursor = $c->find()->sort( array( 'name' => 1 ) );
2 $cursor->batchSize( 1 )->limit( 10 );
4 var_dump( $cursor->getNext() );

会发现最后一个 var_dump 打出来的总是 NULL。因为每一次按 batchSize 的设置只返回了1条数据,然后连接就关闭了。

而我们只需要稍做修改,将 batchSize 改成2,情况就大为不同

1 $cursor = $c->find()->sort( array( 'name' => 1 ) );
2 $cursor->batchSize( 2 )->limit( 10 );
3 $cursor->getNext(); // item 1
4 $cursor->getNext(); // item 2
5 var_dump( $cursor->getNext() ); // item 3

可以看到,虽然第一次网络返回包被设置只返回两条数据,但是每三次调 getNext 时还是返回数据了,也就是说还是从服务器第二次获取到数据了。

实际上,通过上面的实验结果,我们已经大致对 MongoDB 客户端服务器通信协议有了大致的了解,更详细的内容我们可以直接在 MongoDB 官方文档中找到(Mongo Wire Protocal)


推荐阅读
  • Abp+MongoDb改造默认的审计日志存储位置
    一、背景在实际项目的开发当中,使用AbpZero自带的审计日志功能写入效率比较低。其次审计日志数据量中后期十分庞大,不适合与业务数据存放在一起。所以我们可以重新实现A ... [详细]
  • Allegro总结:1.防焊层(SolderMask):又称绿油层,PCB非布线层,用于制成丝网印板,将不需要焊接的地方涂上防焊剂.在防焊层上预留的焊盘大小要比实际的焊盘大一些,其差值一般 ... [详细]
  • Linux如何安装Mongodb的详细步骤和注意事项
    本文介绍了Linux如何安装Mongodb的详细步骤和注意事项,同时介绍了Mongodb的特点和优势。Mongodb是一个开源的数据库,适用于各种规模的企业和各类应用程序。它具有灵活的数据模式和高性能的数据读写操作,能够提高企业的敏捷性和可扩展性。文章还提供了Mongodb的下载安装包地址。 ... [详细]
  • centos php部署到nginx 404_NodeJS项目部署到阿里云ECS服务器全程详解
    本文转载自:http:www.kovli.com20170919ecs-deploy作者:Kovli本文详细介绍如何部署NodeJS项目到阿里云ECS上, ... [详细]
  • MongoDB学习:(二)MongoDB简单使用
    MongoDB学习:(二)MongoDB简单使用MongoDB使用:执行mongodb的操作之前,我们需要运行命令,来进入操作命令界面&amp;amp;gt;mongo提示 ... [详细]
  • 本文介绍了Python高级网络编程及TCP/IP协议簇的OSI七层模型。首先简单介绍了七层模型的各层及其封装解封装过程。然后讨论了程序开发中涉及到的网络通信内容,主要包括TCP协议、UDP协议和IPV4协议。最后还介绍了socket编程、聊天socket实现、远程执行命令、上传文件、socketserver及其源码分析等相关内容。 ... [详细]
  • 本文介绍了在开发Android新闻App时,搭建本地服务器的步骤。通过使用XAMPP软件,可以一键式搭建起开发环境,包括Apache、MySQL、PHP、PERL。在本地服务器上新建数据库和表,并设置相应的属性。最后,给出了创建new表的SQL语句。这个教程适合初学者参考。 ... [详细]
  • 本文介绍了如何使用php限制数据库插入的条数并显示每次插入数据库之间的数据数目,以及避免重复提交的方法。同时还介绍了如何限制某一个数据库用户的并发连接数,以及设置数据库的连接数和连接超时时间的方法。最后提供了一些关于浏览器在线用户数和数据库连接数量比例的参考值。 ... [详细]
  • 如何使用Java获取服务器硬件信息和磁盘负载率
    本文介绍了使用Java编程语言获取服务器硬件信息和磁盘负载率的方法。首先在远程服务器上搭建一个支持服务端语言的HTTP服务,并获取服务器的磁盘信息,并将结果输出。然后在本地使用JS编写一个AJAX脚本,远程请求服务端的程序,得到结果并展示给用户。其中还介绍了如何提取硬盘序列号的方法。 ... [详细]
  • [译]技术公司十年经验的职场生涯回顾
    本文是一位在技术公司工作十年的职场人士对自己职业生涯的总结回顾。她的职业规划与众不同,令人深思又有趣。其中涉及到的内容有机器学习、创新创业以及引用了女性主义者在TED演讲中的部分讲义。文章表达了对职业生涯的愿望和希望,认为人类有能力不断改善自己。 ... [详细]
  • 知识图谱——机器大脑中的知识库
    本文介绍了知识图谱在机器大脑中的应用,以及搜索引擎在知识图谱方面的发展。以谷歌知识图谱为例,说明了知识图谱的智能化特点。通过搜索引擎用户可以获取更加智能化的答案,如搜索关键词"Marie Curie",会得到居里夫人的详细信息以及与之相关的历史人物。知识图谱的出现引起了搜索引擎行业的变革,不仅美国的微软必应,中国的百度、搜狗等搜索引擎公司也纷纷推出了自己的知识图谱。 ... [详细]
  • 本文介绍了Hyperledger Fabric外部链码构建与运行的相关知识,包括在Hyperledger Fabric 2.0版本之前链码构建和运行的困难性,外部构建模式的实现原理以及外部构建和运行API的使用方法。通过本文的介绍,读者可以了解到如何利用外部构建和运行的方式来实现链码的构建和运行,并且不再受限于特定的语言和部署环境。 ... [详细]
  • Oracle分析函数first_value()和last_value()的用法及原理
    本文介绍了Oracle分析函数first_value()和last_value()的用法和原理,以及在查询销售记录日期和部门中的应用。通过示例和解释,详细说明了first_value()和last_value()的功能和不同之处。同时,对于last_value()的结果出现不一样的情况进行了解释,并提供了理解last_value()默认统计范围的方法。该文对于使用Oracle分析函数的开发人员和数据库管理员具有参考价值。 ... [详细]
  • 一、前言在数据库中,慢查询日志通常是用来进行优化数据库,MySQL中存在慢查询,Mongodb中也是如此。在Mongo中的慢查询属于Mon ... [详细]
  • 今天我们学习,数据库mongodb的使用,最下面有mongodb的下载链接。pipinstallpymongo首先安装pymongo,然后在需要用到的地方importpymongo ... [详细]
author-avatar
loring8
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有