PHP几个快速读取大文件例子

作者：谭禅心_136 | 来源：互联网 | 2018-04-24 01:34

下面给各位整理几个PHP读取大文件例子,本文章讲到的是测试文章在800M的数据哦，更大的文件小编没有测试过哦。在PHP中，对于文件的读取时，最快捷的方式莫过于使用一些诸如file、file_ge...

下面给各位整理几个PHP读取大文件例子,本文章讲到的是测试文章在800M的数据哦，更大的文件小编没有测试过哦。

在PHP中，对于文件的读取时，最快捷的方式莫过于使用一些诸如file、file_get_contents之类的函数，简简单单的几行代码就能很漂亮的完成我们所需要的功能。但当所操作的文件是一个比较大的文件时，这些函数可能就显的力不从心, 下面将从一个需求入手来说明对于读取大文件时，常用的操作方法。

需求

有一个800M的日志文件，大约有500多万行，用PHP返回最后几行的内容。

实现方法

1. 直接采用file函数来操作

由于 file函数是一次性将所有内容读入内存，而PHP为了防止一些写的比较糟糕的程序占用太多的内存而导致系统内存不足，使服务器出现宕机，所以默认情况下限制只能最大使用内存16M,这是通过php.ini里的 memory_limit = 16M 来进行设置，这个值如果设置-1，则内存使用量不受限制。

下面是一段用file来取出这具文件最后一行的代码：

整个代码执行完成耗时 116.9613 (s)。

我机器是2个G的内存，当按下F5运行时，系统直接变灰，差不多20分钟后才恢复过来，可见将这么大的文件全部直接读入内存，后果是多少严重，所以不在万不得以，memory_limit这东西不能调得太高，否则只有打电话给机房，让reset机器了。

2.直接调用Linux的 tail 命令来显示最后几行

在Linux命令行下，可以直接使用 tail -n 10 access.log 很轻易的显示日志文件最后几行，可以直接用PHP来调用tail命令，执行PHP代码如下:

整个代码执行完成耗时 0.0034 (s)

3. 直接使用PHP的 fseek 来进行文件操作

这种方式是最为普遍的方式，它不需要将文件的内容全部读入内容，而是直接通过指针来操作，所以效率是相当高效的。在使用fseek来对文件进行操作时，也有多种不同的方法，效率可能也是略有差别的，下面是常用的两种方法：

方法一

首先通过fseek找到文件的最后一位EOF，然后找最后一行的起始位置，取这一行的数据，再找次一行的起始位置，再取这一行的位置，依次类推，直到找到了$num行。

#实现代码如下

 0) {
    while ($t != "\n") {
        fseek($fp, $pos, SEEK_END);
        $t = fgetc($fp);
        $pos--;
    }
    $t = " ";
    $data.= fgets($fp);
    $line--;
}
fclose($fp);
echo $data
?>

整个代码执行完成耗时 0.0095 (s)

方法二

还是采用fseek的方式从文件最后开始读，但这时不是一位一位的读，而是一块一块的读，每读一块数据时，就将读取后的数据放在一个buf里，然后通过换行符(\n)的个数来判断是否已经读完最后$num行数据。

#实现代码如下

 $chunk) ? $chunk : $max - $len;
    fseek($fp, ($len + $seekSize) * -1, SEEK_END);
    $readData = fread($fp, $seekSize) . $readData;
    if (substr_count($readData, "\n") >= $num + 1) {
        preg_match("!(.*?\n){" . ($num) . "}$!", $readData, $match);
        $data = $match[0];
        break;
    }
}
fclose($fp);
echo $data;
?>

整个代码执行完成耗时 0.0009(s)。

方法三

 0);
    $pos = $n + 1;
    $lines = array();
    while (count($lines) <= $n) {
        try {
            fseek($fp, -$pos, SEEK_END);
        }
        catch(Exception $e) {
            fseek(0);
            break;
        }
        $pos*= $base;
        while (!feof($fp)) {
            array_unshift($lines, fgets($fp));
        }
    }
    return array_slice($lines, 0, $n);
}
var_dump(tail(fopen("access.log", "r+") , 10));
?>

整个代码执行完成耗时 0.0003(s)

文章网址:

随意转载^^但请附上教程地址。

推荐阅读

php
Python高级之网络编程及TCP/IP协议簇的OSI七层模型介绍

本文介绍了Python高级网络编程及TCP/IP协议簇的OSI七层模型。首先简单介绍了七层模型的各层及其封装解封装过程。然后讨论了程序开发中涉及到的网络通信内容，主要包括TCP协议、UDP协议和IPV4协议。最后还介绍了socket编程、聊天socket实现、远程执行命令、上传文件、socketserver及其源码分析等相关内容。 ... [详细]

蜡笔小新 2023-12-14 18:16:27
php
Centos7.6安装Gitlab教程及注意事项

本文介绍了在Centos7.6系统下安装Gitlab的详细教程，并提供了一些注意事项。教程包括查看系统版本、安装必要的软件包、配置防火墙等步骤。同时，还强调了使用阿里云服务器时的特殊配置需求，以及建议至少4GB的可用RAM来运行GitLab。 ... [详细]

蜡笔小新 2023-12-14 14:01:06
select
图解redis的持久化存储机制RDB和AOF的原理和优缺点

本文通过图解的方式介绍了redis的持久化存储机制RDB和AOF的原理和优缺点。RDB是将redis内存中的数据保存为快照文件，恢复速度较快但不支持拉链式快照。AOF是将操作日志保存到磁盘，实时存储数据但恢复速度较慢。文章详细分析了两种机制的优缺点，帮助读者更好地理解redis的持久化存储策略。 ... [详细]

蜡笔小新 2023-12-13 20:24:11
select
rhel5.5搭建网关+LAMP+postfix+dhcp的步骤和配置方法

本文介绍了在rhel5.5操作系统下搭建网关+LAMP+postfix+dhcp的步骤和配置方法。通过配置dhcp自动分配ip、实现外网访问公司网站、内网收发邮件、内网上网以及SNAT转换等功能。详细介绍了安装dhcp和配置相关文件的步骤，并提供了相关的命令和配置示例。 ... [详细]

蜡笔小新 2023-12-14 17:13:20
get
【译】发送表单数据

这是原文链接：sendingformdata许多情况下，我们使用表单发送数据到服务器。服务器处理数据并返回响应给用户。这看起来很简单，但是 ... [详细]

蜡笔小新 2023-12-14 16:19:10
get
Hibernate配置lazy=false时无法加载数据的问题解决方法

本文介绍了在Hibernate配置lazy=false时无法加载数据的问题，通过采用OpenSessionInView模式和修改数据库服务器版本解决了该问题。详细描述了问题的出现和解决过程，包括运行环境和数据库的配置信息。 ... [详细]

蜡笔小新 2023-12-14 13:59:45
function
如何使用Java获取服务器硬件信息和磁盘负载率

本文介绍了使用Java编程语言获取服务器硬件信息和磁盘负载率的方法。首先在远程服务器上搭建一个支持服务端语言的HTTP服务，并获取服务器的磁盘信息，并将结果输出。然后在本地使用JS编写一个AJAX脚本，远程请求服务端的程序，得到结果并展示给用户。其中还介绍了如何提取硬盘序列号的方法。 ... [详细]

蜡笔小新 2023-12-14 13:56:20
function
禁止程序接收鼠标事件的工具_VNC Viewer for Mac(远程桌面工具)免费版

VNCViewerforMac是一款运行在Mac平台上的远程桌面工具，vncviewermac版可以帮助您使用Mac的键盘和鼠标来控制远程计算机，操作简 ... [详细]

蜡笔小新 2023-12-14 12:55:15
function
云服务器API接口的入门使用及功能解析

本文详细介绍了云服务器API接口的概念和作用，以及如何使用API接口管理云上资源和开发应用程序。通过创建实例API、调整实例配置API、关闭实例API和退还实例API等功能，可以实现云服务器的创建、配置修改和销毁等操作。对于想要学习云服务器API接口的人来说，本文提供了详细的入门指南和使用方法。如果想进一步了解相关知识或阅读更多相关文章，请关注编程笔记行业资讯频道。 ... [详细]

蜡笔小新 2023-12-14 12:43:39
php
Metasploit攻击渗透实践

本文介绍了Metasploit攻击渗透实践的内容和要求，包括主动攻击、针对浏览器和客户端的攻击，以及成功应用辅助模块的实践过程。其中涉及使用Hydra在不知道密码的情况下攻击metsploit2靶机获取密码，以及攻击浏览器中的tomcat服务的具体步骤。同时还讲解了爆破密码的方法和设置攻击目标主机的相关参数。 ... [详细]

蜡笔小新 2023-12-14 12:14:09
byte
Oracle中tnsnames.ora的作用和配置方法

本文介绍了Oracle数据库中tnsnames.ora文件的作用和配置方法。tnsnames.ora文件在数据库启动过程中会被读取，用于解析LOCAL_LISTENER，并且与侦听无关。文章还提供了配置LOCAL_LISTENER和1522端口的示例，并展示了listener.ora文件的内容。 ... [详细]

蜡笔小新 2023-12-14 07:44:06
php
PHP实现断点续传乱序合并文件的方法和源码

本文介绍了使用PHP实现断点续传乱序合并文件的方法和源码。由于网络原因，文件需要分割成多个部分发送，因此无法按顺序接收。文章中提供了merge2.php的源码，通过使用shuffle函数打乱文件读取顺序，实现了乱序合并文件的功能。同时，还介绍了filesize、glob、unlink、fopen等相关函数的使用。阅读本文可以了解如何使用PHP实现断点续传乱序合并文件的具体步骤。 ... [详细]

蜡笔小新 2023-12-14 04:33:19
php
Linux进程控制块PCBtask_struct结构体结构及作用详解

本文详细介绍了Linux中进程控制块PCBtask_struct结构体的结构和作用，包括进程状态、进程号、待处理信号、进程地址空间、调度标志、锁深度、基本时间片、调度策略以及内存管理信息等方面的内容。阅读本文可以更加深入地了解Linux进程管理的原理和机制。 ... [详细]

蜡笔小新 2023-12-13 21:31:18
php
解决Mac上无法使用localhost连接mysql的问题

本文介绍了在Mac上搭建php环境后无法使用localhost连接mysql的问题，并通过将localhost替换为127.0.0.1或本机IP解决了该问题。文章解释了localhost和127.0.0.1的区别，指出了使用socket方式连接导致连接失败的原因。此外，还提供了相关链接供读者深入了解。 ... [详细]

蜡笔小新 2023-12-13 17:48:58
php
Thrift教程初级篇——RPC框架Thrift的安装环境变量配置与第一个实例

本文介绍了RPC框架Thrift的安装环境变量配置与第一个实例，讲解了RPC的概念以及如何解决跨语言、c++客户端、web服务端、远程调用等需求。Thrift开发方便上手快，性能和稳定性也不错，适合初学者学习和使用。 ... [详细]

蜡笔小新 2023-12-13 17:36:52

谭禅心_136

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章