在指定目录下检索某一特定的字符串

作者：我是谁_2502894917 | 来源：互联网 | 2023-06-08 16:11

*需求：在指定文件目录下的所有文件中，检索某一特定字符串所出现的行，将这些行的内容输出到本地文件系统的输出文件夹中。这个程序假定只有第一层

/*需求&＃xff1a;
在指定文件目录下的所有文件中&＃xff0c;检索某一特定字符串所出现的行&＃xff0c;将这些行的内容输出到本地文件系统的输出文件夹中。这个程序
假定只有第一层目录下的文件才有效&＃xff0c;而且&＃xff0c;假定文件都是文本文件。为了防止单个的输出文件过大&＃xff0c;这里还加了一个文件最大行数限制
当文件行数达到最大值时&＃xff0c;便关闭此文件&＃xff0c;创建另外的文件继续保存。保存的结果文件名为1&＃xff0c;2,3,4&＃xff0c;..,*/

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.*;

import java.io.File;
import java.io.IOException;
import java.util.Scanner;

public class ResultFilter {

//实现逻辑&＃xff1a;获取改目录下所有文件的信息&＃xff0c;对每一个文件&＃xff08;打开&＃xff0c;循环读取数据&＃xff0c;写入目标位置&＃xff0c;关闭文件&＃xff0c;最后关闭输出文件&＃xff09;
public static void main(String[] args) throws IOException {
Configuration conf &＃61; new Configuration();
//hdfs和local分别对应HDFS实例和本地文件系统实例
FileSystem hdfs &＃61; FileSystem.get(conf);
FileSystem local &＃61; FileSystem.get(conf);
Path inputDir, localFile;
int singleFileLines, numLines, numFiles;
FileStatus[] inputFiles;
FSDataInputStream in &＃61; null;
FSDataOutputStream out &＃61; null;
Scanner scan;
String str;
byte[] buf;

if (args.length !&＃61; 4) {
//输入参数数量不够&＃xff0c;提示参数格式后终止程序执行
System.err.println("usage resultFilter " &＃43; " $");$
return;
}
inputDir &＃61; new Path(args[0]);//获取输入的hdfs路径
singleFileLines &＃61; Integer.parseInt(args[3]);//获取结果文件的最大行数
inputFiles &＃61; hdfs.listStatus(inputDir);//获取目录信息
numLines &＃61; 0;//文件的行数从0开始
numFiles &＃61; 1;//输出文件从1开始编号
localFile &＃61; new Path(args[1]); //获取输出的本地文件路径
if (local.exists(localFile)) //若目标路径存在&＃xff0c;则删除
local.delete(localFile, true);
for (int j &＃61; 0; j if (inputFiles[j].isDir() &＃61;&＃61; true)//忽略子目录
continue;
System.out.println(inputFiles[j].getPath().getName());
in &＃61; hdfs.open(inputFiles[j].getPath());
scan &＃61; new Scanner(in);
while (scan.hasNext()) {//循环读取文本数据
str &＃61; scan.nextLine();
if (str.indexOf(args[2]) &＃61;&＃61; -1)
continue;//如果该行没有match字符串&＃xff0c;则忽略之
numLines&＃43;&＃43;;
if (numLines &＃61;&＃61; 1)//如果是1&＃xff0c;说明需要新建文件了
{
localFile &＃61; new Path(args[1] &＃43; File.separator &＃43; numFiles);
out &＃61; local.create(localFile);//创建文件
numFiles&＃43;&＃43;;
}
buf &＃61; (str &＃43; "\n").getBytes();
out.write(buf, 0, buf.length);//将字符串写入输出流
if (numLines &＃61;&＃61; singleFileLines)//如果已满足相应行数&＃xff0c;关闭文件
{
out.close();
numLines &＃61; 0;//把行数变为0&＃xff0c;重新开始计数
}
}// end of while
scan.close();
in.close();
}// end of for
if (out !&＃61; null)
out.close();
}// end of maain
} //end of resultFilter

转:https://www.cnblogs.com/chengwentan/p/9969419.html

推荐阅读

int
java 模拟get post请求_Java后台模拟发送http的get和post请求，并测试

个人学习使用：谨慎参考1Client类importcom.thoughtworks.gauge.Step;importcom.thoughtworks.gauge.T ... [详细]

蜡笔小新 2023-12-13 14:20:23
int
[大整数乘法] java代码实现

本文介绍了使用java代码实现大整数乘法的过程，同时也涉及到大整数加法和大整数减法的计算方法。通过分治算法来提高计算效率，并对算法的时间复杂度进行了研究。详细代码实现请参考文章链接。 ... [详细]

蜡笔小新 2023-12-13 11:21:32
int
学习Java异常处理之throws之抛出并捕获异常（9）

任务描述本关任务：在main方法之外创建任意一个方法接收给定的两个字符串，把第二个字符串的长度减1生成一个整数值，输出第一个字符串长度是 ... [详细]

蜡笔小新 2023-12-12 10:14:42
int
在类中定义数组时出错 - Error on defining arrays in class

Iamtryingtomakeaclassthatwillreadatextfileofnamesintoanarray,thenreturnthatarra ... [详细]

蜡笔小新 2023-12-14 17:38:12
int
Java猜拳小游戏代码

本文介绍了一个Java猜拳小游戏的代码，通过使用Scanner类获取用户输入的拳的数字，并随机生成计算机的拳，然后判断胜负。该游戏可以选择剪刀、石头、布三种拳，通过比较两者的拳来决定胜负。 ... [详细]

蜡笔小新 2023-12-14 15:39:08
int
Java容器中的compareto方法排序原理解析

本文从源码解析Java容器中的compareto方法的排序原理，讲解了在使用数组存储数据时的限制以及存储效率的问题。同时提到了Redis的五大数据结构和list、set等知识点，回忆了作者大学时代的Java学习经历。文章以作者做的思维导图作为目录，展示了整个讲解过程。 ... [详细]

蜡笔小新 2023-12-14 13:53:31
int
JavaSE笔试题-接口、抽象类、多态等问题解答

本文解答了JavaSE笔试题中关于接口、抽象类、多态等问题。包括Math类的取整数方法、接口是否可继承、抽象类是否可实现接口、抽象类是否可继承具体类、抽象类中是否可以有静态main方法等问题。同时介绍了面向对象的特征，以及Java中实现多态的机制。 ... [详细]

蜡笔小新 2023-12-14 10:01:13
int
Spring特性实现接口多类的动态调用详解

本文详细介绍了如何使用Spring特性实现接口多类的动态调用。通过对Spring IoC容器的基础类BeanFactory和ApplicationContext的介绍，以及getBeansOfType方法的应用，解决了在实际工作中遇到的接口及多个实现类的问题。同时，文章还提到了SPI使用的不便之处，并介绍了借助ApplicationContext实现需求的方法。阅读本文，你将了解到Spring特性的实现原理和实际应用方式。 ... [详细]

蜡笔小新 2023-12-14 03:24:19
int
关于cuowu类的错误提示和使用AdjustmentListener的问题

本文讨论了一个关于cuowu类的问题，作者在使用cuowu类时遇到了错误提示和使用AdjustmentListener的问题。文章提供了16个解决方案，并给出了两个可能导致错误的原因。 ... [详细]

蜡笔小新 2023-12-13 22:09:56
int
Java高并发程序设计学习-线程安全的概念与synchronized

本文介绍了Java高并发程序设计中线程安全的概念与synchronized关键字的使用。通过一个计数器的例子，演示了多线程同时对变量进行累加操作时可能出现的问题。最终值会小于预期的原因是因为两个线程同时对变量进行写入时，其中一个线程的结果会覆盖另一个线程的结果。为了解决这个问题，可以使用synchronized关键字来保证线程安全。 ... [详细]

蜡笔小新 2023-12-13 15:43:03
int
Java中vector的使用详解

本文详细介绍了Java中vector的使用方法和相关知识，包括vector类的功能、构造方法和使用注意事项。通过使用vector类，可以方便地实现动态数组的功能，并且可以随意插入不同类型的对象，进行查找、插入和删除操作。这篇文章对于需要频繁进行查找、插入和删除操作的情况下，使用vector类是一个很好的选择。 ... [详细]

蜡笔小新 2023-12-13 14:14:39
int
springmvc学习笔记(十)：控制器业务方法中通过注解实现封装Javabean接收表单提交的数据

本文介绍了在springmvc学习笔记系列的第十篇中，控制器的业务方法中如何通过注解实现封装Javabean来接收表单提交的数据。同时还讨论了当有多个注册表单且字段完全相同时，如何将其交给同一个控制器处理。 ... [详细]

蜡笔小新 2023-12-13 12:16:34
int
猜字母游戏

猜字母游戏猜字母游戏——设计数据结构猜字母游戏——设计程序结构猜字母游戏——实现字母生成方法猜字母游戏——实现字母检测方法猜字母游戏——实现主方法1猜字母游戏——设计数据结构1.1 ... [详细]

蜡笔小新 2023-12-13 12:04:03
int
Android源码深入理解JNI技术的概述和应用

本文介绍了Android源码中的JNI技术，包括概述和应用。JNI是Java Native Interface的缩写，是一种技术，可以实现Java程序调用Native语言写的函数，以及Native程序调用Java层的函数。在Android平台上，JNI充当了连接Java世界和Native世界的桥梁。本文通过分析Android源码中的相关文件和位置，深入探讨了JNI技术在Android开发中的重要性和应用场景。 ... [详细]

蜡笔小新 2023-12-13 10:00:57
int
Java学习笔记之面向对象编程（OOP）

本文介绍了Java学习笔记中的面向对象编程（OOP）内容，包括OOP的三大特性（封装、继承、多态）和五大原则（单一职责原则、开放封闭原则、里式替换原则、依赖倒置原则）。通过学习OOP，可以提高代码复用性、拓展性和安全性。 ... [详细]

蜡笔小新 2023-12-13 08:44:30

我是谁_2502894917

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章