Java实现TFIDF算法代码分享

作者：15-Sports | 来源：互联网 | 2021-12-02 00:48

这篇文章主要介绍了Java实现TFIDF算法代码分享，对算法进行了简单介绍，概念，原理，以及实现代码的分享，具有一定参考价值，需要的朋友可以了解下。

算法介绍

概念

TF-IDF（term frequency–inverse document frequency）是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜寻引擎应用，作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外，因特网上的搜寻引擎还会使用基于连结分析的评级方法，以确定文件在搜寻结果中出现的顺序。

原理

在一份给定的文件里，词频(termfrequency,TF)指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被归一化（分子一般小于分母区别于IDF），以防止它偏向长的文件。（同一个词语在长文件里可能会比短文件有更高的词频，而不管该词语重要与否。）

逆向文件频率(inversedocumentfrequency,IDF)是一个词语普遍重要性的度量。某一特定词语的IDF，可以由总文件数目除以包含该词语之文件的数目，再将得到的商取对数得到。

某一特定文件内的高词语频率，以及该词语在整个文件集合中的低文件频率，可以产生出高权重的TF-IDF。因此，TF-IDF倾向于过滤掉常见的词语，保留重要的词语。

TFIDF的主要思想是：如果某个词或短语在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。TFIDF实际上是：TF*IDF，TF词频(TermFrequency)，IDF反文档频率(InverseDocumentFrequency)。TF表示词条在文档d中出现的频率（另一说：TF词频(TermFrequency)指的是某一个给定的词语在该文件中出现的次数）。IDF的主要思想是：如果包含词条t的文档越少，也就是n越小，IDF越大，则说明词条t具有很好的类别区分能力。如果某一类文档C中包含词条t的文档数为m，而其它类包含t的文档总数为k，显然所有包含t的文档数n=m+k，当m大的时候，n也大，按照IDF公式得到的IDF的值会小，就说明该词条t类别区分能力不强。（另一说：IDF反文档频率(InverseDocumentFrequency)是指果包含词条的文档越少，IDF越大，则说明词条具有很好的类别区分能力。）但是实际上，如果一个词条在一个类的文档中频繁出现，则说明该词条能够很好代表这个类的文本的特征，这样的词条应该给它们赋予较高的权重，并选来作为该类文本的特征词以区别与其它类文档。这就是IDF的不足之处.

最近要做领域概念的提取，TFIDF作为一个很经典的算法可以作为其中的一步处理。

计算公式比较简单，如下：

预处理

由于需要处理的候选词大约后3w+，并且语料文档数有1w+，直接挨个文本遍历的话很耗时，每个词处理时间都要一分钟以上。

为了缩短时间，首先进行分词，一个词输出为一行方便统计，分词工具选择的是HanLp。

然后，将一个领域的文档合并到一个文件中，并用“$$$”标识符分割，方便记录文档数。

下面是选择的领域语料（PATH目录下）：

代码实现

package edu.heu.lawsoutput;
import java.io.BufferedReader;
import java.io.BufferedWriter;
import java.io.File;
import java.io.FileReader;
import java.io.FileWriter;
import java.util.HashMap;
import java.util.Map;
import java.util.Set;
/**
 * @ClassName: TfIdf
 * @Description: TODO
 * @author LJH
 * @date 2017年11月12日 下午3:55:15
 */
public class TfIdf {
	static final String PATH = "E:\\corpus";
	// 语料库路径
	public static void main(String[] args) throws Exception {
		String test = "离退休人员";
		// 要计算的候选词
		computeTFIDF(PATH, test);
	}
	/**
  * @param @param path 语料路经
  * @param @param word 候选词
  * @param @throws Exception 
  * @return void 
  */
	static void computeTFIDF(String path, String word) throws Exception {
		File fileDir = new File(path);
		File[] files = fileDir.listFiles();
		// 每个领域出现候选词的文档数
		Map cOntainsKeyMap= new HashMap<>();
		// 每个领域的总文档数
		Map totalDocMap = new HashMap<>();
		// TF = 候选词出现次数/总词数
		Map tfMap = new HashMap<>();
		// scan files
		for (File f : files) {
			// 候选词词频
			double termFrequency = 0;
			// 文本总词数
			double totalTerm = 0;
			// 包含候选词的文档数
			int cOntainsKeyDoc= 0;
			// 词频文档计数
			int totalCount = 0;
			int fileCount = 0;
			// 标记文件中是否出现候选词
			Boolean flag = false;
			FileReader fr = new FileReader(f);
			BufferedReader br = new BufferedReader(fr);
			String s = "";
			// 计算词频和总词数
			while ((s = br.readLine()) != null) {
				if (s.equals(word)) {
					termFrequency++;
					flag = true;
				}
				// 文件标识符
				if (s.equals("$$$")) {
					if (flag) {
						containsKeyDoc++;
					}
					fileCount++;
					flag = false;
				}
				totalCount++;
			}
			// 减去文件标识符的数量得到总词数
			totalTerm += totalCount - fileCount;
			br.close();
			// key都为领域的名字
			containsKeyMap.put(f.getName(), containsKeyDoc);
			totalDocMap.put(f.getName(), fileCount);
			tfMap.put(f.getName(), (double) termFrequency / totalTerm);
			System.out.println("----------" + f.getName() + "----------");
			System.out.println("该领域文档数：" + fileCount);
			System.out.println("候选词出现词数：" + termFrequency);
			System.out.println("总词数：" + totalTerm);
			System.out.println("出现候选词文档总数：" + containsKeyDoc);
			System.out.println();
		}
		//计算TF*IDF
		for (File f : files) {
			// 其他领域包含候选词文档数
			int otherCOntainsKeyDoc= 0;
			// 其他领域文档总数
			int otherTotalDoc = 0;
			double idf = 0;
			double tfidf = 0;
			System.out.println("~~~~~" + f.getName() + "~~~~~");
			Set> cOntainsKeyset= containsKeyMap.entrySet();
			Set> totalDocset = totalDocMap.entrySet();
			Set> tfSet = tfMap.entrySet();
			// 计算其他领域包含候选词文档数
			for (Map.Entry entry : containsKeyset) {
				if (!entry.getKey().equals(f.getName())) {
					otherContainsKeyDoc += entry.getValue();
				}
			}
			// 计算其他领域文档总数
			for (Map.Entry entry : totalDocset) {
				if (!entry.getKey().equals(f.getName())) {
					otherTotalDoc += entry.getValue();
				}
			}
			// 计算idf
			idf = log((float) otherTotalDoc / (otherContainsKeyDoc + 1), 2);
			// 计算tf*idf并输出
			for (Map.Entry entry : tfSet) {
				if (entry.getKey().equals(f.getName())) {
					tfidf = (double) entry.getValue() * idf;
					System.out.println("tfidf:" + tfidf);
				}
			}
		}
	}
	static float log(float value, float base) {
		return (float) (Math.log(value) / Math.log(base));
	}
}

运行结果

测试词为“离退休人员”，中间结果如下：

最终结果：

结论

可以看到“离退休人员”在养老保险和社保领域，tfidf值比较高，可以作为判断是否为领域概念的一个依据。

当然TF-IDF算法虽然很经典，但还是有许多不足，不能单独依赖其结果做出判断。

以上就是本文关于Java实现TFIDF算法代码分享的全部内容，希望对大家有所帮助。感兴趣的朋友可以继续参阅本站：

Java 蒙特卡洛算法求圆周率近似值实例详解

java算法实现红黑树完整代码示例

java实现的各种排序算法代码示例

如有不足之处，欢迎留言指出。

算法

推荐阅读

算法
logistic回归（线性和非线性）的开发笔记

本文由编程笔记#小编为大家整理，主要介绍了logistic回归（线性和非线性）相关的知识，包括线性logistic回归的代码和数据集的分布情况。希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2023-12-14 21:40:43
深度
阿里Treebased Deep Match(TDM) 学习笔记及技术发展回顾

本文介绍了阿里Treebased Deep Match(TDM)的学习笔记，同时回顾了工业界技术发展的几代演进。从基于统计的启发式规则方法到基于内积模型的向量检索方法，再到引入复杂深度学习模型的下一代匹配技术。文章详细解释了基于统计的启发式规则方法和基于内积模型的向量检索方法的原理和应用，并介绍了TDM的背景和优势。最后，文章提到了向量距离和基于向量聚类的索引结构对于加速匹配效率的作用。本文对于理解TDM的学习过程和了解匹配技术的发展具有重要意义。 ... [详细]

蜡笔小新 2023-12-14 19:24:58
算法
云原生边缘计算之KubeEdge简介及功能特点

本文介绍了云原生边缘计算中的KubeEdge系统，该系统是一个开源系统，用于将容器化应用程序编排功能扩展到Edge的主机。它基于Kubernetes构建，并为网络应用程序提供基础架构支持。同时，KubeEdge具有离线模式、基于Kubernetes的节点、群集、应用程序和设备管理、资源优化等特点。此外，KubeEdge还支持跨平台工作，在私有、公共和混合云中都可以运行。同时，KubeEdge还提供数据管理和数据分析管道引擎的支持。最后，本文还介绍了KubeEdge系统生成证书的方法。 ... [详细]

蜡笔小新 2023-12-14 16:49:01
人工智能
大数据就业前景及人才需求

近年来，大数据成为互联网世界的新宠儿，被列入阿里巴巴、谷歌等公司的战略规划中，也在政府报告中频繁提及。据《大数据人才报告》显示，目前全国大数据人才仅46万，未来3-5年将出现高达150万的人才缺口。根据领英报告，数据剖析人才供应指数最低，且跳槽速度最快。中国商业结合会数据剖析专业委员会统计显示，未来中国基础性数据剖析人才缺口将高达1400万。目前BAT企业中，60%以上的招聘职位都是针对大数据人才的。 ... [详细]

蜡笔小新 2023-12-14 16:25:20
算法
Android中高级面试必知必会，积累总结

本文介绍了Android中高级面试的必知必会内容，并总结了相关经验。文章指出，如今的Android市场对开发人员的要求更高，需要更专业的人才。同时，文章还给出了针对Android岗位的职责和要求，并提供了简历突出的建议。 ... [详细]

蜡笔小新 2023-12-14 14:53:02
算法
CSS3选择器的使用方法详解，提高Web开发效率和精准度

本文详细介绍了CSS3新增的选择器方法，包括属性选择器的使用。通过CSS3选择器，可以提高Web开发的效率和精准度，使得查找元素更加方便和快捷。同时，本文还对属性选择器的各种用法进行了详细解释，并给出了相应的代码示例。通过学习本文，读者可以更好地掌握CSS3选择器的使用方法，提升自己的Web开发能力。 ... [详细]

蜡笔小新 2023-12-14 14:37:52
算法
Java工具类库Hutool介绍及功能概述

本文介绍了Java工具类库Hutool，该工具包封装了对文件、流、加密解密、转码、正则、线程、XML等JDK方法的封装，并提供了各种Util工具类。同时，还介绍了Hutool的组件，包括动态代理、布隆过滤、缓存、定时任务等功能。该工具包可以简化Java代码，提高开发效率。 ... [详细]

蜡笔小新 2023-12-14 14:29:36
算法
C#生成随机数的三种方法及其问题分析

本文介绍了C#中生成随机数的三种方法，并分析了其中存在的问题。首先介绍了使用Random类生成随机数的默认方法，但在高并发情况下可能会出现重复的情况。接着通过循环生成了一系列随机数，进一步突显了这个问题。文章指出，随机数生成在任何编程语言中都是必备的功能，但Random类生成的随机数并不可靠。最后，提出了需要寻找其他可靠的随机数生成方法的建议。 ... [详细]

蜡笔小新 2023-12-14 14:15:30
算法
qt学习(六)数据库注册用户的实现方法

本文介绍了在qt学习中实现数据库注册用户的方法，包括登录按钮按下后出现注册页面、账号可用性判断、密码格式判断、邮箱格式判断等步骤。具体实现过程包括UI设计、数据库的创建和各个模块调用数据内容。 ... [详细]

蜡笔小新 2023-12-14 13:29:32
人工智能
2020年AI产业报告：100个岗位抢1个人，计算机视觉成最大缺口

“你永远都不知道明天和‘公司的意外’哪个先来。”疫情期间，这是我们最战战兢兢的心情。但是显然，有些人体会不了。这份行业数据，让笔者“柠檬” ... [详细]

蜡笔小新 2023-12-14 12:23:22
算法
生成对抗式网络GAN及其衍生CGAN、DCGAN、WGAN、LSGAN、BEGAN介绍

一、GAN原理介绍学习GAN的第一篇论文当然由是IanGoodfellow于2014年发表的GenerativeAdversarialNetworks（论文下载链接arxiv：[h ... [详细]

蜡笔小新 2023-12-14 11:39:45
人脸识别
[译]技术公司十年经验的职场生涯回顾

本文是一位在技术公司工作十年的职场人士对自己职业生涯的总结回顾。她的职业规划与众不同，令人深思又有趣。其中涉及到的内容有机器学习、创新创业以及引用了女性主义者在TED演讲中的部分讲义。文章表达了对职业生涯的愿望和希望，认为人类有能力不断改善自己。 ... [详细]

蜡笔小新 2023-12-14 11:31:05
算法
无线认证设置故障排除方法及注意事项

本文介绍了解决无线认证设置故障的方法和注意事项，包括检查无线路由器工作状态、关闭手机休眠状态下的网络设置、重启路由器、更改认证类型、恢复出厂设置和手机网络设置等。通过这些方法，可以解决无线认证设置可能出现的问题，确保无线网络正常连接和上网。同时，还提供了一些注意事项，以便用户在进行无线认证设置时能够正确操作。 ... [详细]

蜡笔小新 2023-12-14 10:32:21
人工智能
游戏开发中的人工智能技术及分类介绍

本文介绍了游戏开发中的人工智能技术，包括定性行为和非定性行为的分类。定性行为是指特定且可预测的行为，而非定性行为则具有一定程度的不确定性。其中，追逐算法是定性行为的具体实例。 ... [详细]

蜡笔小新 2023-12-14 10:22:59
算法
JavaScript设计模式之策略模式（Strategy Pattern）的优势及应用

本文介绍了JavaScript设计模式之策略模式（Strategy Pattern）的定义和优势，策略模式可以避免代码中的多重判断条件，体现了开放-封闭原则。同时，策略模式的应用可以使系统的算法重复利用，避免复制粘贴。然而，策略模式也会增加策略类的数量，违反最少知识原则，需要了解各种策略类才能更好地应用于业务中。本文还以员工年终奖的计算为例，说明了策略模式的应用场景和实现方式。 ... [详细]

蜡笔小新 2023-12-14 09:31:45

15-Sports

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章