热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

特征权重量化TFIDF用于信息检索和数据挖掘的加权技术

TFIDF实际上是:TF*IDF,TF词频(TermFrequency),IDF逆向文件频率(InverseDocumentFrequency)。TF表示词条在文档d中出现的频率。

TFIDF实际上是:TF * IDF,TF词频(Term Frequency),IDF逆向文件频率(Inverse Document Frequency)。TF表示词条在文档d中出现的频率。IDF的主要思想是:如果包含词条t的文档越少,也就是n越小,IDF越大,则说明词条t具有很好的类别区分能力。

TFIDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。

TF是指在一个文档中出现的词的频率,词的次数初一所有的词数 

  而IDF是所有的文档中出现该词的次数越多,则权重就越小。。逆向文件频率(inverse document frequency,IDF)是一个词语普遍重要性的度量。某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到:

最后的相关性的计算

,上述相关性计算的公式就由词频的简单求和变成了加权求和,即 TF1*IDF1 + TF2*IDF2 +... + TFN*IDFN。。

特征权重量化 TF-IDF 用于信息检索和数据挖掘的加权技术


推荐阅读
  • 部署(1.使用Xshell连接云服务器)
    0.软件硬件:1.腾讯云云服务器2.Ubuntu18系统3.Win7系统4.Xshell、Navicat、FileZilla1.同步数据库1.使用Xshell连接云服务器1.打开X ... [详细]
  • for,while,until三种循环
    #一、echo命令-改变输出字符串或者提取shell变量的值##1.1、、格式echo[参数][字符串]##2.2、常用参数|||||||常用参数|说明||-n|表示输出不换行|| ... [详细]
  • Qt获得网页源码
    1.工程中添加网络模块打开你的.pro文件插入以下代码QT+ network2.添加代码CodeQStringNetWork::getWebSource(QUrlurl){QNe ... [详细]
  • 1、html特殊字符的显示   我们知道html语言和C语言一样也有一些特殊字符,它们是不能正常显示的,必须经过转义,在网上可以查到如何显示这些字符,如下图所示: 上 ... [详细]
  • OpenContainerInitiative(OCI)目前有2个标准:runtime-spec以及image-spec。前者规定了如何运行解压过的filesystembundle ... [详细]
  • 原文网址:转载请注明出处:http:blog.csdn.netguolin_blogarticledetails17357967不知不觉中,带你一步步深入了解View系列的文章已经 ... [详细]
  • 1、首先是http服务a.位置 HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\services\HTTPb.把REG_DWORD类型的项 ... [详细]
  • 哈希表两个数组的交集
    解法:由于同一个list中可能存在重复元素,所以考虑采用计数的方式解决问题,具体思路如下:首先构建一个dict来记录list中的元素个数,称为count_dict;count_di ... [详细]
  • pwnable echo1
    最近忙的好久没有更新了,有空把之前拿来练手的CTFpwn题逐渐整理一下放出来题目是linux64位程序,流程很简单,大致思路就是先把一个跳转的机器指令写进name的地址,然后溢出覆 ... [详细]
  • 通过JSON字符串来创建对象FirstName ... [详细]
  • 使用openshift搭建的k8s的api创建Deployment,在启动的时候报下面的错误:Invalidvalue:“hostPath”:hostPathvolumesaren ... [详细]
  • ?? 1  通过process的方式播放视频 T22VideoPlayer.pro HEADERS + ... [详细]
  • 返回一个一维数组环中的数相加的最大的和
    项目成员:姜中希、王昭博。1.设计思想:(1)外层while循环控制结束(in)的时候停止。(2)内层计算:按照不循环数组的方式计算,每当外层i增加1,数组更新,第i-1个数变为数 ... [详细]
  • 开课第一天,同学们做了自我介绍,很高兴认识了很多新的同学。通过短暂的交流,让自己的兴趣越来越浓重了。今天老师讲了关于.net的一些大概,虽然很多东西都听不懂,但这让自己意识到学习才 ... [详细]
  • LeetCode每日一题:925. 长按键入
    题目链接:925.长按键入难易程度:【简单】思路:双指针。题目还是比较简单的,比较容易想到。最后判断下i是否等于name.length,容易忽略。看了下官方解答,也是一样的思路。代 ... [详细]
author-avatar
她丶无可取代
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有