热门标签 | HotTags
当前位置:  开发笔记 > 人工智能 > 正文

基于知网语义相似度的中文文本分类研究论文笔记

论文名和编号摘要引言相关背景和工作论文方法模型实验(数据集)及分析(一些具体数据)未来工作不足

论文名和编号

摘要/引言

相关背景和工作

论文方法/模型

实验(数据集)及

分析(一些具体数据)

未来工作/不足

是否有源码

问题

原因

解决思路

优势

 

 

 

 

 

基于知网语义相似度的中文文本分类研究

 

1.传统的文本处理大部分是根据词频和逆向文档频率将文本表示成向量空间模型,实践证明这种模型确实简单高效并且得到了广泛应用,但这种模型表示缺乏对语义的理解,忽略了词与词之间的语义信息丢失了很多重要的语义信息。

1.许多学者虽然将知网引入到向量空间模型中,使用知网的知识库计算文本中词语的相似度,但有着各种各样的缺漏,如:没有考虑词语在文本中所占的比重,没有全面考虑义原关系,没有进行词义的消歧等。

1.利用TF-IDF算法计算特征词项权值,并将基于知网的语义相似度计算引入中文文本分类中,运用基于词语消歧的知网语义相似度计算方法,提出加权的文本相似度计算方法。全面综合考虑了特征词项在文本中所占的比重,对文本相似度进行加权处理,提出新的文本相似度计算公式,以提升文本分类的精度。

1.该方法较传统的文本相似度计算方法在文本分类性能上有所提高。

1.知网是我国著名机器翻译专家董振东和董强历经10多年创建的一个知识系统。它以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念所具有的属性之间的关系为基本内容的常识知识库。其由两个主要概念:“概念”和“义原”。“概念”是对词汇语义的一种描述,每个词可以表达为几个概念。而而“概念”是用一种“知识表示语言”来描述的,这种“知识表示语言”所用的“词汇”叫做“义原”。“义原”是用于描述一个“概念”的最小意义单位。根据属性,“义原”被分为三组:“基本义原”用于描述单个概念的语义特征;“语法义原”描述词语语法特征;“关系义原”描述概念和概念之间的关系。知网描述了义原之间的8种关系,其中最重要的是上下位关系,基本义原通过上下位关系组织成一个树状义原层次体系,这是语义相似度计算的基础。

1.消歧:对待分析的文本进行分词和词性标注,去掉句子中的虚词、保留实词,保留词性为名词、动词、形容词等。对于存在歧义的词语,如果词语在该标注的词性下只有一个概念,则直接消歧。如果有多个概念解释,则根据句法分析得到与该词语所有关联的实词。通过依存句法分析提取出歧义词所在句子中预期相关联的实词。将这些实词的所有义项(概念)分解成义原。再对歧义词的义项作同样处理,定义每个义原的初始权重为1.判断歧义词的每个义原与关联词语的某个义原是否存在知网规定的8种义原关系或为相同义原。如果存在关系,则歧义词相应的义原权重加1,最后计算该医院所在义项的权重。

2. 提出一种加权的文本相似度计算方 法。在基于词语消歧、知网语义相似度计算的基础上, 定义一个相似度阈值, 大于这个阈值即认为这两个词 语具有相似性。如果两个文本所具有的相似词语越多, 而且相似词语在文本中的权值越高, 则这两个文本的 相似程度就越高。

1.实验数据采用从新浪、搜狐网站上爬取的 6 000 篇新闻文稿, 分为财经、体育、汽车、娱乐、科技、教育 6 个类别(其中财经、体育、汽车来自搜狐网站, 娱 乐、科技、教育来自新浪网站), 每个类别 1 000 篇文 本, 从 6 000 篇文本中每个类别选取 800 篇文本共计 4 800 篇作为训练集, 其余的 1 200 篇文本(每个类别 200 篇)作为测试集。选用中国科学院计算技术研究所 的 ICTCLAS[14]进行分词, 选取哈尔滨工业大学中文 停用词表[15], 包含767个中文停用词, 采用KNN分类 器, 经过反复测验, K取15时实验效果最佳, 使用CHI 特征选择方法进行特征降维, 特征项权值计算采用 TF-IDF 算法, 词汇相似度阈值定为 0.8。对比实验中, 第一组实验采用传统的文本相似度 计算方法即不考虑语义的文本相似度计算公式进行文 本分类; 第二组实验采用本文所述的基于知网语义相 似度加权的文本相似度计算方法。

2.结果分析:测试集和训练集的比例是1:4, F1值大多处 于 80%左右, 而个别的像汽车、体育等类别其专业术 语较多, 具有较高的区分度, F1 值达到 90%以上。在 表 2 中, F1 值无论是在各个类别上还是在平均值上都 有所提高。这主要是因为在计算文本相似度时充分考 虑了词与词之间的语义关系, 从而提高了文本相似度 计算的准确性, 体现在最终分类的结果上就表现为分 类精度的提高。对于传统分类方法 分类精度相对较低的类别, 例如财经、娱乐、科技、 教育等类别, 使用本文提出的方法其分类精度能得到 改善, 而像体育、汽车等类别, 其分类精度的改善虽不 是很明显但亦有所提升, 这主要是因为其使用传统方 法的分类精度已经很高, 达到 90%以上。

1.该算法的时间复杂度较高,文本分类的处理速度有待提高。

无 

 


推荐阅读
  • 本文介绍了闭包的定义和运转机制,重点解释了闭包如何能够接触外部函数的作用域中的变量。通过词法作用域的查找规则,闭包可以访问外部函数的作用域。同时还提到了闭包的作用和影响。 ... [详细]
  • Linux服务器密码过期策略、登录次数限制、私钥登录等配置方法
    本文介绍了在Linux服务器上进行密码过期策略、登录次数限制、私钥登录等配置的方法。通过修改配置文件中的参数,可以设置密码的有效期、最小间隔时间、最小长度,并在密码过期前进行提示。同时还介绍了如何进行公钥登录和修改默认账户用户名的操作。详细步骤和注意事项可参考本文内容。 ... [详细]
  • 本文介绍了Java工具类库Hutool,该工具包封装了对文件、流、加密解密、转码、正则、线程、XML等JDK方法的封装,并提供了各种Util工具类。同时,还介绍了Hutool的组件,包括动态代理、布隆过滤、缓存、定时任务等功能。该工具包可以简化Java代码,提高开发效率。 ... [详细]
  • 本文介绍了C#中生成随机数的三种方法,并分析了其中存在的问题。首先介绍了使用Random类生成随机数的默认方法,但在高并发情况下可能会出现重复的情况。接着通过循环生成了一系列随机数,进一步突显了这个问题。文章指出,随机数生成在任何编程语言中都是必备的功能,但Random类生成的随机数并不可靠。最后,提出了需要寻找其他可靠的随机数生成方法的建议。 ... [详细]
  • qt学习(六)数据库注册用户的实现方法
    本文介绍了在qt学习中实现数据库注册用户的方法,包括登录按钮按下后出现注册页面、账号可用性判断、密码格式判断、邮箱格式判断等步骤。具体实现过程包括UI设计、数据库的创建和各个模块调用数据内容。 ... [详细]
  • “你永远都不知道明天和‘公司的意外’哪个先来。”疫情期间,这是我们最战战兢兢的心情。但是显然,有些人体会不了。这份行业数据,让笔者“柠檬” ... [详细]
  • 生成对抗式网络GAN及其衍生CGAN、DCGAN、WGAN、LSGAN、BEGAN介绍
    一、GAN原理介绍学习GAN的第一篇论文当然由是IanGoodfellow于2014年发表的GenerativeAdversarialNetworks(论文下载链接arxiv:[h ... [详细]
  • [译]技术公司十年经验的职场生涯回顾
    本文是一位在技术公司工作十年的职场人士对自己职业生涯的总结回顾。她的职业规划与众不同,令人深思又有趣。其中涉及到的内容有机器学习、创新创业以及引用了女性主义者在TED演讲中的部分讲义。文章表达了对职业生涯的愿望和希望,认为人类有能力不断改善自己。 ... [详细]
  • 无线认证设置故障排除方法及注意事项
    本文介绍了解决无线认证设置故障的方法和注意事项,包括检查无线路由器工作状态、关闭手机休眠状态下的网络设置、重启路由器、更改认证类型、恢复出厂设置和手机网络设置等。通过这些方法,可以解决无线认证设置可能出现的问题,确保无线网络正常连接和上网。同时,还提供了一些注意事项,以便用户在进行无线认证设置时能够正确操作。 ... [详细]
  • 本文介绍了游戏开发中的人工智能技术,包括定性行为和非定性行为的分类。定性行为是指特定且可预测的行为,而非定性行为则具有一定程度的不确定性。其中,追逐算法是定性行为的具体实例。 ... [详细]
  • JavaScript设计模式之策略模式(Strategy Pattern)的优势及应用
    本文介绍了JavaScript设计模式之策略模式(Strategy Pattern)的定义和优势,策略模式可以避免代码中的多重判断条件,体现了开放-封闭原则。同时,策略模式的应用可以使系统的算法重复利用,避免复制粘贴。然而,策略模式也会增加策略类的数量,违反最少知识原则,需要了解各种策略类才能更好地应用于业务中。本文还以员工年终奖的计算为例,说明了策略模式的应用场景和实现方式。 ... [详细]
  • 本文介绍了PhysioNet网站提供的生理信号处理工具箱WFDB Toolbox for Matlab的安装和使用方法。通过下载并添加到Matlab路径中或直接在Matlab中输入相关内容,即可完成安装。该工具箱提供了一系列函数,可以方便地处理生理信号数据。详细的安装和使用方法可以参考本文内容。 ... [详细]
  • 本文详细介绍了相机防抖的设置方法和使用技巧,包括索尼防抖设置、VR和Stabilizer档位的选择、机身菜单设置等。同时解释了相机防抖的原理,包括电子防抖和光学防抖的区别,以及它们对画质细节的影响。此外,还提到了一些运动相机的防抖方法,如大疆的Osmo Action的Rock Steady技术。通过本文,你将更好地理解相机防抖的重要性和使用技巧,提高拍摄体验。 ... [详细]
  • 图解redis的持久化存储机制RDB和AOF的原理和优缺点
    本文通过图解的方式介绍了redis的持久化存储机制RDB和AOF的原理和优缺点。RDB是将redis内存中的数据保存为快照文件,恢复速度较快但不支持拉链式快照。AOF是将操作日志保存到磁盘,实时存储数据但恢复速度较慢。文章详细分析了两种机制的优缺点,帮助读者更好地理解redis的持久化存储策略。 ... [详细]
  • 无损压缩算法专题——LZSS算法实现
    本文介绍了基于无损压缩算法专题的LZSS算法实现。通过Python和C两种语言的代码实现了对任意文件的压缩和解压功能。详细介绍了LZSS算法的原理和实现过程,以及代码中的注释。 ... [详细]
author-avatar
不要芹菜味
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有