热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

AMiner新功能:技术趋势分析—挖掘技术源头、近期热度和全局热度

来源:学术头条本文约2500字,建议阅读5分钟。本文介绍了AMiner新开放功能的应用。开放全新功能技术趋势分析近日,AMiner开放了一

640?wx_fmt=png

来源:学术头条

本文约2500字,建议阅读5分钟。

本文介绍了AMiner新开放功能的应用。


开放全新功能 技术趋势分析


近日,AMiner开放了一个全新功能,复制下方网址在浏览器打开,或点击文末阅读原文”查看~


技术趋势分析

http://trend.aminer.cn


该功能基于AMiner超过2亿篇论文数据进行深入挖掘,包括对技术来源、热度、发展趋势进行研究,进而预测未来的技术前景。


640?wx_fmt=png


技术趋势分析的方法


技术趋势分析描述了技术的出现、变迁和消亡的全过程,它可以帮助研究人员理解领域的研究历史和现状,快速识别研究的前沿热点问题。学者运用统计分析、模型构建、AHP等方法对技术发展路径进行了一系列研究,这些方法大多是偏重于专家德尔菲法的定性分析,重点在于指标的设定,缺乏定量数据分析。另有一些研究者利用专利主路径分析研究技术的变迁,然而较少考虑技术主题随着时间的继承、分裂和融合。基于数据挖掘的主题变迁通过挖掘深层次的科技文本语义信息,能够有效的解决这一问题。


主题变迁是指一个领域的研究主题的内容和热度随着时间变化的现象,通过识别并关联不同时间片的技术主题,探索和分析领域主题变迁并通过可视化的方式进行展示,可以从更全面的视角感知技术的演进,对于技术发展路径识别具有重要意义。


技术流程


基于科技知识图谱,AMiner以可视化的方式,对查询领域q的热度演化趋势进行总结。


具体而言,某一技术领域q的热度,可以定义为该技术相关术语集合T q = {t} 在y年中的所有文献内的词频数。在这一设定下,问题的关键在于如何定位一个技术领域所相关的术语集合。AMiner将领域术语集合定义为该领域内专家常用的关键词。其具体算法流程如下:


  • 根据输入的领域查询词q进行专家搜索,得到候选专家集合{A}q。

  • 对候选{A}q根据与q的相关度和该专家的权威度(见公式(6-1))进行排序。取出排序结果中的前K个专家{A}K q作为分析对象。

  • 获取{A}K q 中每位专家历年的研究成果,分别抽取关键词,构成术语集合T q。进而,技术趋势分析被转化为针对术语集合T q 热度的分析。


相关研究


主题识别


主题识别是指利对领域文献进行挖掘,以发现其中隐含的研究主题。随着文献爆发式增长,主题识别面临着文本维度高和数据类型复杂的挑战,传统的基于专家知识的定性方法不再适应现实情况,基于机器学习的自动化识别逐渐成为主流。目前研究人员针对自动主题识别提出了许多方法和模型,其中主题模型已经成为技术主题识别领域最常用的方法模型。


专家学者是科学研究的主体,一些杰出学者往往引领着学科的发展,可以通过挖掘杰出学者公开发表的科技文献,发现科学领域的主要研究主题以及主题之间的联系。一些关键词被某一学者在发表的文章中提及,可能表明这些关键词之间存在一定的关联关系;如果这些关键词被不同的作者提及,可能说明不同作者认可这些关键词之间的关联关系,可认为这些关键词能够构成研究主题。如果某个关键词在作者的文章中多次出现,可以表明作者对关键词所代表的研究主题做了大量研究,并间接说明作者对该领域具有一定的影响力。


主题关联和可视化


为了分析技术主题变迁,通常需要根据发表时间将文献划分到相应的时间片内,通过文本挖掘获得不同时间片上的主题,将这些主题关联起来是主题变迁的核心步骤,主题能否关联决定着主题之间是否存在变迁关系。崔凯等利用KL相对熵来度量主题之间差异性,李湘东等利用JS距离对期刊主题相似度进行衡量。为了便于直观了解技术发展路径,主题关联需要进行可视化展示,主题关联和可视化关系密不可分,可视化是为了更好的主题变迁分析,并可以展示技术发展路径。


现有的路径可视化工具众多,其中陈超美基于java开发出Citespace I和Citespace Ⅱ,这两款软件具有时序分割,同被引分析、时序网络可视化等功能。Susan Havre等推出ThemeRiver模型,用于反应文档主题强度信息的变化过程。微软亚洲研究院提出TextFlow方法,在海量文本分析中引入主题合并和分裂的信息。


具体分析


我们将为大家展示AMiner中技术趋势分析系统的Answer machine领域的界面截图。在该系统中,术语集合的热度被可视化地展示为Sorted Stream Graph的形式。


其中,图中的每个彩色分支表示一个术语,其宽度表示该术语在当年的热度,各分支在每一年份在图中按照其热度进行排序。


系统包括三个视图:技术源头、近期热度和全局热度,用于展示领域发展的开端和现状,以及相关领域热度的变化趋势。


640?wx_fmt=png

Answer machine 技术源头图


从图中可以观察到,综合来看,Answer machine 由language generation、knowledge engineering、text planning、text classification等领域演化而来。在1971年至1981年十年间,该领域的来源关键词主要是knowledge engineering,此后关键词逐渐多元化,language generation和text planning开始加入进来。


640?wx_fmt=png

Answer machine 全局热度图


全局热度展示了该领域相关术语在所有年份上的平均热度,综合来看,Answer machine 的全局热度包含了question answering、community question answering、machine translation和Neural Network等关键词。


我们还可以看出,machine translation这一概念自二十世纪九十年代开始兴起,但是于2000年前后热度下降。这是由于information retrieval、question answering和Support Vector Machine等技术与其竞争导致的。并且question answering在2001年至2010年间呈现爆发式地增长。


640?wx_fmt=png

Answer machine 近期热度图


上图为该领域近期热度,综合来看,近期Answer machine的热点集中在question answering、community question answering、machine translation和Neural Network等关键词,与全局热度图是相似的。


技术趋势分析这一功能可以帮助用户了解技术的来龙去脉,技术发展趋势。技术趋势的发展是科技工作者和科研管理部门必须要考虑的因素。实时的分析技术的发展趋势,了解领域动态,并且实时的分析趋势发展中各个国家的分析和对比,及时的了解学科发展状况,领跑,并跑还是跟跑。


640?wx_fmt=gif


我就想问大家有没有心动?想不想用?


网址:http://trend.aminer.cn

或点击“阅读原文”查看~


640?wx_fmt=jpeg

640?wx_fmt=jpeg



推荐阅读
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • sklearn数据集库中的常用数据集类型介绍
    本文介绍了sklearn数据集库中常用的数据集类型,包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集,包含了波士顿506处房屋的13种不同特征以及房屋价格,适用于回归任务。 ... [详细]
  • 浏览器中的异常检测算法及其在深度学习中的应用
    本文介绍了在浏览器中进行异常检测的算法,包括统计学方法和机器学习方法,并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测,可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率,而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]
  • 本文由编程笔记#小编为大家整理,主要介绍了logistic回归(线性和非线性)相关的知识,包括线性logistic回归的代码和数据集的分布情况。希望对你有一定的参考价值。 ... [详细]
  • 本文介绍了闭包的定义和运转机制,重点解释了闭包如何能够接触外部函数的作用域中的变量。通过词法作用域的查找规则,闭包可以访问外部函数的作用域。同时还提到了闭包的作用和影响。 ... [详细]
  • [译]技术公司十年经验的职场生涯回顾
    本文是一位在技术公司工作十年的职场人士对自己职业生涯的总结回顾。她的职业规划与众不同,令人深思又有趣。其中涉及到的内容有机器学习、创新创业以及引用了女性主义者在TED演讲中的部分讲义。文章表达了对职业生涯的愿望和希望,认为人类有能力不断改善自己。 ... [详细]
  • 关于我们EMQ是一家全球领先的开源物联网基础设施软件供应商,服务新产业周期的IoT&5G、边缘计算与云计算市场,交付全球领先的开源物联网消息服务器和流处理数据 ... [详细]
  • 自动轮播,反转播放的ViewPagerAdapter的使用方法和效果展示
    本文介绍了如何使用自动轮播、反转播放的ViewPagerAdapter,并展示了其效果。该ViewPagerAdapter支持无限循环、触摸暂停、切换缩放等功能。同时提供了使用GIF.gif的示例和github地址。通过LoopFragmentPagerAdapter类的getActualCount、getActualItem和getActualPagerTitle方法可以实现自定义的循环效果和标题展示。 ... [详细]
  • Android工程师面试准备及设计模式使用场景
    本文介绍了Android工程师面试准备的经验,包括面试流程和重点准备内容。同时,还介绍了建造者模式的使用场景,以及在Android开发中的具体应用。 ... [详细]
  • 本文介绍了在Python中使用zlib模块进行字符串的压缩与解压缩的方法,并探讨了其在内存优化方面的应用。通过压缩存储URL等长字符串,可以大大降低内存消耗,虽然处理时间会增加,但是整体效果显著。同时,给出了参考链接,供进一步学习和应用。 ... [详细]
  • 基于Socket的多个客户端之间的聊天功能实现方法
    本文介绍了基于Socket的多个客户端之间实现聊天功能的方法,包括服务器端的实现和客户端的实现。服务器端通过每个用户的输出流向特定用户发送消息,而客户端通过输入流接收消息。同时,还介绍了相关的实体类和Socket的基本概念。 ... [详细]
  • GPT-3发布,动动手指就能自动生成代码的神器来了!
    近日,OpenAI发布了最新的NLP模型GPT-3,该模型在GitHub趋势榜上名列前茅。GPT-3使用的数据集容量达到45TB,参数个数高达1750亿,训练好的模型需要700G的硬盘空间来存储。一位开发者根据GPT-3模型上线了一个名为debuid的网站,用户只需用英语描述需求,前端代码就能自动生成。这个神奇的功能让许多程序员感到惊讶。去年,OpenAI在与世界冠军OG战队的表演赛中展示了他们的强化学习模型,在限定条件下以2:0完胜人类冠军。 ... [详细]
  • 背景应用安全领域,各类攻击长久以来都危害着互联网上的应用,在web应用安全风险中,各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]
  • 本文介绍了关于Java异常的八大常见问题,包括异常管理的最佳做法、在try块中定义的变量不能用于catch或finally的原因以及为什么Double.parseDouble(null)和Integer.parseInt(null)会抛出不同的异常。同时指出这些问题是由于不同的开发人员开发所导致的,不值得过多思考。 ... [详细]
  • 建立分类感知器二元模型对样本数据进行分类
    本文介绍了建立分类感知器二元模型对样本数据进行分类的方法。通过建立线性模型,使用最小二乘、Logistic回归等方法进行建模,考虑到可能性的大小等因素。通过极大似然估计求得分类器的参数,使用牛顿-拉菲森迭代方法求解方程组。同时介绍了梯度上升算法和牛顿迭代的收敛速度比较。最后给出了公式法和logistic regression的实现示例。 ... [详细]
author-avatar
雷神白中凌
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有