热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

研究报告_《2018自然语言处理研究报告》整理(附报告)

篇首语:本文由编程笔记#小编为大家整理,主要介绍了《2018自然语言处理研究报告》整理(附报告)相关的知识,希望对你有一定的参考价值。

篇首语:本文由编程笔记#小编为大家整理,主要介绍了《2018自然语言处理研究报告》整理(附报告)相关的知识,希望对你有一定的参考价值。



2018自然语言处理研究报告整理

这篇文章是阅读AMiner《2018自然语言处理研究报告》前几篇内容整理所得。



一. 自然语言处理概述

自然语言处理就是要计算机理解自然语言,计算机要理解自然语言文本的意义,最后能以自然文本形式来表达意图。处理过程主要是理解、转化、生成。

自然语言的理解和分析是一个层次化的过程,许多语言学家把这一过程分为五个层次, 可以更好地体现语言本身的构成,五个层次分别是


语音分析、词法分析、句法分析、语义分析和语用分析。


自然语言处理的研究可以分为基础性研究和应用性研究两部分,语音和文本是两类 研究的重点。

ACL、EMNLP、NAACL、COLING 4个会议是自然语言处理最重要的4个会议。


二. 自然语言处理发展历程

1950年“图灵测试”到70年代前,这时的自然语言处理停留在理性主义思潮阶段,以基于规则的方法为代表。

70年代后互联网高速发展,自然语言处理思潮由经验主义向理性主义过渡,基于统计的方法逐渐代替了基于规则的方 法。

从 2008 年到现在,在图像识别和语音识别领域的成果激励下,人们也逐渐开始引入深度学习来做自然语言处理研究。


三. 自然语言处理技术

技术图片

自然语言处理的基础研究方面,自然语言的基础技术包括词汇、短语、 句子和篇章级别的表示,分词、句法分析和语义分析以及语言认知模型和知识图谱等。


基础技术



  1. 词法分析

    主要任务是词性标注和词义标注。


  2. 句法分析

    主要任务是判断句子的句法结构和组成句子的各成分,明确它们之间的相互关系。


  3. 语义分析

    主要任务是根据句子的句法结构和句子中每个实词的词义推导出能够反映这个句子意义的形式化表示。


  4. 语用分析

    语用指人对语言的具体运用,主要任务是研究和分析语言使用者的真正用意,它与语境、语言使用者的知识涵养、言语行为、想法和意图是分不开的,是对自然语言的深层理解。情景语境和文化语境是语境分析主要涉及的方面。

  5. 篇章分析

    将研究扩展到句子的界限之外,主要任务是对段落和整篇文章进行理解和分析。


  6. 知识图谱

    表示知识,描述客观世界的概念、实体、事件等之间关系的一种表示形式。知识图谱在表现形式上与语义网络比较类似,不同的是,语义网络侧重于表示概念与概念之间的关系,而知识图谱更侧重于表述实体之间的关系。现在的知识网络被用来泛指大规模的知识库


除此之外,自然语言的基础研究还涉及词义消歧、指代消解、命名实体识别等方面的研究。


应用技术



  1. 机器翻译

    指运用机器,通过特定的计算机程序将一种书写形式或声音形式的自然语言,翻译成另一种书写形式或声音形式的自然语言。按照媒介可以将机器翻译分为文本翻译、语音翻译、图像翻译以及视频和 VR 翻译等。


  2. 信息检索

    从相关文档集合中查找用户所需信息的过程。先将信息按一定的方式组织和存储起来,然后根据用户的需求从已经存储的文档集合当中找出相关的信息,这是广义的信息检索。信息检索包括“存”与“取”两个方面,对信息进行收集、标引、描述、组织,进行有 14 序的存放是“存”。按照某种查询机制从有序存放的信息集合(数据库)中找出用户所需信息或获取其线索的过程是“取”。搜索引擎可以看成是一种特殊且重要的信息检索系统。


  3. 情感分析

    又称意见挖掘,是指通过计算技术对文本的主客观性、观点、情绪、极性的挖掘和分析,对文本的情感倾向做出分类判断。情感分析是自然语言理解领域的重要分支,涉及统计学、语言学、心理学、人工智能等领域的理论与方法。情感分析在电商评价、互联网舆情分析、选举预测等地方发挥重要作用。


  4. 自动问答

    指利用计算机自动回答用户所提出的问题以满足用户知识需求的任务。问答系统是信息服务的一种高级形式,系统反馈给用户的不再是基于关键词匹配排序的文档列表,而是精准的自然语言答案,这和搜索引擎提供给用户模糊的反馈是不同的。

  5. 自动文摘

    运用计算机技术,依据用户需求从源文本中提取最重要的信息内容,进行精简、提炼和总结,最后生成一个精简版本的过程。生成的文摘具有压缩性、内容完整性和可读性。

  6. 社会计算

    也称计算社会学,是指在互联网的环境下,以现代信息技术为手段,以社会科学理论为指导,帮助人们分析社会关系,挖掘社会知识,协助社会沟通,研究社会规律,破解社会难题的学科。社会媒体是社会计算的主要工具和手段,社会网络是一种关系网络,通过个人与群体及其相互之间的关系和交互,发现它们的组织特点、行为方式等特征,进而研究人群的社会结构,以利于他们之间的进一步共享、交流与协作。

  7. 信息抽取

    主要是指从文本中抽取出特定的事实信息。与之关系密切的是信息检索,信息检索主要是要从大量的文档中找到用户所需要的文档,而信息抽取是获取用户感兴趣或所需要的事实信息,这就需要对文本有深入的理解和分析。信息检索的结果可以作为信息抽取的范围,提高效率,信息抽取用于信息检索可以提高检索质量,更好地满足用户的需求。



四. 自然语言处理机构

下面列举的是自然语言处理方向研究较好的一些机构。


工业界

国外: google、微软亚洲研究院、Facebook

国内:百度、阿里、腾讯、京东、科大讯飞


国外学术界

技术图片

从国家来看,美国是自然语言处理研究学者聚集 最多的国家,英国、德国、加拿大和意大利紧随其后;从地区来看,美国东部是自然语言处理人才的集中地,而西欧、美国西部等其他先进地区也吸引了大量自然语言处理的研究者。


国内学术界



  • 清华大学

  • 北京大学

  • 中科院

  • 哈尔滨工业大学

  • 复旦大学

  • 苏州大学


推荐阅读
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • 深度学习中的Vision Transformer (ViT)详解
    本文详细介绍了深度学习中的Vision Transformer (ViT)方法。首先介绍了相关工作和ViT的基本原理,包括图像块嵌入、可学习的嵌入、位置嵌入和Transformer编码器等。接着讨论了ViT的张量维度变化、归纳偏置与混合架构、微调及更高分辨率等方面。最后给出了实验结果和相关代码的链接。本文的研究表明,对于CV任务,直接应用纯Transformer架构于图像块序列是可行的,无需依赖于卷积网络。 ... [详细]
  • 「爆干7天7夜」入门AI人工智能学习路线一条龙,真的不能再透彻了
    前言应广大粉丝要求,今天迪迦来和大家讲解一下如何去入门人工智能,也算是迪迦对自己学习人工智能这么多年的一个总结吧,本条学习路线并不会那么 ... [详细]
  •   数据挖掘作为近年来新兴的一门计算机边缘学科,其在国内外引起了越来越多的关注。并且随着数据挖掘技术的不断改进和数据挖掘工具的不断完善,数据挖掘必将在各行各业中得到广泛的应用。   ... [详细]
  • 基于深度学习的遥感应用
    文章目录深度学习的发展过程深度学习在遥感中的应用基于深度学习的遥感样例库建设基于深度学习的遥感影像目标及场景检索基于深度学习的建筑物提取基于深度学习的密集建筑物自动检测基于深度学习 ... [详细]
  • bat大牛带你深度剖析android 十大开源框架_请收好!5大领域,21个必知的机器学习开源工具...
    全文共3744字,预计学习时长7分钟本文将介绍21个你可能没使用过的机器学习开源工具。每个开源工具都为数据科学家处理数据库提供了不同角度。本文将重点介绍五种机器学习的 ... [详细]
  • 基于神经网络的智能对话系统(二)——机器学习背景知识
    2.机器学习背景知识本章简要回顾了深度学习和强化学习,这些学习与后续章节中的会话AI最相关。2.1机器学习基础Mitchell(1997)将机器学习广义地定义为包括任何计算机程序, ... [详细]
  • 知识图谱——机器大脑中的知识库
    本文介绍了知识图谱在机器大脑中的应用,以及搜索引擎在知识图谱方面的发展。以谷歌知识图谱为例,说明了知识图谱的智能化特点。通过搜索引擎用户可以获取更加智能化的答案,如搜索关键词"Marie Curie",会得到居里夫人的详细信息以及与之相关的历史人物。知识图谱的出现引起了搜索引擎行业的变革,不仅美国的微软必应,中国的百度、搜狗等搜索引擎公司也纷纷推出了自己的知识图谱。 ... [详细]
  • 本文介绍了Hyperledger Fabric外部链码构建与运行的相关知识,包括在Hyperledger Fabric 2.0版本之前链码构建和运行的困难性,外部构建模式的实现原理以及外部构建和运行API的使用方法。通过本文的介绍,读者可以了解到如何利用外部构建和运行的方式来实现链码的构建和运行,并且不再受限于特定的语言和部署环境。 ... [详细]
  • 本文介绍了iOS开发中检测和解决内存泄漏的方法,包括静态分析、使用instruments检查内存泄漏以及代码测试等。同时还介绍了最能挣钱的行业,包括互联网行业、娱乐行业、教育行业、智能行业和老年服务行业,并提供了选行业的技巧。 ... [详细]
  • 本博文基于《Amalgamationofproteinsequence,structureandtextualinformationforimprovingprote ... [详细]
  • 人工智能推理能力与假设检验
    最近Google的Deepmind开始研究如何让AI做数学题。这个问题的提出非常有启发,逻辑推理,发现新知识的能力应该是强人工智能出现自我意识之前最需要发展的能力。深度学习目前可以 ... [详细]
  • 干货 | 携程AI推理性能的自动化优化实践
    作者简介携程度假AI研发团队致力于为携程旅游事业部提供丰富的AI技术产品,其中性能优化组为AI模型提供全方位的优化方案,提升推理性能降低成本࿰ ... [详细]
  • SLAM优秀开源工程最全汇总
    https:zhuanlan.zhihu.comp145750808 1、CartographerCartographer是一个系统,可跨多个平台和传感器配置以2D和3D形式提供实 ... [详细]
  • 开源真香 离线识别率高 Python 人脸识别系统
    本文主要介绍关于python,人工智能,计算机视觉的知识点,对【开源真香离线识别率高Python人脸识别系统】和【】有兴趣的朋友可以看下由【000X000】投稿的技术文章,希望该技术和经验能帮到 ... [详细]
author-avatar
文弱书生_李
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有