热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

【经典书单】NLP秘笈汇总,从入门到进阶

点击上方,选择星标或置顶,每天给你送干货!阅读大概需要5分钟跟随小博主,每天进步一丢丢来自:微软研究院AI头条

点击上方,选择星标置顶,每天给你送干货!

阅读大概需要5分钟

跟随小博主,每天进步一丢丢

来自:微软研究院AI头条

自然语言处理(NLP)作为人工智能研究的核心领域之一,长久以来都受到广泛关注。微软全球执行副总裁沈向洋博士曾表示“懂语言者得天下,人工智能对人类影响最为深刻的就是自然语言方面。”现在很多研究人员都在进入自然语言领域,希望可以解决“让机器理解人类语言”这一难题。

为了帮助大家更好地学习NLP,我们邀请微软亚洲研究院自然语言计算组资深研究员韦福如为大家推荐了一些关于自然语言学习方面经典的书籍和课程,分为入门级和进阶级两大类。

好,同学们现在都准备好了吗?请系好安全带,我们这辆开往“NLP大佬界”方向的车就要发车了!

一、

入门篇

主要目标:熟悉和了解自然语言处理领域的基本术语、任务定义和基本算法,比如输入输出、评价标准和应用场景。为以后的进一步学习、科研、产品开发以及学术和技术交流奠定基础。

1、Speech and Language Processing, 2nd Edition

作者:Daniel Jurafsky and James H. Martin

中文译名:语音与语言处理

适合人群:初级到中级学者

推荐指数:★★★★★

主要内容:本书内容涵盖了自然语言处理的方方面面,从底层的词法分词、语法分析和语义分析,到和应用更为接近的自然语言处理任务,如信息抽取、机器翻译、自动问答、文本摘要、对话系统等。书中将自然语言处理、计算语言学以及语音识别等内容融合在一起,把各种技术相互联系起来,让读者了解怎样才能最佳地利用每种技术,怎样才能将各种技术结合起来使用。

推荐理由:最经典的自然语言处理的入门教程,也被国外许多著名大学选为自然语言处理和计算语言学课程的主要教材。本书写作风格引人入胜,深入技术细节而又不让人感觉枯燥,不仅可以作为高等学校自然语言处理和计算语言学等课程的本科生和研究生教材,对于自然语言处理相关领域的研究人员和技术人员也是不可或缺的权威参考书。

2、Foundations of Statistical Natural Language Processing

作者:Christopher Manning and Hinrich Schütze

中文译名:统计自然语言处理基础

适合人群:初级到中级学者

推荐指数:★★★★★

主要内容:本书涵盖的内容十分广泛,分为四个部分,共16章,包括了构建自然语言处理软件工具将用到的几乎所有理论和算法。全书的论述过程由浅入深,从数学基础到精确的理论算法,从简单的词法分析到复杂的语法分析,适合不同水平的读者群的需求。同时,《统计自然语言处理基础:国外计算机科学教材系列》将理论与实践紧密联系在一起,在介绍理论知识的基础上给出了自然语言处理技术的高层应用(如信息检索等)。

推荐理由:经典的统计自然语言处理的入门教材。内容涉及统计自然语言处理用到的数学基础,词法到语法分析,以及自然语言处理的基本任务(比如文本分类、聚类,统计机器翻译,以及信息检索)。本教材成书较早(1999年),但是自然语言处理领域的基本概念和任务没有太大的变化,仍然适用于初学者快速了解自然语言处理相关的概念和任务。

3、统计自然语言处理(第2版)

作者:宗成庆

适合人群:初级到中级学者

推荐指数:★★★★☆

主要内容:本书介绍了统计自然语言处理的基本概念、理论方法和最新研究进展,内容包括形式语言与自动机及其在自然语言处理中的应用、语言模型、隐马尔可夫模型、语料库技术、汉语自动分词与词性标注、句法分析、词义消歧、篇章分析、统计机器翻译、语音翻译、文本分类、信息检索与问答系统、自动文摘和信息抽取、口语信息处理与人机对话系统等。

推荐理由:本书既有对基础知识和理论模型的介绍,也有对相关问题的研究背景、实现方法和技术现状的详细阐述。可作为高等院校计算机、信息技术等相关专业的高年级本科生或研究生的教材或参考书,也可供从事自然语言处理、数据挖掘和人工智能等研究的相关人员参考。

二、

进阶篇

主要目标:近年来,深度学习的算法和模型在自然语言处理的主要任务(例如机器翻译、自动问答、机器阅读、文本摘要、文本生成等)上取得了很好的效果。虽然现在对深度学习的模型和传统模型的优劣尚不能定论(根据不同的任务、应用场景和需求以及数据规模可能有不同的结论,实际系统中更多时候也是共存互补),但这个方向目前成为学术界和工业界关注和投入的重点方向,实际的自然语言应用系统中也都或多或少、或直接或间接用到深度学习的技术,值得大家关注。

1、Neural Network Methods in Natural Language Processing (Synthesis Lectures on Human Language Technologies)

作者:Yoav Goldberg

适合人群:初级到中级学者

推荐指数:★★★★★

主要内容:本书着重介绍神经网络模型在自然语言数据中的应用。本书的前半部分介绍了有监督的机器学习和前馈神经网络的基础知识,基于语言数据的机器学习的基础知识。它还涵盖了可以定义和训练任意神经网络的计算图形抽象方面的知识,是当代神经网络软件库设计的基础。本书的第二部分介绍了更多专门的神经网络体系结构,包括一维卷积神经网络、递归神经网络、条件生成模型和基于注意力的模型。这些体系结构和技术是机器翻译、句法分析和许多其他应用程序的最先进算法的推动力量。最后,本书还讨论了树形网络,结构化预测和多任务学习的前景。

推荐理由:大家都知道最近几年由于深度学习的兴起,使得图像识别、语音识别等多个方面都发生了很大的变革。深度学习在自然语言处理方面也是非常普遍了,一些经典的自然语言模式也都是基于神经网络的,这本书是目前市面上唯一一本介绍神经网络在自然语言处理的应用,是最新、最前沿的东西,而且书中的大量参考文献非常有价值。本书的作者在这个领域非常知名,并且对待学术态度极其严谨。深入浅出,值得对深度学习在自然语言处理中应用感兴趣的同学系统地读一读。

2、CS224d: Deep Learning for Natural Language Processing

课程导师:Richard Socher

适合人群:初级到中级学者

课程链接:

http://cs224d.stanford.edu/syllabus.html

推荐指数:★★★★★

主要内容:斯坦福大学自然语言小组的基于深度学习的自然语言处理的课程。介绍了自然语言处理领域广泛应用的网络结构(例如循环神经网络、卷积神经网络以及递归神经网络等)及其在自然语言处理的经典任务,例如分类任务(情感分类),序列标注任务(实体识别),序列到序列的生成任务(机器翻译)的实际应用。

推荐理由:自然语言处理是信息时代最重要的技术之一。理解复杂的语言也是人工智能的重要组成部分。自然语言处理的应用无处不在,因为人们用语言沟通了大部分内容:网络搜索、广告、电子邮件、客户服务、语言翻译、放射学报告等等。本课程比较适合对这个领域感兴趣的初学者。

3、Oxford Deep Learning for NLP class

课程导师:Phil Blunsom. (2017) Class by Deep Mind NLP Group.

适合人群:中级到高级学者

课程链接:https://machinelearningmastery.com/oxford-course-deep-learning-natural-language-processing/

推荐指数:★★★★★

主要内容:DeepMind团队成员在牛津大学教授基于深度学习的自然语言处理的课程。内容涉及到词嵌入,基于循环神经网络的语言模型,基于循环神经网络和卷积神经网络的文本分类,基于循环神经网络的条件语言模型(广泛应用于机器翻译、文本摘要等)及其中的注意力机制,以及基于深度学习模型的自动问答等主要自然语言处理的任务。

推荐理由:深度学习方法在一套自然语言处理问题上达到了最先进的效果,这是英国牛津大学教授的一门关于自然语言处理深度学习的课程,本课程的大部分材料都可以在线免费获取。比较适合对这个领域有一定的基础,希望了解最新进展和进一步学习和研究的同学。

好,读到这里的同学,我可以很负责任地告诉你,你已经是个NLP界的老司机了!

希望韦福如博士推荐的书单能够对想进入自然语言处理领域却有些迷茫、无从入手的小伙伴们有所帮助,也希望这些小可爱们将来能在这个领域发光发热!

也欢迎大家在下方留言区留言,分享你的NLP书单。

下载一:南大模式识别PPT在公众号消息对话框回复【南大模式识别】

说个正事哈

由于微信平台算法改版,公号内容将不再以时间排序展示,如果大家想第一时间看到我们的推送,强烈建议星标我们和给我们多点点【在看】。星标具体步骤为:

(1)点击页面最上方深度学习技术前沿”,进入公众号主页。

(2)点击右上角的小点点,在弹出页面点击“设为星标”,就可以啦。

感谢支持,比心

交流学习,请备注:昵称-学校(公司)-方向,进入DLer & NLP交流群。

方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

记得备注呦



推荐阅读
  • 微软头条实习生分享深度学习自学指南
    本文介绍了一位微软头条实习生自学深度学习的经验分享,包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性,并提供了一些建议。 ... [详细]
  • EPICS Archiver Appliance存储waveform记录的尝试及资源需求分析
    本文介绍了EPICS Archiver Appliance存储waveform记录的尝试过程,并分析了其所需的资源容量。通过解决错误提示和调整内存大小,成功存储了波形数据。然后,讨论了储存环逐束团信号的意义,以及通过记录多圈的束团信号进行参数分析的可能性。波形数据的存储需求巨大,每天需要近250G,一年需要90T。然而,储存环逐束团信号具有重要意义,可以揭示出每个束团的纵向振荡频率和模式。 ... [详细]
  • 推荐系统遇上深度学习(十七)详解推荐系统中的常用评测指标
    原创:石晓文小小挖掘机2018-06-18笔者是一个痴迷于挖掘数据中的价值的学习人,希望在平日的工作学习中,挖掘数据的价值, ... [详细]
  • 本文介绍了Python语言程序设计中文件和数据格式化的操作,包括使用np.savetext保存文本文件,对文本文件和二进制文件进行统一的操作步骤,以及使用Numpy模块进行数据可视化编程的指南。同时还提供了一些关于Python的测试题。 ... [详细]
  • 阿里Treebased Deep Match(TDM) 学习笔记及技术发展回顾
    本文介绍了阿里Treebased Deep Match(TDM)的学习笔记,同时回顾了工业界技术发展的几代演进。从基于统计的启发式规则方法到基于内积模型的向量检索方法,再到引入复杂深度学习模型的下一代匹配技术。文章详细解释了基于统计的启发式规则方法和基于内积模型的向量检索方法的原理和应用,并介绍了TDM的背景和优势。最后,文章提到了向量距离和基于向量聚类的索引结构对于加速匹配效率的作用。本文对于理解TDM的学习过程和了解匹配技术的发展具有重要意义。 ... [详细]
  • 云原生边缘计算之KubeEdge简介及功能特点
    本文介绍了云原生边缘计算中的KubeEdge系统,该系统是一个开源系统,用于将容器化应用程序编排功能扩展到Edge的主机。它基于Kubernetes构建,并为网络应用程序提供基础架构支持。同时,KubeEdge具有离线模式、基于Kubernetes的节点、群集、应用程序和设备管理、资源优化等特点。此外,KubeEdge还支持跨平台工作,在私有、公共和混合云中都可以运行。同时,KubeEdge还提供数据管理和数据分析管道引擎的支持。最后,本文还介绍了KubeEdge系统生成证书的方法。 ... [详细]
  • 这是原文链接:sendingformdata许多情况下,我们使用表单发送数据到服务器。服务器处理数据并返回响应给用户。这看起来很简单,但是 ... [详细]
  • 本文介绍了数据库的存储结构及其重要性,强调了关系数据库范例中将逻辑存储与物理存储分开的必要性。通过逻辑结构和物理结构的分离,可以实现对物理存储的重新组织和数据库的迁移,而应用程序不会察觉到任何更改。文章还展示了Oracle数据库的逻辑结构和物理结构,并介绍了表空间的概念和作用。 ... [详细]
  • 本文介绍了九度OnlineJudge中的1002题目“Grading”的解决方法。该题目要求设计一个公平的评分过程,将每个考题分配给3个独立的专家,如果他们的评分不一致,则需要请一位裁判做出最终决定。文章详细描述了评分规则,并给出了解决该问题的程序。 ... [详细]
  • Windows下配置PHP5.6的方法及注意事项
    本文介绍了在Windows系统下配置PHP5.6的步骤及注意事项,包括下载PHP5.6、解压并配置IIS、添加模块映射、测试等。同时提供了一些常见问题的解决方法,如下载缺失的msvcr110.dll文件等。通过本文的指导,读者可以轻松地在Windows系统下配置PHP5.6,并解决一些常见的配置问题。 ... [详细]
  • 知识图谱——机器大脑中的知识库
    本文介绍了知识图谱在机器大脑中的应用,以及搜索引擎在知识图谱方面的发展。以谷歌知识图谱为例,说明了知识图谱的智能化特点。通过搜索引擎用户可以获取更加智能化的答案,如搜索关键词"Marie Curie",会得到居里夫人的详细信息以及与之相关的历史人物。知识图谱的出现引起了搜索引擎行业的变革,不仅美国的微软必应,中国的百度、搜狗等搜索引擎公司也纷纷推出了自己的知识图谱。 ... [详细]
  • 本文介绍了在Mac上搭建php环境后无法使用localhost连接mysql的问题,并通过将localhost替换为127.0.0.1或本机IP解决了该问题。文章解释了localhost和127.0.0.1的区别,指出了使用socket方式连接导致连接失败的原因。此外,还提供了相关链接供读者深入了解。 ... [详细]
  • 本文介绍了一些好用的搜索引擎的替代品,包括网盘搜索工具、百度网盘搜索引擎等。同时还介绍了一些笑话大全、GIF笑话图片、动态图等资源的搜索引擎。此外,还推荐了一些迅雷快传搜索和360云盘资源搜索的网盘搜索引擎。 ... [详细]
  • Ubuntu安装常用软件详细步骤
    目录1.GoogleChrome浏览器2.搜狗拼音输入法3.Pycharm4.Clion5.其他软件1.GoogleChrome浏览器通过直接下载安装GoogleChro ... [详细]
  • SpringMVC接收请求参数的方式总结
    本文总结了在SpringMVC开发中处理控制器参数的各种方式,包括处理使用@RequestParam注解的参数、MultipartFile类型参数和Simple类型参数的RequestParamMethodArgumentResolver,处理@RequestBody注解的参数的RequestResponseBodyMethodProcessor,以及PathVariableMapMethodArgumentResol等子类。 ... [详细]
author-avatar
聪VS霞_539
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有