热门标签 | HotTags
当前位置:  开发笔记 > 后端 > 正文

深度学习之三:机器学习的策略

本文为Andrewng深度学习课程的第三部分,主要总结了机器学习的策略方法。1机器学习策略之一当我们的模型搭建出来之后,策略可以指引我们为了达到目标

本文为Andrew ng深度学习课程的第三部分,主要总结了机器学习的策略方法。

1 机器学习策略之一

当我们的模型搭建出来之后,策略可以指引我们为了达到目标,如何采取下一步行动。

1.1 正交化

当设计和训练一个监督学习的系统时,我们依赖下面四条正交的假定:

  1. 使模型在训练集上拟合,否则使用更大的神经网络或使用更好的优化算法。
  2. 使模型在开发集上拟合,否则使用正则化或使用更大的训练集
  3. 使模型在测试集上拟合,否则使用最大的开发集
  4. 使模型在现实中运行良好,否则重新规划开发集/测试集或调整损失函数

1.3 单一优化指标与决定性指标

在评估模型时,有时会有多个不同维度的评价参数。例如从算法角度有精确度,召回率。从应用角度上,算法可能对不同类型的客户或场景有不同的效果。

如果同时采用多个指标,就不能快速有效对比多个不同模型,可能会造成模型选择上的混乱。因此需要将不同标准归一化到单个量化评估指标,以方便比较不同模型。

另外的场景存在硬性指标要满足。比如在模型大小受限或运行时间受限的场景中,模型的大小或运行时间将成为接受模型的决定性因素。不满足这些条件的模型即使软性指标再好也无法接受。

1.4 训练/开发/测试集的分布

训练集/开发集/测试集的设置对大型团队的生产力影响十分巨大。

测试集是我们模型优化要瞄准的目标,因此强调开发集与测试集的数据要来自相同的分布,这样模型日常在开发集上的调优与测试集效果的目标是一致的,否则团队就会在模型优化与最终测试中南辕北辙,极大浪费团队时间。

1.5 改变开发集/测试或损失函数的情况

以一个推荐算法为例,假定有两个算法A,B。算法A以3%的错误率向用户推荐猫的图片,算法B以5%的错误率向用户推荐猫的图片。然而算法A却会向用户推荐黄色图片,而算法B却不会。从社会的层面算B是更合适的。

此种场景,说明损失函数定义是有问题的。需要调整损失函数,需要将损失函数定义为对黄色图片更敏感,通过对不同类图片增加权重以影响损失函数,例如增加黄色图片的权重:

Error:1w(i)i=1mw(i){ŷ iyi}Error:1∑w(i)∑i=1mw(i)L{y^i≠yi}

1.6 人类的表现

下图展示了机器学习的性能随时间的表现,与人类表现以及理论最优表现的关系。
此处输入图片的描述

一般的,当机器学习超过人的表现水平后,它就进步地很缓慢了,其中有一个重要的原因是人类的对于一些自然感知问题的表现水平几近于贝叶斯误差(Bayes Error)。

贝叶斯误差被定义为最优的可能误差,换句话说,就是任何从x到精确度y映射的函数都不可能超过这个值。

1.7 可避免偏差

人类的表现可以作为机器表现的基准,让我们得出是需要解决机器学习的结果是偏差大还是要解决方差大的问题。

分类\示例例1例2
人类误差1%7.5%
训练集误差8%8%
开发集误差10%10%
结论高偏差高方差

1.8 超越人类的表现

在某些领域中,机器学习可以明显的超越人类的表现,如在线广告,商品推荐,反信用欺诈等领域,由于这些领域存在大量的数据,机器算法可以从中发现人类难以发现的规律。而在另一些人类任务的领域,如语音识别,图片识别,自然语言处理等领域,机器学习与人类水平仍有一段距离。

2 机器学习策略二


2.1 误差分析

误差分析的目的是对错误分类的数据进行主成分分析,发现其中占比最大的错误,依次解决一类占比最大的错误。不建议优化占比较低的错误类型,因为其对提高模型的正确率帮助较低。

误差分析的作法是选择一个小数据集,运行模型,然后手工整理每一个错误预测的原因,然后统计出对模型准确率提升最有价值的原因,进行有针对性的解决。

2.2 关于错误标注的数据

通过误差分析,可以评估错误引入的主要原因。若标签错误占比较小,则可以忽略标签错误,否则则需要修复错误的标签。

2.3 快速进行实现与迭代

在收集到必要的数据,设置好开发集和测试集之后,尽量快速的构建一个可运行的简单系统,得到算法运行的结果,通过偏差和方差分析,理解算法的运行结果,对算法欠缺的地方进行针对性的研究。不鼓励一开始就建立复杂的系统。

2.5 不匹配数据的划分

对于获取的数据集,前面一直在强调训练、开发、测试集的来源都应该要是相同的。在无法达成这一要求下,对于不同来源的数据集,就要充分考虑如何将它们进行划分。

例如想要开发一款手机应用,能对用户上传的猫的图片进行识别。假如现在有1万张普通用户上传的猫的图片数据,这些图片的质量都不太好,有一些可能是模糊的,另外从网络上获取了20万张质量较好的猫的图片。

构建机器学习模型时,在开发集和测试集上,一定要反映出将来需要面临的数据。考虑到例子中这个机器学习模型主要将应用在识别用户拍摄的猫的图片上,在划分数据上,就可以将20万张网络获取和图片和5千张用户上传的图片共20.5万张图片作为训练集,剩下的5千张图片一半作开发集,一半作测试集。长远来看,这种分配方法比起随机打乱所有数据样本再进行分配性能要好。

在这种情况下,由于数据集的不匹配,后续如果进行方差/偏差分析,就很难找到问题的根源了,例如对于上面的例子,由于开发集包含的样本比训练集中的样本更加难以准确识别,开发集的错误率往往会大于训练集的错误率。为了解决这个问题,可以再定义一个训练-开发集,训练-开发集和训练集的来源相同,但是这部分并不参与训练。

2.6 分析不匹配的数据

有时候训练集和开发测试集数据的差异性,导致模型方差较大。这个时候需要尽量使得训练数据与真实应用影响更匹配。

对于语音识别问题,如果训练数据缺少背景的噪音,可以通过声音合成的方式,将噪音加入到训练数据中,使其更接近测试数据。

2.7 迁移学习

如果针对某个分类任务你只有一个很小的数据集,但有人公开了大量数据集训练好的类似任务的数据模型,则你可以使用迁移学习的方法。

在迁移学习中,通过冻结他人训练好模型的前面若干层,使用自己的数据只训练模型的最后一层。这样也可以取得较好的效果,因为他人模型中的低层的特征对于你的任务而言是有用的。

2.8 多任务学习

若现在有一个任务,它需要识别出图片中的车辆,行人,交通标识。一种作法是训练三个模型,分别用来识别图片的车辆,行人与交通标识。但这种作法较为耗时。另一种作法是训练单个模型,它可以对图片中的多种目标作出识别。

多任务学习的场景是在一组任务的训练过程中它们能共享低层的特征,且对于每个任务的训练数据有大量的重合数据。

2.9 端到端学习

以自然语言处理为例,非端到端的作法会划分为多步。例如处理文本,人工特征工程,以人工特征作输入进行学习。特征工程这一步常常需要专业的研究人员进行大量的分析工作。在数量集较小时,特征工程的效果还可以接受。
端到端的学习则去除了中间的步骤,直接以文本和标签为输入,训练神经网络在高维空间中学习文本与标签之间的映射关系。如果有大量监督数据集,则端到端的效果会迅速提升,甚至超过人工特征工程的效果。

端到端深度学习完全由数据驱动,不需要人工设计的组件,效率较好。其缺点是需要大量的数据,若数据量不满足则难以取得较好的效果。另外排除了对人工特征利用的可能性。


推荐阅读
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • 深度学习与神经网络——邱锡鹏
    深度学习与神经网络——邱锡鹏-一、绪论人工智能的一个子领域神经网络:一种以(人工))神经元为基本单元的模型深度学习:一类机器学习问题,主要解决贡献度分配问题知识结构:路线图:顶 ... [详细]
  • 背景应用安全领域,各类攻击长久以来都危害着互联网上的应用,在web应用安全风险中,各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]
  • 【论文】ICLR 2020 九篇满分论文!!!
    点击上方,选择星标或置顶,每天给你送干货!阅读大概需要11分钟跟随小博主,每天进步一丢丢来自:深度学习技术前沿 ... [详细]
  • 人工智能推理能力与假设检验
    最近Google的Deepmind开始研究如何让AI做数学题。这个问题的提出非常有启发,逻辑推理,发现新知识的能力应该是强人工智能出现自我意识之前最需要发展的能力。深度学习目前可以 ... [详细]
  • 干货 | 携程AI推理性能的自动化优化实践
    作者简介携程度假AI研发团队致力于为携程旅游事业部提供丰富的AI技术产品,其中性能优化组为AI模型提供全方位的优化方案,提升推理性能降低成本࿰ ... [详细]
  • 「爆干7天7夜」入门AI人工智能学习路线一条龙,真的不能再透彻了
    前言应广大粉丝要求,今天迪迦来和大家讲解一下如何去入门人工智能,也算是迪迦对自己学习人工智能这么多年的一个总结吧,本条学习路线并不会那么 ... [详细]
  • 聊聊 中国人工智能科技产业 区域竞争力分析及趋势
    原文链接:聊聊中国人工智能科技产业区域竞争力分析及趋势最近看了一个关于国内AI的报告《中国新一代人工智能科技产业区域竞争力评价指数(2021ÿ ... [详细]
  • 作为机器学习最重要的一个分支,近年来深度学习(DeepLearning)发展势头迅猛,借助庞大的数据 ... [详细]
  • [译]技术公司十年经验的职场生涯回顾
    本文是一位在技术公司工作十年的职场人士对自己职业生涯的总结回顾。她的职业规划与众不同,令人深思又有趣。其中涉及到的内容有机器学习、创新创业以及引用了女性主义者在TED演讲中的部分讲义。文章表达了对职业生涯的愿望和希望,认为人类有能力不断改善自己。 ... [详细]
  • sklearn数据集库中的常用数据集类型介绍
    本文介绍了sklearn数据集库中常用的数据集类型,包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集,包含了波士顿506处房屋的13种不同特征以及房屋价格,适用于回归任务。 ... [详细]
  • 2017亚马逊人工智能奖公布:他们的AI有什么不同?
    事实上,在我们周围,“人工智能”让一切都变得更“智能”极具讽刺意味。随着人类与机器智能之间的界限变得模糊,我们的世界正在变成一个机器 ... [详细]
  • 论文阅读:《Bag of Tricks for LongTailed Visual Recognition with Deep Convolutional Neural Networks》
    基于深度卷积神经网络的长尾视觉识别技巧包摘要近年来,挑战性长尾分布上的视觉识别技术取得了很大的进展,主要基于各种复杂的范式(如元学习)。除了这些复杂 ... [详细]
  • TensorFlow入门上
    前置准备在阅读本文之前,请确定你已经了解了神经网络的基本结构以及前向传播、后向传播的基本原理,如果尚未了解,可以查看下文。神经网络初探​chrer.com也可以直接在我博客阅读Te ... [详细]
  • 机器学习之数据均衡算法种类大全+Python代码一文详解
    目录前言一、为什么要做数据均衡?二、数据场景1.大数据分布不均衡2.小数据分布不均衡三、均衡算法类型1.过采样2.欠采样3.组合采样四、算法具体种类1 ... [详细]
author-avatar
gaoyizhen92
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有