热门标签 | HotTags
当前位置:  开发笔记 > 后端 > 正文

神经网络1.训练和测试(train&test)以及相关关系解释--神经网络开篇

写在前面的话:本人是留韩学生一枚,2016年9月开始硕士课程学习计算机生物识别和生物安全领域主要研究方向是深度学习(机器学习)。希望自己可以坚持写博客,既是对知识的巩固,也是希望和更多的朋友一起学习交

写在前面的话:

本人是留韩学生一枚,2016年9月开始硕士课程学习计算机生物识别和生物安全领域主要研究方向是深度学习(机器学习)。

希望自己可以坚持写博客,既是对知识的巩固,也是希望和更多的朋友一起学习交流。

我最喜欢的一句话就是不积跬步无以至千里,学习尤其需要这句话。望各君共勉之。

我的联系方式在个人资料处有公开,如果有指教或者交流可以联系我(电话为韩国号码),用户名的QQ并非本人QQ,是系统自动分配的。


本文为原创文章转载请注明出处:http://blog.csdn.net/qq_20259459  

原文地址(转去原文阅读)



正文:


定义说明:

训练集是用于发现和预测潜在关系的一组数据(data)。

测试集是用于评估预测关系的强度和效用的一组数据(data)。 


运用领域:

测试和训练集用于智能系统,机器学习,遗传编程和统计。


二者关系:

在训练分类器期间,只有训练集可用。在训练分类器期间不得使用测试集。测试集仅在测试分类器期间可用。

测试集是独立于训练数据但是遵循与训练数据相同的概率分布的一组数据。 如果适合训练集的模型也适合测试集合,则发生最小过度拟合。(过拟合问题应该后面会单独再次说明)


使用方法:

通常把已有数据集分成3部分。

1)训练集 - > 60%

2)交叉验证集 - > 20%

3)测试组 - > 20%

用"训练集"来进行机器学习,然后使用“交叉验证集”(监督学习),来进行调整以提高参数,然后使用“测试集”,来测试模型的准确性。

注:以上数据分配并不是强制要求,只是经验提供。如果没有验证集我们可以将数据分为70%和30%。


举例说明:

现实生活中计算机是没法像人类一样的认识事物的,所以人类一直致力于这方面的研究。前辈们已经开发了许多的方法以实现计算机识别的能力,比如SVM等。但是目前来说最火且具有最高识别度的还是深度学习。有许许多多的人投身于中。可以说我们赶上了时代的列车。

如何识别?

这里我们回到主题。假如我们需要识别一辆小汽车。那么我们需要有大量的小汽车的图片(训练数据),当我们有足够多的数据的时候我们就可以进行机器学习了。我们告诉计算机这些数据都是小汽车,计算机通过算法(这里我们将使用深度学习算法)知道什么是小汽车,具备那些特征。这样我们就可以放入我们已有的其他图片(测试数据),这时计算机会将这些数据进行比对,然后告诉我们哪些是小汽车,哪些不是小汽车。


自此我们将正式进入深度学习的世界。


推荐阅读
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • 浏览器中的异常检测算法及其在深度学习中的应用
    本文介绍了在浏览器中进行异常检测的算法,包括统计学方法和机器学习方法,并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测,可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率,而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]
  • 背景应用安全领域,各类攻击长久以来都危害着互联网上的应用,在web应用安全风险中,各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]
  • 建立分类感知器二元模型对样本数据进行分类
    本文介绍了建立分类感知器二元模型对样本数据进行分类的方法。通过建立线性模型,使用最小二乘、Logistic回归等方法进行建模,考虑到可能性的大小等因素。通过极大似然估计求得分类器的参数,使用牛顿-拉菲森迭代方法求解方程组。同时介绍了梯度上升算法和牛顿迭代的收敛速度比较。最后给出了公式法和logistic regression的实现示例。 ... [详细]
  • cs231n Lecture 3 线性分类笔记(一)
    内容列表线性分类器简介线性评分函数阐明线性分类器损失函数多类SVMSoftmax分类器SVM和Softmax的比较基于Web的可交互线性分类器原型小结注:中文翻译 ... [详细]
  • 【论文】ICLR 2020 九篇满分论文!!!
    点击上方,选择星标或置顶,每天给你送干货!阅读大概需要11分钟跟随小博主,每天进步一丢丢来自:深度学习技术前沿 ... [详细]
  • 人工智能推理能力与假设检验
    最近Google的Deepmind开始研究如何让AI做数学题。这个问题的提出非常有启发,逻辑推理,发现新知识的能力应该是强人工智能出现自我意识之前最需要发展的能力。深度学习目前可以 ... [详细]
  • 「爆干7天7夜」入门AI人工智能学习路线一条龙,真的不能再透彻了
    前言应广大粉丝要求,今天迪迦来和大家讲解一下如何去入门人工智能,也算是迪迦对自己学习人工智能这么多年的一个总结吧,本条学习路线并不会那么 ... [详细]
  • sklearn数据集库中的常用数据集类型介绍
    本文介绍了sklearn数据集库中常用的数据集类型,包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集,包含了波士顿506处房屋的13种不同特征以及房屋价格,适用于回归任务。 ... [详细]
  • 本文介绍了Python语言程序设计中文件和数据格式化的操作,包括使用np.savetext保存文本文件,对文本文件和二进制文件进行统一的操作步骤,以及使用Numpy模块进行数据可视化编程的指南。同时还提供了一些关于Python的测试题。 ... [详细]
  • 3年半巨亏242亿!商汤高估了深度学习,下错了棋?
    转自:新智元三年半研发开支近70亿,累计亏损242亿。AI这门生意好像越来越不好做了。近日,商汤科技已向港交所递交IPO申请。招股书显示& ... [详细]
  • 2017亚马逊人工智能奖公布:他们的AI有什么不同?
    事实上,在我们周围,“人工智能”让一切都变得更“智能”极具讽刺意味。随着人类与机器智能之间的界限变得模糊,我们的世界正在变成一个机器 ... [详细]
  • JavaScript和Python是用于构建各种应用程序的两种有影响力的编程语言。尽管JavaScript多年来一直是占主导地位的编程语言,但Python的迅猛发展有 ... [详细]
  • Two Sigma人均22万英镑~
    近期原创文章: ... [详细]
  • SLAM优秀开源工程最全汇总
    https:zhuanlan.zhihu.comp145750808 1、CartographerCartographer是一个系统,可跨多个平台和传感器配置以2D和3D形式提供实 ... [详细]
author-avatar
君琪2010_207
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有