当前位置: 开发笔记 > 后端 > 正文

训练集和测试集验证集比例,训练集验证及测试集的比例

作者：小宇宙 | 来源：互联网 | 2023-09-14 13:03

数据集一般分为以下3种。通常的方法就是先训练训练集，即最小化代价函数，然后再把测试集代入代价函数看看效果如何。1.训练集确定模型后，用于训练参数，注意训练的是普通参数而不是超参数（

关键字：常规参数、超级参数、训练集、验证集、测试集

许多机器学习过程实际上是选择模型，模型只是参数未知，因此需要得到最佳参数，以便模型更准确地描述自变量到变量的变化。模型的培训和测量需要已知的数据集。

数据集一般分为以下三类。如果已经有较大的标记数据集，则随机采样可以得到三种类型的数据集，三种比例为8:1:1。如果有标记，也可以只对训练集和验证集随机采样。如果没有注释，则将其用作培训集。 (这个部分写得不清楚，以后再更新)

通常的方法是训练训练集(即最小化成本函数)，然后将测试集代入成本函数以查看效果。

1 .训练套

确定模型后，用于训练参数。用于训练的是常规参数，而不是超级参数。超级参数选择和训练过程实际上是独立的，训练过程不会影响超级参数。但是，在训练结束后，可以根据训练结果考虑是否可以优化超级参数，如果可以优化，可以调整超级参数的值，开始下一次的训练)

2 .验证集(交叉验证集CV ) )。

在训练集中训练模型后，在验证集中测试模型，并测试模型是否准确，而不是训练模型的参数

3 .测试集

验证集并不影响模型中的参数，但根据验证集测试结果的精度调整参数()，因此即使模型在验证集中最佳化，验证集也会影响结果。在众多模型中，验证集选择了代价函数最小的模型。这个模型的成本很小，但其他数据的成本也不是很小。所以，为了提高最后测试模型的精度，需要一套完全未经训练的测试。

4 .高偏差和高方差

4.1定义

下图是培训集与验证集的误差比较

高偏差：拟合不足。在这种情况下，训练集和验证集之间的误差较大(如图中d=1的情况那样)。

高方差：拟合对训练集有好处，但对验证集没有好处(如d=4)

4.2和正则化

三个数据集的成本函数定义如下：

下图反映了随着高偏差时训练数据的增大，训练集和验证集误差的变化，最终均趋于平缓

因此，在偏差高的情况下，无论怎么增加训练集误差都不会变小。所以，一旦预感到模型有高偏差，最好的方法是停下来更换模型。

方差高时：有助于增加培训数据

5 .模型优化

在各种情况下应该做什么？ (从右向左看) )

参考： https://baike.baidu.com/item/超级参数/3101858

推荐阅读

go
vue使用

关键词： ... [详细]

蜡笔小新 2023-12-14 19:14:56
go
分享2款网站程序源码/主题等后门检测工具

本文介绍了2款用于检测网站程序源码和主题中是否存在后门的工具，分别是WebShellkiller和D盾_Web查杀。WebShellkiller是一款支持webshell和暗链扫描的工具，采用多重检测引擎和智能检测模型，能够更精准地检测出已知和未知的后门文件。D盾_Web查杀则使用自行研发的代码分析引擎，能够分析更为隐藏的WebShell后门行为。 ... [详细]

蜡笔小新 2023-12-13 09:10:23
http
Linux Shell中的括号和整数扩展使用方法

本文介绍了Linux Shell中括号和整数扩展的使用方法，包括命令组、命令替换、初始化数组以及算术表达式和逻辑判断的相关内容。括号中的命令将会在新开的子shell中顺序执行，括号中的变量不能被脚本余下的部分使用。命令替换可以用于将命令的标准输出作为另一个命令的输入。括号中的运算符和表达式符合C语言运算规则，可以用在整数扩展中进行算术计算和逻辑判断。 ... [详细]

蜡笔小新 2023-12-12 20:48:58
爬虫
使用正则表达式爬取36Kr网站首页新闻的操作步骤和代码示例

本文介绍了使用正则表达式来爬取36Kr网站首页所有新闻的操作步骤和代码示例。通过访问网站、查找关键词、编写代码等步骤，可以获取到网站首页的新闻数据。代码示例使用Python编写，并使用正则表达式来提取所需的数据。详细的操作步骤和代码示例可以参考本文内容。 ... [详细]

蜡笔小新 2023-12-12 19:16:21
爬虫
浏览器中的异常检测算法及其在深度学习中的应用

本文介绍了在浏览器中进行异常检测的算法，包括统计学方法和机器学习方法，并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测，可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率，而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]

蜡笔小新 2023-12-12 16:22:39
go
深度学习中的Vision Transformer (ViT)详解

本文详细介绍了深度学习中的Vision Transformer (ViT)方法。首先介绍了相关工作和ViT的基本原理，包括图像块嵌入、可学习的嵌入、位置嵌入和Transformer编码器等。接着讨论了ViT的张量维度变化、归纳偏置与混合架构、微调及更高分辨率等方面。最后给出了实验结果和相关代码的链接。本文的研究表明，对于CV任务，直接应用纯Transformer架构于图像块序列是可行的，无需依赖于卷积网络。 ... [详细]

蜡笔小新 2023-12-12 15:26:38
go
词袋模型的通俗介绍

词,袋, ... [详细]

蜡笔小新 2023-12-12 08:20:03
http
绕过WAF的XSS检测机制及构建XSS payload的方法

本文介绍了绕过WAF的XSS检测机制的方法，包括确定payload结构、测试和混淆。同时提出了一种构建XSS payload的方法，该payload与安全机制使用的正则表达式不匹配。通过清理用户输入、转义输出、使用文档对象模型（DOM）接收器和源、实施适当的跨域资源共享（CORS）策略和其他安全策略，可以有效阻止XSS漏洞。但是，WAF或自定义过滤器仍然被广泛使用来增加安全性。本文的方法可以绕过这种安全机制，构建与正则表达式不匹配的XSS payload。 ... [详细]

蜡笔小新 2023-12-11 19:42:30
http
【Vue】表单 input 绑定

网址：https:vue.docschina.orgv2guideforms.html表单input绑定基础用法可以通过使用v-model指令，在 ... [详细]

蜡笔小新 2023-12-11 18:07:28
http
uniapp开发H5解决跨域问题的两种代理方法

本文介绍了uniapp开发H5解决跨域问题的两种代理方法，分别是在manifest.json文件和vue.config.js文件中设置代理。通过设置代理根域名和配置路径别名，可以实现H5页面的跨域访问。同时还介绍了如何开启内网穿透，让外网的人可以访问到本地调试的H5页面。 ... [详细]

蜡笔小新 2023-12-11 17:56:21
vb
VUE uni-app开发环境的创建和使用方法详解

本文详细介绍了如何创建和使用VUE uni-app开发环境，包括通过HBuilderX可视化界面和通过vue-cli命令执行的方法。文章内容简单清晰，易于学习与理解。通过学习本文，读者可以深入了解VUE uni-app开发环境，并通过实践验证掌握具体的使用情况。编程笔记将为读者推送更多相关知识点的文章，欢迎关注！ ... [详细]

蜡笔小新 2023-12-11 14:07:38
vb
Python张量流中的device spec make_merged_spec()方法使用说明

本文介绍了在Python张量流中使用make_merged_spec()方法合并设备规格对象的方法和语法，以及参数和返回值的说明，并提供了一个示例代码。 ... [详细]

蜡笔小新 2023-12-11 12:15:19
vb
统一知识图谱学习和建议：更好地理解用户偏好

本文介绍了一种将知识图谱纳入推荐系统的方法，以提高推荐的准确性和可解释性。与现有方法不同的是，本方法考虑了知识图谱的不完整性，并在知识图谱中传输关系信息，以更好地理解用户的偏好。通过大量实验，验证了本方法在推荐任务和知识图谱完成任务上的优势。 ... [详细]

蜡笔小新 2023-12-11 11:11:02
token
GPT-3发布，动动手指就能自动生成代码的神器来了！

近日，OpenAI发布了最新的NLP模型GPT-3，该模型在GitHub趋势榜上名列前茅。GPT-3使用的数据集容量达到45TB，参数个数高达1750亿，训练好的模型需要700G的硬盘空间来存储。一位开发者根据GPT-3模型上线了一个名为debuid的网站，用户只需用英语描述需求，前端代码就能自动生成。这个神奇的功能让许多程序员感到惊讶。去年，OpenAI在与世界冠军OG战队的表演赛中展示了他们的强化学习模型，在限定条件下以2:0完胜人类冠军。 ... [详细]

蜡笔小新 2023-12-11 11:04:43
爬虫
揭秘阿里云WAF背后神秘的AI智能防御体系

背景应用安全领域，各类攻击长久以来都危害着互联网上的应用，在web应用安全风险中，各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]

蜡笔小新 2023-12-11 01:30:52

小宇宙

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章