数据集大小是否会影响机器学习算法?

 13205340728wan 发布于 2022-12-23 15:15

因此,想象一下能够获得足够质量的足够数据(数百万个用于训练和测试的数据点).请暂时忽略概念漂移并假设数据是静态的,并且不会随时间变化.在模型质量方面使用所有数据是否有意义?

Brain和Webb(http://www.csse.monash.edu.au/~webb/Files/BrainWebb99.pdf)包含了一些试验不同数据集大小的结果.在经过16,000或32,000个数据点训练后,他们测试的算法会收敛到稳定.但是,由于我们生活在大数据世界,我们可以访问数百万个数据集,所以这篇论文有点相关,但已经过时了.

是否有任何关于数据集大小对学习算法(朴素贝叶斯,决策树,SVM,神经网络等)影响的最新研究.

    学习算法何时收敛到某个稳定模型,而更多数据不再提高质量?

    它可以在50,000个数据点之后发生,或者可能在200,000之后或仅在1,000,000之后发生?

    有经验法则吗?

    或者也许算法无法收敛到稳定模型,达到某种均衡?

我为什么这么问?想象一下,存储有限的系统和大量独特的模型(数以千计的模型都有自己独特的数据集),无法增加存储空间.因此,限制数据集的大小非常重要.

对此有何想法或研究?

撰写答案
今天,你开发时遇到什么问题呢?
立即提问
热门标签
PHP1.CN | 中国最专业的PHP中文社区 | PNG素材下载 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有