问

数据集大小是否会影响机器学习算法？

13205340728wan 发布于 2022-12-23 15:15

web

因此,想象一下能够获得足够质量的足够数据(数百万个用于训练和测试的数据点).请暂时忽略概念漂移并假设数据是静态的,并且不会随时间变化.在模型质量方面使用所有数据是否有意义？

Brain和Webb(http://www.csse.monash.edu.au/~webb/Files/BrainWebb99.pdf)包含了一些试验不同数据集大小的结果.在经过16,000或32,000个数据点训练后,他们测试的算法会收敛到稳定.但是,由于我们生活在大数据世界,我们可以访问数百万个数据集,所以这篇论文有点相关,但已经过时了.

是否有任何关于数据集大小对学习算法(朴素贝叶斯,决策树,SVM,神经网络等)影响的最新研究.

学习算法何时收敛到某个稳定模型,而更多数据不再提高质量？

它可以在50,000个数据点之后发生,或者可能在200,000之后或仅在1,000,000之后发生？

有经验法则吗？

或者也许算法无法收敛到稳定模型,达到某种均衡？

我为什么这么问？想象一下,存储有限的系统和大量独特的模型(数以千计的模型都有自己独特的数据集),无法增加存储空间.因此,限制数据集的大小非常重要.

对此有何想法或研究？

撰写答案

今天，你开发时遇到什么问题呢？

立即提问

热门标签