本文共 938 字,大约阅读时间需要 3 分钟。
最近,重新再学习一下机器学习的理论内容,学习书籍为周志华《机器学习》,为了帮助自己记忆和理解,把一些东西归纳总结。
1 需要测试集的原因
通常,我们可通过实验测试来对学习器的泛化能力进行评估并进而做出选择。为此,需使用一个“测试集”(testing set)来测试学习器对新样本的判别能力,然后以测试集上的“测试误差”(testing error)作为泛化误差的近似。 2 留出法(hold-out)
单次使用留出法得到的估计结果往往不够稳定可靠,在使用留出法时,一般要采用若干次随机划分、重复进行实验评估后取平均值作为留出法的评估结果。 3 交叉验证(cross validation)
4 自助法(bootstrapping)
该方法在数据集较小、难以有效划分训练/测试集时很有用;此外,自助法能从初始数据集中产生多个不同的训练集,这对集成学习等方法很有好处。 缺点:自助法产生的数据集改变了初始数据集的分布,这会引入估计偏差。 转载地址:http://uqjti.baihongyu.com/