机器学习之 SVM VC维度、模本数目与经验风险最小化的关系_VC/MFC

机器学习之 SVM VC维度、样本数目与经验风险最小化的关系
VC维在有限的训练样本情况下，当样本数 n 固定时，此时学习机器的 VC 维越高学习机器的复杂性越高。VC 维反映了函数集的学习能力，VC 维越大则学习机器越复杂(容量越大)。
所谓的结构风险最小化就是在保证分类精度（经验风险）的同时，降低学习机器的 VC 维，可以使学习机器在整个样本集上的期望风险得到控制。

经验风险和实际风险之间的关系，注意引入这个原因是什么？

因为训练误差再小也就是在这个训练集合上，实际的推广能力不行就会引起过拟合问题。所以说要引入置信范围也就是经验误差和实际期望误差之间的关系

期望误差R(ω) ≤ Remp (ω)+ Φ（n/h）

注意Remp (ω)是经验误差也就是训练误差（线性中使得所有的都训练正确）。

Φ（n/h）是置信范围，它是和样本数和VC维有关的。

上式中置信范围Φ 随n/h增加，单调下降。

即当n/h较小时，置信范围Φ 较大，用经验风险近似实际风险就存在较大的误差，因此，用采用经验风险最小化准则，取得的最优解可能具有较差的推广性；

如果样本数较多，n/h较大，则置信范围就会很小，采用经验风险最小化准则，求得的最优解就接近实际的最优解。

可知：影响期望风险上界的因子有两个方面：

首先是训练集的规模 n，其次是 VC 维 h。

可见，在保证分类精度（经验风险）的同时，降低学习机器的 VC 维，可以使学习机器在整个样本集上的期望风险得到控制，这就是结构风险最小化（Structure Risk Minimization，简称 SRM）的由来。

在有限的训练样本情况下，当样本数 n 固定时，此时学习机器的 VC 维越高(学习机器的复杂性越高)，则置信范围就越大，此时，真实风险与经验风险之间的差别就越大，这就是为什么会出现过学习现象的原因。

机器学习过程不但要使经验风险最小，还要使其 VC 维尽量小，以缩小置信范围，才能取得较小的实际风险，即对未来样本有较好的推广性，它与学习机器的 VC 维及训练样本数有关。

1楼u013630349昨天 10:40: http://dingzongyao.blog.163.com/blog/static/11556173200752341521934/

机器学习 之 SVM VC维度、模本数目与经验风险最小化的关系

机器学习之 SVM VC维度、模本数目与经验风险最小化的关系