训练集和测试集（神经网络开篇知识点）_综合

定义说明：

训练集是用于发现和预测潜在关系的一组数据（data）。

测试集是用于评估预测关系的强度和效用的一组数据（data）。

运用领域：

测试和训练集用于智能系统，机器学习，遗传编程和统计。

二者关系：

在训练分类器期间，只有训练集可用。在训练分类器期间不得使用测试集。测试集仅在测试分类器期间可用。

测试集是独立于训练数据但是遵循与训练数据相同的概率分布的一组数据。如果适合训练集的模型也适合测试集合，则发生最小过度拟合。（过拟合问题应该后面会单独再次说明）

使用方法：

通常把已有数据集分成3部分。

1）训练集 - > 60％

2）交叉验证集 - > 20％

3）测试组 - > 20％

用"训练集"来进行机器学习，然后使用“交叉验证集”（监督学习），来进行调整以提高参数，然后使用“测试集”，来测试模型的准确性。

注：以上数据分配并不是强制要求，只是经验提供。如果没有验证集我们可以将数据分为70%和30%。

举例说明：

现实生活中计算机是没法像人类一样的认识事物的，所以人类一直致力于这方面的研究。前辈们已经开发了许多的方法以实现计算机识别的能力，比如SVM等。但是目前来说最火且具有最高识别度的还是深度学习。有许许多多的人投身于中。可以说我们赶上了时代的列车。

如何识别？

这里我们回到主题。假如我们需要识别一辆小汽车。那么我们需要有大量的小汽车的图片（训练数据），当我们有足够多的数据的时候我们就可以进行机器学习了。我们告诉计算机这些数据都是小汽车，计算机通过算法（这里我们将使用深度学习算法）知道什么是小汽车，具备那些特征。这样我们就可以放入我们已有的其他图片（测试数据），这时计算机会将这些数据进行比对，然后告诉我们哪些是小汽车，哪些不是小汽车。

自此我们将正式进入深度学习的世界。