人工智能-统计机器学习-机器学习基本概念_综合

1.2.4 训练数据与测试数据机器学习：从数据中学习知识、模式、规律。

机器学习的目标：

此时映射函数是将数据从像素点空间映射到我们人类的语义空间上。

如果原始数据是文本数据，则映射函数则是将文档中的单词序列映射成‘喜悦、愤怒’等表达情感的词汇，完成情感分类。

从图像中或者从文本中学习得到映射函数都实现了把数据从原始的数据空间映射到我们所定义的高级语义空间的这一个任务。

这也体现了机器学习中映射函数的重要性。

机器学习的分类：

1、监督学习(supervised learning) ：数据有标签、一般为回归或分类等任务。

2、无监督学习(un-supervised learning) ：数据无标签、一般为聚类或若干降维任务。

3、半监督学习 (semi-supervised learning)：一部分数据有标签，一部分数据没有标签。

4、强化学习(reinforcement learning)：序列数据决策学习，一般为与从环境交互中学习。

1.1监督学习中的分类问题

这类问题就是从标签数据中学习得到映射函数f(数学好 = Yes,会编程 = Yes, 身体好 =?，嗓门大 =?), 然后通过给定的参数信息，我们就可以判断这个人是否是程序员。

1.2 监督学习的重要元素

1.2.1 标注数据详解，以及标记数据过程介绍：标记数据

1.2.2 学习模型 http://www.sohu.com/a/145845622_642762

1.2.3 损失函数

1.2.4 训练数据与测试数据

经验风险(empirical risk ): 训练集中数据产生的损失。经验风险越小说明学习模型对训练数据拟合程度越好,但它仅反映了局部数据。

期望风险(expected risk): 当测试集中存在无穷多数据时产生的损失。期望风险越小，学习所得模型越好，但它无法得到全量数据。

结构风险最小化(structural risk minimization)：为了防止过拟合，在经验风险上加上表示模型复杂度的正则化项(regulatizer)或惩罚项(penalty term ) ：

1.2.5监督学习方法

1、生成方法(generative approach)

所学到的模型分别称为生成模型 (generative model) , 生成模型从数据中学习联合概率分布?(?, ?)（通过似然概率?(?|?) 和类概率?(?) 的乘积来求取）

典型方法为贝叶斯方法、隐马尔可夫链 , 联合分布概率?(?, ?)或似然概率?(?|?)求取很困难。

2、判别方法(discriminative approach) 。

判别方法直接学习判别函数?(?) 或者条件概率分布?(?|?) 作为预测的模型，即 判别模型 (discriminative model).。判别模型关心在给定输入数据下，预测该数据的输出是什么。典型判别模型包括回归模型、神经网络、支持向量机和Ada boosting等。