前言
学习书籍
- 李航 统计学方法
- 周志华 “西瓜书”
- Deep Learning
- 机器学习实战
- AiLearning: 机器学习
- 机器学习原理
- 机器学习手推公式以及实现
学习视频
-
机器学习-白板推导系列-合集
-
台大 林轩田
-
张志华
- 机器学习导论
- 统计机器学习
学习工具
- mathpix:能够将图片上的公式转化为latex代码
频率派 vs 贝叶斯派
对于概率的诠释有两大学派,分别是频率派和贝叶斯派。
对于观测集采用下面记号:
$$ \begin{align}
X:data \longrightarrow
X & = (x_1,x_2,\cdots,x_n)^T_{N\times p} \ &= \begin{bmatrix} x_{11} & x_{12} & \cdots & x_{1p} \ x_{21} & x_{22} & \cdots & x_{2p} \ \vdots & \vdots & \ddots & \vdots \ x_{n1} & x_{n2} & \cdots & x_{np} \ \end{bmatrix}_{N\times p} \ \end{align} $$ 这个记号表示有N个样本,每个样本都是p维向量。其中每个观测都是由$$p(x|\theta)$$生成的。
频率派
$$p(x|\theta)$$中的$$\theta$$是一个未知的常量。对于N个观测来讲观测集的概率为$$p(X|\theta)\mathop{=}\limits {iid}\prod\limits {i=1}^{N}p(x{i}|\theta)$$。为了求方便$$\theta$$的大小,采用最大似然数MLE的方法 $$ \theta{MLE}=\mathop{argmax}\limits_\theta\log p(X|\theta)\mathop{=}\limits {iid}\mathop{argmax}\limits{\theta}\sum\limits_{i=1}^{N}\log p({x_i|\theta}) $$
因为在计算乘法的时候,较为困难,而对于处理加法,会很轻松。
贝叶斯派
贝叶斯派认为参数常量$$\theta$$不是一个常量,且$$\theta$$满足$$\theta\sim p(\theta)$$ ,于是根据贝叶斯定理依赖观测集参数的后验可以写成: $$ p(\theta|X)=\frac{p(X|\theta)\cdot p(\theta)}{p(X)}=\frac{p(X|\theta)\cdot p(\theta)}{\int\limits {\theta}p(X|\theta)\cdot p(\theta)d\theta} $$ 为了求$$\theta$$的值,最大化参数后验MAP: $$ \theta{MAP}=\mathop{argmax}\limits _{\theta}p(\theta|X)=\mathop{argmax}\limits _{\theta}p(X|\theta)\cdot p(\theta) $$ 其中第二个等号是由于分母和 $$\theta$$ 没有关系。求解这个 $$\theta$$ 值后计算 $$ \frac{p(X|\theta)\cdot p(\theta)}{\int\limits {\theta}p(X|\theta)\cdot p(\theta)d\theta} $$ ,就得到了参数的后验概率。其中 $$p(X|\theta)$$ 叫似然,是我们的模型分布。得到了参数的后验分布后,我们可以将这个分布用于预测贝叶斯预测: $$ p(x{new}|X)=\int\limits {\theta}p(x{new}|\theta)\cdot p(\theta|X)d\theta $$
其中积分中的被乘数是模型,乘数是后验分布。
小结
频率派:统计机器学习,优化问题
贝叶斯派:概率图理论,求积分问题(MCMC)
目标
至少反复学三遍,让脑海中生成深刻的印象。。。
时间
每天平均至少学习一章内容。。。