0.简介_综合

前言

学习书籍

李航 统计学方法
周志华 “西瓜书”
Deep Learning
机器学习实战
AiLearning: 机器学习
机器学习原理
机器学习手推公式以及实现

学习视频

机器学习-白板推导系列-合集
台大林轩田
张志华
- 机器学习导论
- 统计机器学习

学习工具

mathpix：能够将图片上的公式转化为latex代码

频率派 vs 贝叶斯派

对于概率的诠释有两大学派，分别是频率派和贝叶斯派。

对于观测集采用下面记号：

$$ \begin{align}

X:data \longrightarrow

X & = (x_1,x_2,\cdots,x_n)^T_{N\times p} \ &= \begin{bmatrix} x_{11} & x_{12} & \cdots & x_{1p} \ x_{21} & x_{22} & \cdots & x_{2p} \ \vdots & \vdots & \ddots & \vdots \ x_{n1} & x_{n2} & \cdots & x_{np} \ \end{bmatrix}_{N\times p} \ \end{align} $$ 这个记号表示有N个样本，每个样本都是p维向量。其中每个观测都是由$$p(x|\theta)$$生成的。

频率派

$$p(x|\theta)$$中的$$\theta$$是一个未知的常量。对于N个观测来讲观测集的概率为$$p(X|\theta)\mathop{=}\limits {iid}\prod\limits {i=1}^{N}p(x{i}|\theta)$$。为了求方便$$\theta$$的大小，采用最大似然数MLE的方法 $$ \theta{MLE}=\mathop{argmax}\limits_\theta\log p(X|\theta)\mathop{=}\limits {iid}\mathop{argmax}\limits{\theta}\sum\limits_{i=1}^{N}\log p({x_i|\theta}) $$

因为在计算乘法的时候，较为困难，而对于处理加法，会很轻松。

贝叶斯派

贝叶斯派认为参数常量$$\theta$$不是一个常量，且$$\theta$$满足$$\theta\sim p(\theta)$$ ，于是根据贝叶斯定理依赖观测集参数的后验可以写成： $$ p(\theta|X)=\frac{p(X|\theta)\cdot p(\theta)}{p(X)}=\frac{p(X|\theta)\cdot p(\theta)}{\int\limits {\theta}p(X|\theta)\cdot p(\theta)d\theta} $$ 为了求$$\theta$$的值，最大化参数后验MAP： $$ \theta{MAP}=\mathop{argmax}\limits _{\theta}p(\theta|X)=\mathop{argmax}\limits _{\theta}p(X|\theta)\cdot p(\theta) $$ 其中第二个等号是由于分母和 $$\theta$$ 没有关系。求解这个 $$\theta$$ 值后计算 $$ \frac{p(X|\theta)\cdot p(\theta)}{\int\limits {\theta}p(X|\theta)\cdot p(\theta)d\theta} $$ ，就得到了参数的后验概率。其中 $$p(X|\theta)$$ 叫似然，是我们的模型分布。得到了参数的后验分布后，我们可以将这个分布用于预测贝叶斯预测： $$ p(x{new}|X)=\int\limits {\theta}p(x{new}|\theta)\cdot p(\theta|X)d\theta $$

其中积分中的被乘数是模型，乘数是后验分布。

小结

频率派：统计机器学习，优化问题

贝叶斯派：概率图理论，求积分问题(MCMC)

目标

至少反复学三遍，让脑海中生成深刻的印象。。。

时间

每天平均至少学习一章内容。。。