当前位置: 代码迷 >> 综合 >> 【数理统计】基本概念
  详细解决方案

【数理统计】基本概念

热度:3   发布时间:2023-12-29 07:24:46.0

数理统计基本概念

文章目录

  • 数理统计基本概念
    • 总体、样本和统计模型
    • 统计量及其分布
      • 统计量
      • 顺序统计量
    • 充分统计量
    • 抽样分布
      • 特征函数
      • 三大分布
        • χ2\chi^2χ2 分布
        • ttt 分布
        • FFF 分布
      • 正态总体下常见统计量的分布
    • 分位点
    • 参考文献

总体、样本和统计模型

例 1 有一批产品,总数为 NNN。在 NNN 件产品中,有 NθN_{\theta}Nθ? 件次品,θ\thetaθ 为这批产品的次品率。θ\thetaθ 是我们感兴趣的参数,通常是未知的,需要利用统计方法对参数 θ\thetaθ 做出推断。

  • 总体(Population):研究对象的全体,如例 1 中的这批产品就构成总体。通常用 X,YX,YX,Y 等表示。
  • 个体:总体中的每个对象,如例 1 中的每个产品。
  • 样本(Sample):X1,X2,?,XnX_1,X_2,\cdots,X_nX1?,X2?,?,Xn?,样本的实现称为样本的一组观察值(Observation or data),记为 x1,x2,?,xnx_1,x_2,\cdots,x_nx1?,x2?,?,xn?
    • 为了方便若不加特别声明,用 x1,x2,?,xnx_1,x_2,\cdots,x_nx1?,x2?,?,xn? 既表示样本,又表示岩本观察值。
  • 样本空间(Sample Space):样本所有可能的取值构成的空间。
  • 在统计中,对总体的推断,实际上是推断总体的分布,即确定总体的分布。为此,我们可以根据对总体了解程度,假设总体的分布属于某个分布族 {PΘ,θ∈Θ}\{P_{\Theta}, \theta\in\Theta\}{ PΘ?,θΘ},至于其中哪一个分布最适合还得通过统计推断来确定,因此往往将 {PΘ,θ∈Θ}\{P_{\Theta}, \theta\in\Theta\}{ PΘ?,θΘ} 称为总体分布族。其中,Θ\ThetaΘ 称为参数空间(Parameter Space)。

如例 1 中,总体分布族为 {PΘ,θ∈Θ}\{P_{\Theta}, \theta\in\Theta\}{ PΘ?,θΘ},其中
Pθ(X=k)=(Nθk)(N?NθN?k)(Nn)P_{\theta}(X=k) = \frac{\begin{pmatrix}N\theta \\ k\end{pmatrix}\begin{pmatrix}N-N\theta \\ N-k\end{pmatrix}}{\begin{pmatrix}N \\ n\end{pmatrix}} Pθ?(X=k)=(Nn?)(Nθk?)(N?NθN?k?)?
kkk 满足
max?((n?N(1?θ)),0)≤k≤min?(Nθ,n)\max((n-N(1-\theta)),0) \leq k\leq \min(N\theta,n) max((n?N(1?θ)),0)kmin(Nθ,n)
XXX 表示一次试验中抽取的 nnn 件产品的次品数,Θ={θ:0<θ<1}\Theta = \{\theta:0<\theta<1\}Θ={ θ:0<θ<1} 为参数空间。

统计量及其分布

设总体分布族为 {PΘ,θ∈Θ}\{P_{\Theta}, \theta\in\Theta\}{ PΘ?,θΘ},我们仅知道总体的分布属于此分布族,但哪个最合适还需经过统计推断。推断总体的分布,实际上就是确定参数 θ\thetaθ,为此,需抽取样本。样本来源于总体,它应当包含参数的所有相关信息,但观察值呈现为一堆杂乱无章数据,故需对数据进行加工或压缩,提取有关参数的信息,而剔除无关的信息,这在统计上就反映为构造样本的已知函数,即统计量(Statistic)。

例 2 设总体 XXX 服从两点(正品和次品)分布,即 P(X=1)=θP(X = 1) = \thetaP(X=1)=θP(X=0)=1?θP(X = 0) = 1 - \thetaP(X=0)=1?θ0<θ<10 < \theta < 10<θ<1X1,X2,?,XnX_1,X_2,\cdots,X_nX1?,X2?,?,Xn? 是来自总体的样本,考虑样本的函数 T(X1,X2,?,Xn)=∑i=1nXiT(X_1,X_2,\cdots,X_n) = \sum_{i=1}^{n}X_iT(X1?,X2?,?,Xn?)=i=1n?Xi?TTT 实际上表示样本中所含的次品个数,对不同观察值可能对应相同的 TTT 值,这样实际上是对样本起到了加工压缩的作用。

统计量

定义 1X1,X2,?,XnX_1,X_2,\cdots,X_nX1?,X2?,?,Xn? 是来自总体 XXX 的一个样本,T(X1,X2,?,Xn)T(X_1,X_2,\cdots,X_n)T(X1?,X2?,?,Xn?) 是样本的函数。如果 T(X1,X2,?,Xn)T(X_1,X_2,\cdots,X_n)T(X1?,X2?,?,Xn?) 不包含任何未知参数,则称其为总体 XXX 的统计量,简记为 TTT

如例 2 中 $\sum_{i = 1}^n { {X_i}} $ 是统计量,因为它不含任何未知的参数。常用统计量包括:

  • 样本均值(Sample Mean):

Xˉ=1n∑i=1nXi\bar X = \frac{1}{n}\sum\limits_{i = 1}^n { {X_i}} Xˉ=n1?i=1n?Xi?

  • 样本方差(Sample Variance):

S2=1n?1∑i=1n(Xi?Xˉ)2{S^2} = \frac{1}{ {n - 1}}\sum\limits_{i = 1}^n { { {({X_i} - \bar X)}^2}} S2=n?11?i=1n?(Xi??Xˉ)2

  • 样本标准差(Sample Standard Deviation):

S=1n?1∑i=1n(Xi?Xˉ)2S = \sqrt {\frac{1}{ {n - 1}}\sum\limits_{i = 1}^n { { {({X_i} - \bar X)}^2}} } S=n?11?i=1n?(Xi??Xˉ)2 ?

  • 样本矩(Sample Moment):

    • kkk 阶原点矩:

    Ak=1n∑i=1nXik,k=1,2?{A_k} = \frac{1}{n}\sum\limits_{i = 1}^n {X_i^k} ,\;k = 1,2 \cdots Ak?=n1?i=1n?Xik?,k=1,2?

    • kkk 阶中心矩:

    Bk=1n∑i=1n(Xi?Xˉ)k,k=1,2?{B_k} = \frac{1}{n}\sum\limits_{i = 1}^n { { {({X_i} - \bar X)}^k}} ,\;k = 1,2 \cdots Bk?=n1?i=1n?(Xi??Xˉ)k,k=1,2?

顺序统计量

把样本 X1,X2,?,XnX_1,X_2,\cdots,X_nX1?,X2?,?,Xn? 的观察值 x1,x2,?,xnx_1,x_2,\cdots,x_nx1?,x2?,?,xn? 从小到大进行排列,记为 x(1),x(2),?,x(n){x_{(1)}},{x_{(2)}}, \cdots ,{x_{(n)}}x(1)?,x(2)?,?,x(n)?,满足
x(1)≤x(2)≤?≤x(n){x_{(1)}} \le {x_{(2)}} \le \cdots \le {x_{(n)}} x(1)?x(2)??x(n)?
定义排在第 k(1≤k≤n)k~(1\leq k \leq n)k (1kn) 个位置的 x(k)x_{(k)}x(k)? 为随机变量 X(k){X_{(k)}}X(k)? 的观察值。显然
X(1)≤X(2)≤?≤X(n){X_{(1)}} \le {X_{(2)}} \le \cdots \le {X_{(n)}} X(1)?X(2)??X(n)?
X(1),X(2),?,X(n){X_{(1)}},{X_{(2)}}, \cdots ,{X_{(n)}}X(1)?,X(2)?,?,X(n)?顺序统计量

其中,有
X(1)=min?{X1,X2,?,Xn}{X_{(1)}} = \min \{ {X_1},{X_2}, \cdots ,{X_n}\} X(1)?=min{ X1?,X2?,?,Xn?}

X(n)=max?{X1,X2,?,Xn}{X_{(n)}} = \max \{ {X_1},{X_2}, \cdots ,{X_n}\} X(n)?=max{ X1?,X2?,?,Xn?}

对给定的 p(0<p<1)p\;(0 < p < 1)p(0<p<1),定义样本 ppp 分位数 mpm_pmp?

  • npnpnp 不是整数时,
    mp=λ([np+1])m_p = \lambda_{([np+1])} mp?=λ([np+1])?

  • npnpnp 是整数时,
    mp=12(X(np)+X(np+1)){m_p} = \frac{1}{2}({X_{(np)}} + {X_{(np + 1)}})\; mp?=21?(X(np)?+X(np+1)?)

充分统计量

统计量既然是对样本的加工或压缩,在这个过程中可能有损失有关参数的一部分信息,现在问题是在这个过程中是否存在某些统计量,既起到压缩作用,又不损失参数的信息,这样的统计量称为充分统计量。

例 3(续例 2) 设样本的观察值 x1,x2,?,xnx_1,x_2,\cdots,x_nx1?,x2?,?,xn?,则样本的联合分布函数为
P(X1=x1,X2=x2,?,Xn=xn)=θs(1?θ)n?sP({X_1} = {x_1},{X_2} = {x_2}, \cdots ,{X_n} = {x_n}) = {\theta ^s}{(1 - \theta )^{n - s}} P(X1?=x1?,X2?=x2?,?,Xn?=xn?)=θs(1?θ)n?s
其中 xi=0x_i = 0xi?=0111s=∑i=1nxis = \sum_{i = 1}^{n} x_is=i=1n?xi?

定义 2 设总体分布族为 {PΘ,θ∈Θ}\{P_{\Theta}, \theta\in\Theta\}{ PΘ?,θΘ}T(x)T(x)T(x) 是统计量。如果在给定 T(X)=tT(X) = tT(X)=t 的条件下,XXX 的条件分布与参数 θ\thetaθ 无关,则称统计量 T(X)T(X)T(X) 是参数 θ\thetaθ充分统计量(Sufficient Statistics)。

一般情况下,利用条件分布证明统计量的充分性是比较困难的。但存在证明充分性的一个充分必要准则,这是下面的因子分解定理(Factorization theorem)。

定理 1 设总体分布族为 {PΘ,θ∈Θ}\{P_{\Theta}, \theta\in\Theta\}{ PΘ?,θΘ}T(x)T(x)T(x) 是充分统计量,当且仅当在一个定义在 I×ΘI \times \ThetaI×Θ 上的函数 g(t,θ)g(t,\theta)g(t,θ) 及定义在 Rn\mathbb{R}^nRn 上的函数 h(x)h(x)h(x) 使得
p(x,θ)=g(T(x),θ)h(x)p(x,\theta) = g(T(x),\theta)h(x) p(x,θ)=g(T(x),θ)h(x)
对所有的 x∈Rnx\in \mathbb{R}^nxRn 都成立,其中 IIIT(x)T(x)T(x) 的值域,p(x,θ)p(x,\theta)p(x,θ) 是样本的联合概率密度函数或分布律。

抽样分布

特征函数

XXX 为随机变量,称函数
?x(t)=E(eitX)\phi_x(t) = E(e^{itX}) ?x?(t)=E(eitX)
XXX 的特征函数。

常见分布的特征函数:

  • 二项分布 B(n,p)B(n,p)B(n,p)

?(t)=(peit+(1?p))n\phi(t) = (pe^{it} + (1-p))^n ?(t)=(peit+(1?p))n

  • Poisson 分布 P(λ)P(\lambda)P(λ)

?(t)=exp?{λ(eit?1}\phi(t) = \exp\{\lambda(e^{it - 1}\} ?(t)=exp{ λ(eit?1}

  • 正态分布 N(μ,σ2)N(\mu,\sigma^2)N(μ,σ2)

?(t)=exp?{iμt?12σ2t2}\phi(t) = \exp\{i\mu t - \frac{1}{2}\sigma^2t^2\} ?(t)=exp{ iμt?21?σ2t2}

特征函数的特征:

  • 有界性:对于任意 t∈Rt\in\mathbb{R}tR,有 ∣?(t∣≤?(0)=1|\phi(t| \leq \phi(0) = 1?(t?(0)=1
  • Y=aX+bY = aX +bY=aX+b,其中 a,ba,ba,b 为常数,则

?Y(t)=eibt?X(at)\phi_Y(t) = e^{ibt} \phi_X(at) ?Y?(t)=eibt?X?(at)

  • XXXYYY 相互独立,则有

?X+Y(t)=?X(t)?Y(t)\phi_{X+Y} (t) = \phi_X(t) \phi_Y(t) ?X+Y?(t)=?X?(t)?Y?(t)

  • E(Xn)E(X^n)E(Xn) 存在,则 ?X(n)(t)\phi_X^{(n)}(t)?X(n)?(t) 存在,且

E(Xk)=i?k?(k)(0),k=1,2,?,nE(X^k) = i^{-k} \phi^{(k)} (0),k = 1,2,\cdots,n E(Xk)=i?k?(k)(0),k=1,2,?,n

  • 特征函数与分布函数相互偎依确定

三大分布

χ2\chi^2χ2 分布

设随机变量 X1,X2,?,XnX_1,X_2,\cdots,X_nX1?,X2?,?,Xn? 相互独立且同服从标准正态分布 N(0,1)N(0,1)N(0,1),称随机变量
χ2=X12+X22+?+Xn2{\chi ^2} = X_1^2 + X_2^2 + \cdots + X_n^2 χ2=X12?+X22?+?+Xn2?
所服从的分布为自由度是 nnnχ2\chi^2χ2 分布,记为 χ2?χ2(n)\chi^2 \sim \chi^2(n)χ2?χ2(n)

定理 2 设简单样本 X1,X2,?,XnX_1,X_2,\cdots,X_nX1?,X2?,?,Xn? 来自正态总体 N(μ,σ2)N(\mu,\sigma^2)N(μ,σ2),则有
χ2=1σ2∑i=1n(Xi?μ)2?χ2(n){\chi ^2} = \frac{1}{ { {\sigma ^2}}}\sum\limits_{i = 1}^n { { {({X_i} - \mu )}^2}} \sim \chi^2(n) χ2=σ21?i=1n?(Xi??μ)2?χ2(n)

定理 3X?χ2(n)X \sim \chi^2(n)X?χ2(n),则

  • XXX 的特征函数为

?(t)=EeitX=(1?2it)?n2\phi(t) = E e^{itX} = (1-2it)^{-\frac{n}{2}} ?(t)=EeitX=(1?2it)?2n?

  • E(X)=n,D(X)=2nE(X) = n, D(X) = 2nE(X)=n,D(X)=2n

定理 4X1?χ2(n1)X_1 \sim \chi^2(n_1)X1??χ2(n1?)X2?χ2(n2)X_2 \sim \chi^2(n_2)X2??χ2(n2?),且相互独立,则 X1+X2?χ2(n1+n2)X_1+X_2\sim\chi^2(n_1+n_2)X1?+X2??χ2(n1?+n2?)

ttt 分布

设随机变量 X?N(0,1)X\sim N(0,1)X?N(0,1)Y?χ2(n)Y\sim \chi^2(n)Y?χ2(n),且 XXXYYY 相互独立,则称随机变量
T=XY/NT = \frac{X}{\sqrt{Y/N}} T=Y/N ?X?
所服从的分布为自由度为 nnnttt 分布,记为 T?t(n)T \sim t(n)T?t(n)

FFF 分布

设随机变量 X?χ2(n1)X\sim \chi^2(n_1)X?χ2(n1?)Y?χ2(n2)Y\sim\chi^2(n_2)Y?χ2(n2?),且 XXXYYY 相互独立,则称随机变量
F=X/n1Y/n2F = \frac{X/n_1}{Y/n_2} F=Y/n2?X/n1??
所服从的分布为自由度为 n1,n2n_1,n_2n1?,n2?FFF 分布,记为 F?F(n1,n2)F\sim F(n_1,n_2)F?F(n1?,n2?)

正态总体下常见统计量的分布

定理 5X1,X2,?,XnX_1,X_2,\cdots,X_nX1?,X2?,?,Xn? 是来自正态总体 N(μ,σ2)N(\mu,\sigma^2)N(μ,σ2) 的一个简单样本,AAAp×np \times np×n 阶矩阵,则
KaTeX parse error: Unknown column alignment: * at position 28: …{\begin{array}{*?{20}{c}} { {Y_1}…
其中,1=(1,1,?,1)T\mathbf{1} = (1,1,\cdots,1)^T1=(1,1,?,1)T

定理 6X1,X2,?,XnX_1,X_2,\cdots,X_nX1?,X2?,?,Xn? 是来自正态总体 N(μ,σ2)N(\mu,\sigma^2)N(μ,σ2) 的一个简单样本,则

  • Xˉ?N(μ,σ2n)\bar{X} \sim N(\mu,\frac{\sigma^2}{n})Xˉ?N(μ,nσ2?)
  • Xˉ\bar{X}XˉS2S^2S2 相互独立
  • (n?1)S2σ2?χ2(n?1)\frac{(n - 1)S^2}{\sigma^2}\sim \chi^2(n - 1)σ2(n?1)S2??χ2(n?1)

定理 7X1,X2,?,XnX_1,X_2,\cdots,X_nX1?,X2?,?,Xn? 是来自正态总体 N(μ,σ2)N(\mu,\sigma^2)N(μ,σ2) 的一个简单样本,则
Xˉ?μS/n?t(n?1)\frac{\bar{X} - \mu}{S/\sqrt{n}} \sim t(n-1) S/n ?Xˉ?μ??t(n?1)

定理 8X1,X2,?,XnX_1,X_2,\cdots,X_nX1?,X2?,?,Xn?Y1,Y2,?,YnY_1,Y_2,\cdots,Y_nY1?,Y2?,?,Yn? 是来自正态总体 N(μ1,σ2)N(\mu_1,\sigma^2)N(μ1?,σ2)N(μ2,σ2)N(\mu_2,\sigma^2)N(μ2?,σ2) 的两个简单样本,且两样本独立,则
T=(Xˉ?Yˉ)?(μ1?μ2)Sw1n1+1n2?t(n1+n2?2)T = \frac{ {(\bar X - \bar Y) - ({\mu _1} - {\mu _2})}}{ { {S_w}\sqrt {\frac{1}{ { {n_1}}} + \frac{1}{ { {n_2}}}} }} \sim t(n_1+n_2-2) T=Sw?n1?1?+n2?1? ?(Xˉ?Yˉ)?(μ1??μ2?)??t(n1?+n2??2)
其中,$\bar X = \frac{1}{ { {n_1}}}\sum_{i = 1}^{ {n_1}} { {X_i}} ,,\bar Y = \frac{1}{ { {n_2}}}\sum_{i = 1}^{ {n_2}} { {Y_i}}$,
S12=1n1?1∑i=1n1(Xi?Xˉ)2S_1^2 = \frac{1}{ { {n_1} - 1}}\sum\limits_{i = 1}^{ {n_1}} { { {({X_i} - \bar X)}^2}} S12?=n1??11?i=1n1??(Xi??Xˉ)2

S22=1n2?1∑i=1n2(Yi?Yˉ)2S_2^2 = \frac{1}{ { {n_2} - 1}}\sum\limits_{i = 1}^{ {n_2}} { { {({Y_i} - \bar Y)}^2}} S22?=n2??11?i=1n2??(Yi??Yˉ)2

Sw2=(n1?1)S12+(n2?1)S22n1+n2?2S_w^2 = \frac{ {({n_1} - 1)S_1^2 + ({n_2} - 1)S_2^2}}{ { {n_1} + {n_2} - 2}} Sw2?=n1?+n2??2(n1??1)S12?+(n2??1)S22??

定理 9X1,X2,?,XnX_1,X_2,\cdots,X_nX1?,X2?,?,Xn?Y1,Y2,?,YnY_1,Y_2,\cdots,Y_nY1?,Y2?,?,Yn? 是来自正态总体 N(μ1,σ2)N(\mu_1,\sigma^2)N(μ1?,σ2)N(μ2,σ2)N(\mu_2,\sigma^2)N(μ2?,σ2) 的两个简单样本,且两样本独立,则
F=S12/σ12S22/σ22?F(n1?1,n2?1)F = \frac{S_1^2/\sigma_1^2}{S_2^2/\sigma_2^2} \sim F(n_1-1,n_2-1) F=S22?/σ22?S12?/σ12???F(n1??1,n2??1)

定理 10 设随机变量 X1,X2,?,XnX_1,X_2,\cdots,X_nX1?,X2?,?,Xn? 相互独立且同服从正态分布 N(0,1)N(0,1)N(0,1)AAA 为实对称矩阵。令 X=(X1,X2,?,Xn)′X = (X_1,X_2,\cdots,X_n)'X=(X1?,X2?,?,Xn?),则二次型
Y=X′AX?χ2(p)Y = X'AX\sim \chi^2(p) Y=XAX?χ2(p)
的充分必要条件是 A2=AA^2 = AA2=A (幂等阵),且 p=rank(A)p = \mathrm{rank}(A)p=rank(A)

分位点

定义 设随机变量 XXX 的分布函数为 F(x)F(x)F(x),对任意给定的实数 p(0<p<1)p(0<p<1)p(0<p<1),若存在 xpx_pxp? 使得
P(X≤xp)=F(xp)=pP(X\leq x_p) = F(x_p) = p P(Xxp?)=F(xp?)=p
成立,则称 xpx_pxp? 为此概率分布的 ppp 分位点。

常见分布分位点记号:

  • 标准正态分布 N(0,1)N(0,1)N(0,1)zpz_pzp? 表示,即 P(X≤zp)=pP(X \leq z_p) = pP(Xzp?)=p,由对称性有 z1?p=?zpz_{1-p} = -z_pz1?p?=?zp?

  • χ2(n)\chi^2(n)χ2(n) 分布:用 χp2(n)\chi_p^2(n)χp2?(n) 表示 ppp 分位点,即 P(χ2≤χp2(n))=pP(\chi^2 \leq \chi^2_p(n)) = pP(χ2χp2?(n))=p

  • t(n)t(n)t(n) 分布:用 tp(n)t_p(n)tp?(n) 表示,即 P(T≤tp(n))=pP(T\leq t_p(n)) = pP(Ttp?(n))=p

  • F(n1,n2)F(n_1,n_2)F(n1?,n2?) 分布:用 Fp(n1,n2)F_p(n_1,n_2)Fp?(n1?,n2?) 表示,即 P{F≤Fp(n1,n2)}=pP\{ F \le {F_p}({n_1},{n_2})\} = pP{ FFp?(n1?,n2?)}=p
    Fp(n2,n1)=1F1?p(n1,n2){F_p}({n_2},{n_1}) = \frac{1}{ { {F_{1 - p}}({n_1},{n_2})}} Fp?(n2?,n1?)=F1?p?(n1?,n2?)1?

参考文献

[1] 孙海燕、周梦等,数理统计,2016。