约 2145 个字 预计阅读时间 11 分钟 共被读过 次
一、充分统计量 (Sufficient Statistics)¶
1.1 定义与基本概念 (Definition and Basic Concepts)¶
-
信息划分: 样本中包含的关于总体的信息可分为:
-
关于总体结构的信息(反映总体分布的结构)。
-
关于总体中未知参数的信息。
-
-
充分统计量的目标: 提取样本中包含的关于未知参数的全部信息,不损失任何信息。
-
定义: 设 X1,X2,…,Xn 是来自总体 X(分布函数为 F(x,θ))的简单随机样本。称统计量 T=T(X1,X2,…,Xn) 为参数 θ 的充分统计量,如果在给定 T 的取值后,X1,X2,…,Xn 的条件分布与 θ 无关。
-
说明:
-
样本 X 所包含的关于 θ 的信息 = T(X) 所包含的关于 θ 的信息 + T(X) 已知后 X 还包含的关于 θ 的信息。
-
若 T(X) 是充分统计量,则后者(T(X) 已知后 X 还包含的信息)为零。
-
-
平凡的充分统计量: 全样本 T(X)=(X1,…,Xn) 自身是一个充分统计量,但实际意义不大。
1.2 判定充分统计量的方法 (Methods for Determining Sufficient Statistics)¶
1.2.1 定义法¶
直接验证在给定统计量 T 的取值 t 后,样本 X1,…,Xn 的条件分布 P(X1=x1,…,Xn=xn∣T=t) (离散情况) 或条件密度函数 f(x1,…,xn∣T=t) (连续情况) 是否与参数 θ 无关。
1.2.2 定理A (Fisher-Neyman Factorization Theorem - Characterization)¶
若样本 X1,…,Xn 的联合概率密度函数 (pdf) 或联合概率质量函数 (pmf) 为 f(x1,…,xn∣θ),统计量 T=T(X1,…,Xn) 的 pdf 或 pmf 为 q(t∣θ)。则 T 为 θ 的充分统计量,当且仅当比值
q(T(x1,…,xn)∣θ)f(x1,…,xn∣θ)
与 θ 无关 (当 q(T(x1,…,xn)∣θ)>0 时)。
(注:讲义中提到此定理“上课略,有更好的结果”,通常指因子分解定理)
1.2.3 因子分解定理 (Factorization Theorem - Neyman-Fisher)¶
统计量 T=T(X1,…,Xn) 为未知参数 θ 的充分统计量的充要条件是:样本的联合 pdf 或 pmf L(θ;x1,…,xn)=f(x1,…,xn∣θ) 可以分解为两个非负函数的乘积:
L(θ;x1,…,xn)=g(T(x1,…,xn),θ)⋅h(x1,…,xn)
其中,g(t,θ) 是一个仅通过 \(T(x_1, \dots, x_n)\)依赖于样本数据并且依赖于 θ 的函数,h(x1,…,xn) 是一个仅依赖于样本数据 x1,…,xn 而不依赖于 θ 的函数。
-
证明思路 (离散情况):
-
必要性 (⇒): 若 T 是充分的,则 P(X1=x1,…,Xn=xn∣T=t)=k(x1,…,xn) (与 θ 无关)。
P(X1=x1,…,Xn=xn)=P(X1=x1,…,Xn=xn∣T=t)P(T=t)=k(x1,…,xn)P(T=t)。
令 h(x1,…,xn)=k(x1,…,xn) 且 g(t,θ)=P(T=t)。
-
充分性 (⇐): 若 P(X1=x1,…,Xn=xn)=g(t,θ)h(x1,…,xn)。
P(T=t)=∑T(x1,…,xn)=tP(X1=x1,…,Xn=xn)=g(t,θ)∑T(x1,…,xn)=th(x1,…,xn)。
P(X1=x1,…,Xn=xn∣T=t)=P(T=t)P(X1=x1,…,Xn=xn)=g(t,θ)∑T(x1,…,xn)=th(x1,…,xn)g(t,θ)h(x1,…,xn)=∑T(x1,…,xn)=th(x1,…,xn)h(x1,…,xn),这与 θ 无关。
-
1.2.4 推论¶
若统计量 T 为 θ 的充分统计量,统计量 S 与 T 存在一一对应关系,则 S 也为 θ 的充分统计量。
1.3 例子 (Examples)¶
例1: 伯努利分布 (Bernoulli Distribution)¶
设 X1,…,Xn 是来自 B(1,θ) 总体的样本,证明 T=∑i=1nXi 是 θ 的充分统计量。
-
方法1: 定义法
T=∑Xi∼B(n,θ), P(T=t)=Cntθt(1−θ)n−t.
对于给定的 t=∑xi:
P(X1=x1,…,Xn=xn∣T=t)=P(T=t)P(X1=x1,…,Xn=xn,T=t)
由于事件 X1=x1,…,Xn=xn 蕴含了 T=t (即 ∑xi=t),所以
P(X1=x1,…,Xn=xn,T=t)=P(X1=x1,…,Xn=xn)=i=1∏nθxi(1−θ)1−xi=θ∑xi(1−θ)n−∑xi=θt(1−θ)n−t
因此,
P(X1=x1,…,Xn=xn∣T=t)=Cntθt(1−θ)n−tθt(1−θ)n−t=Cnt1
这与 θ 无关,故 T=∑Xi 是充分统计量。
-
方法2: 因子分解定理
联合 pmf 为:
L(θ;x1,…,xn)=i=1∏nθxi(1−θ)1−xi=θ∑xi(1−θ)n−∑xi
令 T(x1,…,xn)=∑xi。
取 g(T(x),θ)=θT(1−θ)n−T 和 h(x1,…,xn)=1。
则 L(θ;x)=g(T(x),θ)h(x)。故 T=∑Xi 是充分统计量。
例2: 正态分布 N(μ,1)¶
设 X1,…,Xn 是来自 N(μ,1) 总体的样本,证明 T=Xˉ 是 μ 的充分统计量。
联合 pdf 为:
f(x1,…,xn∣μ)=i=1∏n2π1e−2(xi−μ)2=(2π1)ne−21∑(xi−μ)2
我们知道 ∑(xi−μ)2=∑((xi−xˉ)+(xˉ−μ))2=∑(xi−xˉ)2+n(xˉ−μ)2。
所以,
f(x1,…,xn∣μ)=(2π1)ne−21(∑(xi−xˉ)2+n(xˉ−μ)2)
=[(2π1)ne−2n(xˉ−μ)2]⋅[e−21∑(xi−xˉ)2]
令 T(x1,…,xn)=xˉ。
取 g(T(x),μ)=(2π1)ne−2n(xˉ−μ)2 (实际上,可以吸收部分常数到 h(x),或更标准的 g(t,θ) 是 T 的密度乘以一个含 θ 的函数)。
更清晰地,可以写成:
g(xˉ,μ)=(2π1)ne−2n(xˉ−μ)2−2nxˉ2+σ2μnxˉ−2σ2nμ2 (这里 σ2=1)
f(x1,…,xn∣μ)=e−2n(xˉ−μ)2⋅(2π1)ne−21∑xi2+nxˉ2g(xˉ,μ) part, or part of it⋅e−21(∑xi2−nxˉ2)h(x1,…,xn) part, or part of it
A standard factorization is:
f(x1,…,xn∣μ)=(2π1)ne−2nμ2+μnxˉg(xˉ,μ)⋅e−21∑xi2h(x1,…,xn)
这里 T=Xˉ (或 ∑Xi) 是充分的。
讲义中的证明(使用定理A的思路):
q(t∣μ) 是 T=Xˉ∼N(μ,1/n) 的密度: q(t∣μ)=2πne−2n(t−μ)2.
q(xˉ∣μ)f(x1,…,xn∣μ)=2πne−2n(xˉ−μ)2(2π1)ne−21∑(xi−μ)2=(2π)−½n½e−21(nxˉ2−2nxˉμ+nμ2)(2π)−n/2e−21(∑xi2−2μnxˉ+nμ2)
=(2π)−(n−1)/2n−½e−21(∑xi2−nxˉ2)=(2π)−(n−1)/2n−½e−21∑(xi−xˉ)2
这与 μ 无关,故 Xˉ 是充分统计量。
例3: 泊松分布 (Poisson Distribution)¶
设 X1,X2 是来自 P(λ) 总体的样本。
-
证明 T1=X1+X2 是 λ 的充分统计量。
X1∼P(λ),X2∼P(λ)⇒T1=X1+X2∼P(2λ).
P(T1=t)=t!e−2λ(2λ)t.
P(X1=x1,X2=x2∣T1=t)=P(T1=t)P(X1=x1,X2=t−x1) (当 x1+x2=t)
=t!e−2λ(2λ)tx1!e−λλx1⋅(t−x1)!e−λλt−x1=e−2λ(2λ)t/t!e−2λλt/(x1!(t−x1)!)=x1!(t−x1)!t!(2λ)tλt=2tCtx1
这与 λ 无关,故 T1=X1+X2 是充分统计量。
-
证明 T2=X1+2X2 不是 λ 的充分统计量。
考虑 P(X1=0,X2=1∣T2=2)=P(X1=0,X2=1∣X1+2X2=2).
这个条件 X1+2X2=2 可以由 (X1=0,X2=1) 或 (X1=2,X2=0) 满足。
P(X1=0,X2=1∣T2=2)=P(X1+2X2=2)P(X1=0,X2=1 and X1+2X2=2)=P(X1=0,X2=1)+P(X1=2,X2=0)P(X1=0,X2=1)
=0!e−λλ01!e−λλ1+2!e−λλ20!e−λλ00!e−λλ01!e−λλ1=e−2λλ+e−2λλ2/2e−2λλ=λ+λ2/2λ=1+λ/21=2+λ2
这依赖于 λ,故 T2=X1+2X2 不是充分统计量。
例4: 正态分布 N(μ,σ2) (参数均为未知)¶
设 X1,…,Xn 是来自 N(μ,σ2) 总体的样本。
联合 pdf 为:
f(x1,…,xn∣μ,σ2)=(2πσ1)ne−2σ21∑(xi−μ)2
=(2πσ1)ne−2σ21(∑xi2−2μ∑xi+nμ2)
令 T(x1,…,xn)=(∑xi,∑xi2)。
取 g(T(x),μ,σ2)=(2πσ1)ne−2σ21(∑xi2−2μ∑xi+nμ2) (这里 T(x) 是 (∑xi,∑xi2),所以 g 是 T 和参数的函数) 和 h(x1,…,xn)=1。
故 T=(∑Xi,∑Xi2) 是 (μ,σ2) 的充分统计量。
等价地,T′=(Xˉ,S2) 也是充分统计量 (其中 S2=n−11∑(Xi−Xˉ)2 或 Sn2=n1∑(Xi−Xˉ)2)。
例5: 均匀分布 U(−θ/2,θ/2)¶
设 X1,…,Xn 是来自 U(−θ/2,θ/2) 总体的样本。
联合 pdf 为:
f(x1,…,xn∣θ)=i=1∏nθ1I(−θ/2<xi<θ/2)
=θn1I(−θ/2<x(1) and x(n)<θ/2)
其中 x(1)=min(xi),x(n)=max(xi)。
令 T(x1,…,xn)=(X(1),X(n)).
取 g(T(x),θ)=θn1I(−θ/2<x(1) and x(n)<θ/2) 和 h(x1,…,xn)=1.
故 T=(X(1),X(n)) 是 θ 的充分统计量。
(等价地,θ>max(2X(n),−2X(1)),所以 T′=max(X(n),−X(1)) 也是充分的)。
1.4 关于充分统计量的说明¶
-
支撑集依赖参数: 在写联合密度或分布列时,注意支撑集,一般可用示性函数简便表示。
-
维度: 当参数是多维时,充分统计量往往也是多维的,但充分统计量的维数不一定等于参数维数。
-
极小充分统计量 (Minimal Sufficient Statistic): 是其他任何充分统计量的函数。它以最有效的方式压缩数据而不损失信息。
二、参数点估计 (Parameter Point Estimation)¶
2.1 基本概念¶
-
点估计量 (Point Estimator): 用于估计未知参数 θ 的样本的函数 θ=θ(X1,…,Xn)。
-
点估计值 (Point Estimate): 点估计量在具体样本观测值 x1,…,xn 下的取值 θ^(x1,…,xn)。
2.2 矩估计法 (Method of Moments - MOM)¶
2.2.1 原理与步骤¶
-
原理: 用样本矩估计总体矩。基于大数定律,Mk=n1∑i=1nXikPEXk=μk。
-
步骤:
-
求出总体的前 m 阶原点矩(或中心矩,取决于参数形式): ak=EXk (或 μk′=E(X−EX)k),这些矩通常是未知参数 θ1,…,θm 的函数。
-
令总体矩等于相应的样本矩:ak=Mk=n1∑i=1nXik (对 k=1,…,m)。
-
解由此构成的方程组,得到参数 θ1,…,θm 的估计量 θ1,MOM,…,θm,MOM。
-
2.2.2 例子¶
例1: X∼B(1,p)¶
EX=p。样本一阶矩 M1=Xˉ。
令 p=Xˉ,则 p^MOM=Xˉ。
例2: f(x)=θ36x(θ−x) for 0<x<θ¶
EX=∫0θxθ36x(θ−x)dx=2θ。
令 EX=Xˉ⇒2θ=Xˉ⇒θ^MOM=2Xˉ。
方差: D(θ^MOM)=D(2Xˉ)=4D(Xˉ)=4nDX.
EX2=103θ2, DX=EX2−(EX)2=103θ2−(2θ)2=20θ2.
D(θ^MOM)=4nθ2/20=5nθ2.
例3: f(x)=e−(x−θ) for x≥θ (指数分布平移)¶
EX=∫θ∞xe−(x−θ)dx=1+θ.
令 EX=Xˉ⇒1+θ=Xˉ⇒θ^MOM=Xˉ−1.
2.3 极大似然估计法 (Maximum Likelihood Estimation - MLE)¶
2.3.1 原理与步骤¶
-
原理 (似然原则): 选择使得已观测到的样本数据出现的“可能性”最大的参数值作为估计值。
-
似然函数 (Likelihood Function):
-
离散总体: L(θ;x1,…,xn)=P(X1=x1,…,Xn=xn;θ)=∏i=1nP(Xi=xi;θ).
-
连续总体: L(θ;x1,…,xn)=f(x1,…,xn;θ)=∏i=1nf(xi;θ).
-
-
步骤:
-
写出似然函数 L(θ)。
-
通常取对数似然函数 lnL(θ) 以简化计算。
-
求 lnL(θ) (或 L(θ)) 关于参数 θ1,…,θm 的偏导数,并令其为零,构成似然方程组:
∂θj∂lnL(θ)=0,j=1,…,m
4. 解似然方程组得到 θ1,MLE,…,θm,MLE。 -
注意:
-
若似然方程无解,或解不在参数空间内,或解是鞍点/极小值点,则 MLE 可能在参数空间的边界处取到。此时需要直接考察似然函数 L(θ) 在参数定义域内的最大值。
-
MLE 可能不唯一。
-
-
2.3.2 例子¶
例1: Xi∼P(λ) (泊松分布),求 λ 的 MLE。¶
L(λ;x1,…,xn)=∏i=1nxi!e−λλxi=∏xi!e−nλλ∑xi.
lnL(λ)=−nλ+(∑xi)lnλ−ln(∏xi!).
dλdlnL(λ)=−n+λ∑xi=0⇒λ=n∑xi=Xˉ.
λ^MLE=Xˉ.
例2: Xi∼U[0,θ] (均匀分布)¶
L(θ;x1,…,xn)=∏i=1nθ1I(0≤xi≤θ)=θn1I(0≤x(1) and x(n)≤θ).
为使 L(θ) 最大,θn 应尽可能小,同时满足 θ≥x(n) 和 θ≥0 (因为 xi≥0)。
所以,θ 的最小允许值为 x(n)。
θ^MLE=X(n)=max(X1,…,Xn).
例3: X∼N(μ,σ2) (正态分布)¶
lnL(μ,σ2)=−2nln(2π)−2nln(σ2)−2σ21∑(xi−μ)2.
∂μ∂lnL=σ21∑(xi−μ)=0⇒∑xi−nμ=0⇒μ^MLE=Xˉ.
∂σ2∂lnL=−2σ2n+2(σ2)2∑(xi−μ)2=0.
代入 μ^MLE=Xˉ:
−2σ2n+2(σ2)2∑(xi−Xˉ)2=0⇒nσ2=∑(xi−Xˉ)2⇒σ^MLE2=n1∑(Xi−Xˉ)2=Sn2.
例4: f(x)=λe−λ(x−μ) for x>μ¶
-
λ 已知, 求 μ 的 MLE:
L(μ)=∏λe−λ(xi−μ)I(xi>μ)=λne−λ∑(xi−μ)I(x(1)>μ).
L(μ)=λne−λ∑xienλμI(μ<x(1)).
为使 L(μ) 最大, enλμ 要最大, 且 μ<x(1)。故 μ^MLE=X(1).
-
μ 已知, 求 λ 的 MOM:
EX=μ+1/λ.
令 Xˉ=μ+1/λ⇒λ^MOM=(Xˉ−μ)−1.
2.4 点估计的评价标准 (Criteria for Evaluating Point Estimators)¶
2.4.1 无偏性 (Unbiasedness)¶
-
定义: 若估计量 θ^ 满足 E(θ^)=θ 对所有 θ∈Θ 成立,则称 θ^ 是 θ 的无偏估计量。
-
偏差 (Bias): Bias(θ)=E(θ)−θ.
-
例子:
-
样本均值 Xˉ 是总体均值 μ 的无偏估计。
-
样本方差 S2=n−11∑(Xi−Xˉ)2 是总体方差 σ2 的无偏估计。
-
Sn2=n1∑(Xi−Xˉ)2 是 σ2 的有偏估计, E(Sn2)=nn−1σ2.
-
X∼U[0,θ]: θ^M=2Xˉ 是无偏的. θ^L=X(n) 是有偏的 (E(X(n))=n+1nθ), 但 nn+1X(n) 是无偏的。
-
2.4.2 有效性 (Efficiency)¶
-
定义: 若 θ^1 和 θ^2 都是 θ 的无偏估计量,如果对任意 θ∈Θ 都有 D(θ1)≤D(θ2),且至少对某个 θ0∈Θ 使得 D(θ1)<D(θ2) 严格成立,则称 θ^1 比 θ^2 有效。
-
均方误差 (Mean Squared Error - MSE):
MSE(θ)=E[(θ−θ)2]=D(θ)+[Bias(θ)]2.
若 θ^ 无偏,则 MSE(θ)=D(θ)。MSE 越小越好。
-
例子: X∼Exp(θ) (pdf f(x;θ)=θ1e−x/θ), Xˉ 和 nX(1) 都是 θ 的无偏估计。
D(Xˉ)=D(X)/n=θ2/n.
D(nX(1))=n2D(X(1)). X(1)∼Exp(n/θ), D(X(1))=(θ/n)2=θ2/n2.
D(nX(1))=n2(θ2/n2)=θ2.
当 n>1, D(Xˉ)=θ2/n<θ2=D(nX(1)), 故 Xˉ 比 nX(1) 有效。
2.4.3 相合性 (Consistency / Asymptotic Unbiasedness)¶
-
定义: 若当样本容量 n→∞ 时,估计量序列 θ^n 依概率收敛于 θ (即 θ^nPθ),则称 θ^n 是 θ 的相合估计量 (或一致估计量)。
∀ϵ>0,limn→∞P(∣θ^n−θ∣<ϵ)=1.
-
相合性的判断:
-
定理A (充分条件): 若 limn→∞E(θ^n)=θ (渐进无偏) 且 limn→∞D(θ^n)=0,则 θ^n 是 θ 的相合估计量。
-
定理B (连续映射定理): 若 θn(1),…,θn(k) 分别是 θ1,…,θk 的相合估计,且 g(⋅) 是连续函数,则 g(θn(1),…,θn(k)) 是 g(θ1,…,θk) 的相合估计。
-
-
例子: X∼U[0,θ], θ^L=X(n).
limn→∞E(X(n))=limn→∞n+1nθ=θ.
D(X(n))=(n+1)2(n+2)nθ2. limn→∞D(X(n))=0.
故 X(n) 是 θ 的相合估计。
2.4.4 渐近正态性 (Asymptotic Normality)¶
某些估计量在 n 较大时,其分布近似于正态分布。例如,极大似然估计量在一定正则条件下具有渐近正态性。
-
例子: X∼U[0,θ], θ^L=X(n). Yn=n(θ−X(n))。
P(Yn≤y)=P(n(θ−X(n))≤y)=P(X(n)≥θ−y/n)=1−FX(n)(θ−y/n).
FX(n)(x)=(x/θ)n for 0≤x≤θ.
P(Yn≤y)=1−((θ−y/n)/θ)n=1−(1−y/(nθ))n.
当 n→∞, P(Yn≤y)→1−e−y/θ for y>0.
这表明 Yn 的极限分布是参数为 1/θ 的指数分布。