week4-分布的刻画量
约 1525 个字 2 张图片 预计阅读时间 8 分钟 共被读过 次
期望(均值)¶
均值定义¶
- Lotus定理
$$
Def X\sim{p_i} E(X)=\sum_{i}x_{i}p_{i}(必须绝对收敛)
$$
Hint
- 绝对收敛:若级数 \(\sum a_n\) 的各项绝对值组成的级数 \(\sum |a_n|\) 收敛,则原级数\(\sum a_n\)称为绝对收敛。
- 条件收敛:若级数 \(\sum a_n\)本身收敛,但绝对值级数 \(\sum |a_n|\)∑∣发散,则原级数称为条件收敛。
方差定义¶
- 方差
$$
D(X)=E[X-EX]^2
$$ - 样本方差
中位数定义¶
- p分位数\(x_p\)
$$
P(X\le x_{p})\ge p, P(X\ge x_{p})\ge 1-p, 0\lt q \lt 1
$$ - 中位数\(p=\frac{1}{2}\)
- 性质:x为随机变量 X 的中位数 \(\leftrightarrow \frac{1}{2}\le F(x)\le \frac{1}{2}+P(X=x)\)
众数定义¶
- 概率密度最大的\(x_{p}\)
引理¶
中心距¶
- \(E(X^k)\): k阶(原点)距
- \(E(X-EX)^k\):k阶中心距
- \(E^*=\frac{X-EX}{\sqrt{DX }}\) 标准化
-
\(E((X^*)^3)\):偏度skewness
在统计学中,正偏(Positive Skewness) 的定义如下:正偏(右偏)的定义¶
当数据分布右侧(较大值方向)的尾部比左侧更长,且主要数据集中在左侧时,这种不对称性称为正偏态(右偏态)。其特点是:
1. 均值(Mean) > 中位数(Median) > 众数(Mode)
- 右侧的极端值(大值)会显著拉高均值,而中位数和众数相对不受影响。
1. 偏度系数(Skewness)> 0
- 通过计算偏度系数(如 Pearson 偏度系数或矩偏度系数),若结果为正,则表明分布右偏。直观理解¶
- 图形特征:正偏分布的“峰值”位于左侧,右侧有一条长尾。
-
实际场景:
- 自然现象:洪水发生频率(大多数年份正常,少数年份极严重)。
- 社会经济:个人收入、房价(多数集中在低值,少数极高值)。
- 生物学:某些物种的寿命分布(多数个体寿命较短,少数存活极久)。
注意事项¶
- 名称与方向的关系:
- 正偏 = 右偏:名称中的“正”指偏度系数为正,“右”指长尾在右侧。
- 数据处理的启示:
- 正偏数据可能不服从正态分布,需通过取对数、Box-Cox变换等方法处理后再建模。
-
\(E((X^*)^4\) :峰度kurtosis
- 矩母函数MGF:
若\(M_{X}(u)\)在u=0的某个开邻域内存在,则
矩母函数(若存在)与分布函数相互唯一确定
有关矩母函数的详细讲解与证明可参考:如何通俗的理解矩母函数
常见分布¶
- \(X\sim B(n,p)\leftrightarrow P(X=k)=C^k_{n}p^kq^{n-k}\)
- \(M_{X}(u)=pe^u+q\) \(M_{X^n}(u)=(pe^u+q)^n\)
- \(EX=np\)
- \(DX=Var(X)=npq\) \(DX=E(X-EX)^2=E{X^2-2XE(X)+(E(X))^2}=E(X^2)-(E(X))^2\)
- 二项分布B(n, p)的最大可能值k *存在,且
\(\(k^* = \begin{cases} (n+1)p \text{ 或 } (n+1)p-1, & \text{当}(n+1)p\text{为整数时}, \\ \lfloor (n+1)p \rfloor, & \text{当}(n+1)p\text{为非整数时}. \end{cases}\)\)
- \(X\sim Ge(P)\leftrightarrow PX=k)=q^{k-1}p\leftrightarrow P(X>k)=\sum^{\infty}_{i=k+1}q^{i-1}p=q^k\), 则
- \(M_{X}=\sum_{k=1}^{\infty}e^{uk}q^{k-1}p=\frac{p}{q}\sum^{\infty}_{k=1}[qe^u]^k=\frac{p}{q} \frac{qe^u}{1-qe^u}=\frac{pe^u}{1-qe^u}\)
- \(EX=\frac{1}{q}\)
- \(DX=\frac{q}{p^2}\)
- X是正整数,则下列三条等价
- \(X\sim Ge(p)\)
- X是具有“无记忆性的”,i.e.\(P(X>m+n|X>m)=P(X>n)\)
- \(P(X=m+n|X>m)=P(X>n)=P(X=n)\)
- \(X\sim NB(r,p)\leftrightarrow P(X=k)=C^{r-1}_{k-1}p^rq^{n-r}, k=r,r+1,\dots,\)
- \(M_{X}(u)=\left[ \frac{pe^u}{1-qe^u} \right]^r\)
- \(EX=\frac{r}{q}\)
- \(DX=\frac{rq}{p^2}\)
- \(X\sim HGe(n,a,b)\leftrightarrow P(X=k)=\frac{C^k_{a}C^{n-k}_{k}}{C^n_{a+b}}\)
- \(EX=n \frac{a}{a+b}\)
Thm
若\(\lim_{ a+b \to \infty } \frac{a}{a+b}=p\in (0,1)\)
则\(P(X=k)=\frac{C^k_{a}C^{n-k}_{k}}{C^n_{a+b}}\rightarrow_{a+b\rightarrow \infty}C^k_{n}p^kq^{n-k}\)
超几何分布的概率质量函数为:
将组合数展开为阶乘形式:
整理分子和分母:
近似处理:
当\(a\)和\(b\)极大时,利用以下近似:
代入后得:
取极限:
由条件\(\lim_{a+b \to \infty} \frac{a}{a+b} = p\),则\(\frac{b}{a+b} \to 1-p = q\)。因此:
- Riemann Zeta函数:\(X\sim Zipf(\alpha)\leftrightarrow P(X=k)=\frac{1}{\zeta(\alpha)k^{\alpha}},where \ \xi(\alpha)=\sum^\infty_{n=1} \frac{1}{n^{\alpha}}\)
- 证明:\(\pi_{p\in P}\left( \frac{1}{1-p^{-\alpha}} \right)=\sum^{\infty}_{n=1} \frac{1}{n^\alpha}\)
随机向量(\(X, Y\))¶
(联合joint)分布函数F(x,y)具有如下性质¶
- F(x, y)是 x 或y 的不减函数。
- 0 ≤ F(x, y) ≤1,且F(x,−∞) = F(−∞, y) = F(−∞,−∞) = 0,F(+∞,+∞) =1。
- F(x, y)关于 x 或 y 是右连续的。
- 对于任意的\(x_{1}\le x_{2},y_{1}\le y_{2}, F(x_{2}, y_{2})-F(x_{2}, y_{1})-F(x_{1}, y_{2})+F(x_{1}, y_{1})\ge 0\)
注:二元实函数F(x, y)为某一随机向量的分布函数当且仅当上述四个性质成立。 - X的边缘分布函数为:\(F _{X}(x) = F(x,+∞)\);
- Y的边缘分布函数为:\(F _{Y}(y) = F(+∞,y)\);
Def
称\(X_1,...,X_n\ i.d.\)
若\(F(x_{1},\dots,x_{n})=F_{X_{1}}(x_{1})\dots F_{X_{n}}(x_{n})\ \forall x_{1}, \dots,x_{n}\in \mathbb{R}\)