原图

概率论基本概念

概率的派别

对于概率的定义有几个主流的派别:

  • 频率派:
    频率派认为如果频率存在稳定性,即当nn\to\infty时下面极限存在(下面这个写法只是示意,后面介绍大数定律的时候会给出严格的定义),就得到了概率(用 Probability 的首字母 P 来表示):

    P(正面)=limnPn(正面)P(正面)=\lim_{n\to\infty}P_{n}(正面)

  • 古典派:
    如果因为无知,使得我们没有办法判断哪一个结果会比另外一个结果更容易出现,那么应该给予它们相同的概率,此称为不充分理由原则(Insufficient Reason Principle)。以不充分理由原则为基础,经由拉普拉斯:之手,确立了古典概率的定义,即:
    未知的概率都为等概率

  • 主观派:
    最后介绍下主观派,主观派认为概率是信念强度(degree of belief)。比如说,我个人相信 20 年后人类从网络时代进入人工智能时代的概率为 70%.

三个流派大概有以下的区别:

频率派古典派主观派理论基础过往事实的归纳总结、quad不充分理由原则、quad知识和直觉、quad概率定义频率稳定性、quad等概率、quad信念强度、quad\begin{array}{c|c} \hline \quad\quad&\quad\color{orange}{频率派}\quad&\quad\color{blue}{古典派}\quad&\quad\color{ForestGreen}{主观派}\quad\\ \hline \\ \quad 理论基础 \quad&\quad 过往事实的归纳总结、quad&\quad 不充分理由原则、quad&\quad 知识和直觉、quad\\ \quad 概率定义 \quad&\quad 频率稳定性、quad&\quad 等概率、quad&\quad 信念强度、quad\\ \\\hline \end{array}

概率公理化

已知某样本空间Ω\Omega,对于其中任一事件AA,定义函数PP,满足以下三大公理:

  • 非负性公理:

    P(A)0P(A)\ge 0

  • 规范性公理:

    P(Ω)=1P(\Omega) = 1

  • 可加性公理:
    A1A2A_1、A_2、\cdots为两两不相容的事件,即AiAj=ijA_i\cap A_j=\varnothing(i\ne j),有:

    P(A1A2)=P(A1)+P(A2)+P(A_1\cup A_2\cup\cdots) = P(A_1)+P(A_2)+\cdots

PP称为概率函数,P(A)P(A)称为事件 A 的概率。

事件之间的运算和关系

  • 并运算:
    对于事件ABA、B,并运算定义为(\equiv表示定义):

    AB{xxA 或 xB}A\cup B\equiv\{x|x\in A\ 或 \ x\in B\}

  • 交运算:
    对于事件ABA、B,交运算定义为:

    AB{xxA 且 xB}A\cap B\equiv\{x|x\in A\ 且 \ x\in B\}

  • 差运算:
    对于事件ABA、B,定义差运算为:

    AB{xxA且、quadxB}A-B\equiv\{x|x\in A\quad 且、quad x\notin B\}

  • 补运算:
    对于事件 A、B,如果:

    A=ΩBA=\Omega-B

    则称 B 为 A 的补,记作(其中 c 代表 Complement):

    B=A或、quadB=AcB=\overline{A}\quad 或、quad B=A^c

  • 基本运算的性质:

类比、quad改写+AB=A+B×AB=ABAB\begin{array}{c|c|c} \hline \quad\quad&\quad 类比、quad&\quad 改写 \quad\\ \hline \\ \quad 并 \quad&\quad +\quad&\quad A\cup B=A+B \quad\\ \quad 交 \quad&\quad \times\quad&\quad A\cap B=AB \quad\\ \quad 差 \quad&\quad -\quad&\quad A-B \quad\\ \\ \hline \end{array}

  • 德摩根定律:

    AB=AB\overline{A\cup B}=\overline{A}\cap\overline{B}

    \overline{A\cap B}=\overline{A}\cup\overline{B}

定义、quad类比、quadAB={xxA 或 xB}+AB={xxA 且 xB}×AB={xxA 且、xB}A=B    B=ΩA\begin{array}{c|c|c} \hline \quad\quad&\quad 定义、quad&\quad 类比、quad\\ \hline \\ \quad 并 \quad&\quad A\cup B=\{x|x\in A\ 或 \ x\in B\}\quad&\quad +\quad\\ \quad 交 \quad&\quad A\cap B=\{x|x\in A\ 且 \ x\in B\}\quad&\quad \times\quad\\ \quad 差 \quad&\quad A-B=\{x|x\in A\ 且、x\notin B\}\quad&\quad -\quad\\ \quad 补 \quad&\quad \overline{A}=B\iff B=\Omega - A\\ \\ \hline \end{array}

  • 事件之间的关系:

事件之间的关系= \begin{cases} 包含、\ 相等、\ 不相容、\ 对立 \end{cases}

条件概率

设 A 和 B 是样本空间Ω\Omega中的两事件,若P(B)>0P(B) > 0,则称:

P(AB)=P(AB)P(B)P(A|B)=\frac{P(A\cap B)}{P(B)}

为“假设条件为 B 时的 A 的概率”,简称条件概率。也常写作:

P(AB)=P(AB)P(B)P(A|B)=\frac{P(AB)}{P(B)}

乘法公式

  • P(B)>0P(B) > 0,则:

    P(AB)=P(B)P(AB)P(AB)=P(\color{Orange}{B})P(A|\color{Orange}{B})

  • P(A)>0P(A) > 0,则:

    P(AB)=P(A)P(BA)P(AB)=P(\color{Magenta}{A})P(B|\color{Magenta}{A})

  • P(A1An)>0P(A_1\cdots A_n) > 0,则:

    P(A1An)=P(A1)P(A2A1)P(A3A1A2)P(AnA1An1)P(A_1\cdots A_n)=P(A_1)P(A_2|A_1)P(A_3|A_1A_2)\cdots P(A_n|A_1\cdots A_{n-1})

63 4、 贝叶斯与全概率
对于同一样本空间Ω\Omega中的随机事件ABA、B,若P(B)0P(B) \ne 0,有:

P(AB)=P(A)P(B)P(BA)P(A|B)=\frac{P(A)}{P(B)}P(B|A)

A1A2AnA_1、A_2、\cdots、A_n满足:

AiAj=,(ij)且、quadP(i=1nAi)=1A_i\cap A_j=\varnothing , (i\ne j)\quad 且、quad P(\bigcup_{i=1}^{n}A_i)=1

P(Ai)>0,i=1,2,,nP(A_i) > 0,i=1,2,\cdots,n,则对任意事件BB有:

P(B)=i=1nP(Ai)P(BAi)P(B)=\sum_{i=1}^{n}P(A_i)P(B|A_i)

有了全概率公式后,可以得到贝叶斯定理真正的样子:
A1A2AnA_1、A_2、\cdots、A_n为样本空间Ω\Omega的一个分割,则有:

P(AiB)=P(BAi)P(B)=P(BAi)P(B)P(Ai)=P(BAi)i=1nP(Ai)P(BAi)P(Ai)\begin{aligned} P(A_i|B) &=\frac{P(BA_i)}{P(B)}\\ \\ &=\frac{P(B|A_i)}{P(B)}P(A_i)\\ \\ &=\frac{P(B|A_i)}{\displaystyle\sum_{i=1}^{n}P(A_i)P(B|A_i)}P(A_i) \end{aligned}

也就是把P(B)P(B)分解到分割A1A2AnA_1、A_2、\cdots、A_n上去了。

独立事件

对于两个随机事件ABA、B,如果满足:

P(AB)=P(A)P(B)P(AB)=P(A)P(B)

则称 A 与 B 相互独立,或简称 A 与 B 独立,否则称 A 与 B 不独立或相依。

A1A2A_1、A_2、\cdots为有限个或者无限个事件,从中任取两个Ai1Ai2A_{i1}、A_{i2},若满足:

P(Ai1Ai2)=P(Ai1)P(Ai2)P(A_{i1}A_{i2})=P(A_{i1})P(A_{i2})

则称A1A2A_1、A_2、\cdots是两两独立。

若从中任取有限个Aj1Aj2AjmA_{j1}、A_{j2}、\cdots、A_{jm},若满足:

P(Aj1Aj2Ajm)=P(Aj1)P(Aj2)P(Ajm)P(A_{j1}A_{j2}\cdots A_{jm})=P(A_{j1})P(A_{j2})\cdots P(A_{jm})

则称A1A2A_1、A_2、\cdots是相互独立。

随机变量及其分布

随机变量

定义在样本空间Ω\Omega上的实值函数:

X=X(ω),ωΩX=X(\omega),\quad \omega\in\Omega

称为随机变量。随机变量是一个函数,所以都用大写字母来表示,以示和自变量 x 的区别。

二项分布

概率质量函数

如果p(x)p(x)满足x{xi},i=1,2,(x\in \{x_i\},i=1,2,\cdots)

  • 非负性:

    p(xi)0p(x_i) \ge 0

  • 规范性:

    i=1p(xi)=1\sum_{i=1}^{\infty}p(x_i)=1

则称其为概率质量函数(PMF)。

伯努利分布

某样本空间只包含两个元素,Ω={ω1,ω2}\Omega=\{\omega_1,\omega_2\},在其上定义随机变量XX

X=X(ω)={1,ω=ω10,ω=ω2X=X(\omega)= \begin{cases} 1,&\omega=\omega_1\\ 0,&\omega=\omega_2 \end{cases}

0p10\le p\le 1时,有:

p(1)=P(X=1)=pp(1)=P(X=1)=p

p(0)=P(X=0)=1pp(0)=P(X=0)=1-p

或写作:

P(X=x)=p(x)={p,x=11p,x=0P(X=x)=p(x)= \begin{cases} p,&x=1\\ 1-p,&x=0 \end{cases}

则此概率分布称作 0-1 分布,也称作伯努利分布。

在数学中,类似于扔一次硬币这样的“是非题”称为一次伯努利试验,像上面这样独立地重复扔 n 次硬币(做同样的“是非题”n 次),就称为 n 重伯努利试验。

二项分布

对于 n 重伯努利实验,如果每次得到“是”的概率为 p,设随机变量:

X=得到“是”的次数X=得到“是”的次数

则称:

p(k)=P(X=k)=(nk)pk(1p)nk,k=0,1,,np(k)=P(X=k)={n\choose k}p^k(1-p)^{n-k},\quad k=0,1,\cdots,n

为随机变量 X 的二项分布,也可以记作:

Xb(n,p)X\sim b(n,p)

当 n=1 的时候,对应的就是伯努利分布,所以伯努利分布也可以记作b(1,p)b(1,p)

离散的累积分布函数

XX是一个随机变量,xx是任意实数,函数:

F(x)=P(Xx)=axp(a)F(x)=P(X \le x)=\sum_{a\le x}p(a)

因为是把概率质量函数累加起来,所以称为累积分布函数(Cumulative Distribution Function,或者缩写为 CDF),也简称为分布函数。

离散的数学期望
设离散随机变量XX的概率质量函数为:

p(xi)=P(X=xi),i=1,2,,n,p(x_i)=P(X=x_i),i=1,2,\cdots,n,\cdots

如果:

i=1xip(xi)<\sum_{i=1}^{\infty}|x_i|p(x_i) < \infty

则称:

E(X)=i=1xip(xi)E(X)=\sum_{i=1}^{\infty}x_ip(x_i)

为随机变量 X 的数学期望(expected value,或,expectation),简称期望或均值(mean),也有很多文档会用μX\mu_X来表示(如果不强调随机变量的话,也可以直接用μ\mu来表示):

μX=μ=i=1xip(xi)\mu_X=\mu=\sum_{i=1}^{\infty}x_ip(x_i)

若级数i=1xip(xi)\sum_{i=1}^{\infty}|x_i|p(x_i)不收敛,则称XX的数学期望不存在。

学期望也称作矩。更准确点说,由于数学期望:

E(X)=i=1xip(xi)E(X)=\sum_{i=1}^{\infty}x_ip(x_i)

xix_i是一次项,所以又称作一阶矩。这个称呼经常在统计的书上会遇到,特在此说明。

数学期望的性质

  • 复合:
    假设g(X)g(X)为随机变量XX的某一函数,则:

    E[g(X)]=ig(xi)p(xi)E\left[g(X)\right]=\sum_i g(x_i)p(x_i)

  • 常数:
    若 c 为常数,则:

    E(c)=cE(c)=c

  • 线性组合:
    数学期望满足:

    • 齐次性,对于任意常数aa有:

    E(aX)=aE(X)E(aX)=aE(X)

    • 可加性,对于随机变量的函数g1(X)g2(X)g_1(X)、g_2(X)有:

    E[g1(X)+g2(X)]=E[g1(X)]+E[g2(X)]E\left[g_1(X)+g_2(X)\right]=E\left[g_1(X)\right]+E\left[g_2(X)\right]

  • 伯努利分布和二项分布的期望分别如下:

伯努利分布、qquad二项分布、qquad PMF p(x)={p,x=11p,x=0p(x)=(nx)px(1p)nxμpnp\begin{array}{c|c} &\qquad 伯努利分布、qquad&\qquad 二项分布、qquad\\ \hline\\ \ PMF\ & p(x)=\begin{cases}p,&x=1\\1-p,&x=0\end{cases} & p(x)={n\choose x}p^x(1-p)^{n-x}\\\\ \hline \\ \quad \mu\quad& p & np \\ \end{array}

方差与标准差

方差

代数式:

Var(X)=E[(XE(X))2]Var(X)=E\left[\Big(X-E(X)\Big)^2\right]

称为随机变量 X 的方差(Variance),也可记作σ2\sigma^2或者σX2\sigma_X^2

方差的性质

  • 化简:
    可以通过下式来化简运算:

    Var(X)=E(X2)μ2Var(X)=E\left(X^2\right)-\mu^2

  • 常数:
    若 c 为常数,则:

    Var(c)=0Var(c)=0

  • 相加与数乘:
    若 a、b 为常数,则:

    Var(aX+b)=a2Var(X)Var(aX+b)=a^2Var(X)

标准差

假如随机变量XX的方差为Var(X)Var(X),则称:

σ(X)=Var(X)\sigma(X)=\sqrt{Var(X)}

为标准差,也可以记作σ\sigma或者σX\sigma_X

二项分布的方差

伯努利分布、qquad二项分布、qquad PMF p(x)={p,x=11p,x=0p(x)=(nx)px(1p)nxμpnpVar(X)p(1p)np(1p)\begin{array}{c|c} &\qquad 伯努利分布、qquad&\qquad 二项分布、qquad\\ \hline \\ \ PMF\ & p(x)=\begin{cases}p,&x=1\\1-p,&x=0\end{cases} & p(x)={n\choose x}p^x(1-p)^{n-x}\\ \\ \hline \\ \quad \mu\quad& p & np \\ \\ \hline \\ \quad Var(X)\quad& p(1-p) & np(1-p) \\ \\ \end{array}

马尔可夫不等式

XX为取非负值的随机变量,则对于任何a>0a > 0,有:

P(Xa)E(X)aP(X\ge a)\le \frac{E(X)}{a}

切比雪夫不等式

XX是一随机变量,均值μ\mu和方差σ2\sigma^2有限,则对任何k>0k > 0有:

P(Xμk)σ2k2P(|X-\mu| \ge k)\le \frac{\sigma^2}{k^2}

泊松分布

对于随机变量XX的概率质量函数:

P(X=k)=λkk!eλ,k=0,1,2,P(X=k)=\frac{\lambda^k}{k!}e^{-\lambda},\quad k=0,1,2,\cdots

称为随机变量XX的泊松分布,也可以记为:

XP(λ)X\sim P(\lambda)

其数学期望和方差为:

E(X)=λ,Var(X)=λE(X)=\lambda,\quad Var(X)=\lambda

条件
更一般地,在某一段时间 T 内发生特定事件的次数,如果满足以下假设,都可以看作泊松分布:

  • 平稳性:在此时间段 T 内,此事件发生的概率相同(在实际应用中大致相同就可以了)。
  • 独立性:事件的发生彼此之间独立(或者说,关联性很弱)。
  • 普通性:把 T 切分成足够小的区间、Delta T,在、Delta T 内恰好发生两个、或多个事件的可能性为 0(或者说,几乎为 0)。

泊松分布是二项分布的极限:

limn(nk)(μn)k(1μn)nk=μkk!eμ\lim_{n\to\infty}{n\choose k}\left(\frac{\mu}{n}\right)^k\left(1-\frac{\mu}{n}\right)^{n-k}=\frac{\mu^k}{k!}e^{-\mu}

所以在泊松分布的λ\lambda固定的情况,二项分布的 n 越大(对应的p=λnp=\frac{\lambda}{n}越小),此时两者会非常接近。

重要的离散分部

几何分布

对于 n 重伯努利实验,如果每次得到“是”的概率为 p,设随机变量:

X=首次得到“是”时进行的试验次数X=首次得到“是”时进行的试验次数

则称:

p(k)=P(X=k)=(1p)k1p,k=1,2,p(k)=P(X=k)=(1-p)^{k-1}p,\quad k=1,2,\cdots

为随机变量 X 的几何分布,也可以记作:

XGe(p)X\sim Ge(p)

其数学期望和方差为:

E(X)=1p,Var(X)=1pp2E(X)=\frac{1}{p},\quad Var(X)=\frac{1-p}{p^2}

负二项分布

对于 n 重伯努利实验,如果每次得到“是”的概率为 p,设随机变量:

X=r次“是”发生时的实验次数X=第 r 次“是”发生时的实验次数

则称:

p(k)=P(X=k)=(k1r1)pr(1p)kr,k=r,r+1,p(k)=P(X=k)={k-1\choose r-1}p^r(1-p)^{k-r},k=r,r+1,\cdots

为随机变量 X 的负二项分布,也称为帕斯卡分布,也可以记作:

XNb(r,p)X\sim Nb(r,p)

其数学期望为:

E(X)=rp,Var(X)=r(1p)p2E(X)=\frac{r}{p},\quad Var(X)=\frac{r(1-p)}{p^2}

负二项分布与几何分布

  • 几何是负二项的特例 :
    负二项分布是这样的:

    p(k)=P(X=k)=(k1r1)pr(1p)kr,k=r,r+1,p(k)=P(X=k)={k-1\choose r-1}p^r(1-p)^{k-r},k=r,r+1,\cdots

    r=1 的时候,就得到了几何分布:

    p(k)=P(X=k)=(1p)k1p,k=1,2,p(k)=P(X=k)=(1-p)^{k-1}p,\quad k=1,2,\cdots

  • 负二项是几何的和:
    参数为 r、p 的负二项分布可以表示为如下事件序列:

    图中所示的每一段X1X2XrX_1、X_2、\cdots、X_r都是几何分布,所以有:

    X=X1+X2++XrNb(r,p)X=X_1+X_2+\cdots+X_r\sim Nb(r,p)

    所以负二项分布的期望为:

    E(X)=E(X1)+E(X2)++E(Xr)=rpE(X)=E(X_1)+E(X_2)+\cdots+E(X_r)=\frac{r}{p}

超几何分布

设有 N 件产品,其中有 M 件不合格品,随机抽取 n 件产品,则其中含有 m 件不合格产品的概率为多少?
假设随机变量:

X=随机抽取的n件中有m件不合格品X=随机抽取的 n 件中有 m 件不合格品

这个随机变量的概率可以用古典概率来求,首先,样本空间就是从 N 件中随便抽取 n 件,所以:

Ω=(Nn)|\Omega| = {N\choose n}

然后有 m 件从不合格品中抽取,剩下的在合格品中抽取,则有:

X=(Mm)(NMnm)|X| = {M\choose m}{N-M\choose n-m}

所求概率即为:

P(X=m)=(Mm)(NMnm)(Nn),m=0,1,,rP(X=m)=\frac{\left(\begin{array}{c} M \\ m \end{array}\right)\left(\begin{array}{c} N-M \\ n-m \end{array}\right)}{\left(\begin{array}{c} N \\ n \end{array}\right)}, m=0,1, \cdots, r

其中r=min(M,n)r=min(M,n)。此时称 X 服从超几何分布,可以记作:

Xh(n,N,M)X\sim h(n,N,M)

其数学期望和方差为:

E(X)=nMN,Var(X)=nMN(1MN)(1n1N1)E(X)=n\frac{M}{N},\quad Var(X)=n\frac{M}{N}\left(1-\frac{M}{N}\right)\left(1-\frac{n-1}{N-1}\right)

超几何分布与二项分布

超几何分布与二项分布类似,都是求抽取 n 次其中有 m 次“是”的概率,只是:

  • 二项分布:相当于抽取之后放回。
  • 超几何分布:抽取之后不放回。

所以在超几何分布中,如果被抽取的总数 N 特别大,那么放回不放回区别也就不大了,此时,那么超几何分布可以近似看作二项分布。
这点从两者的期望、方差也可以看出来:

二项分布、qquad超几何分布、qquadμnpnMNσ2np(1p)nMN(1MN)(1n1N1)\begin{array}{c|c} &\qquad 二项分布、qquad&\qquad 超几何分布、qquad\\ \hline \\ \quad \mu\quad& np & n\frac{M}{N} \\ \\ \hline \\ \quad \sigma^2\quad& np(1-p) & n\frac{M}{N}\left(1-\frac{M}{N}\right)\left(1-\frac{n-1}{N-1}\right)\\ \\ \end{array}

p=MNp=\frac{M}{N},超几何分布的期望和方差可以写作:

μ=nMN=np\mu=n\frac{M}{N}=np

\sigma^2=n\frac{M}{N}\left(1-\frac{M}{N}\right)\left(1-\frac{n-1}{N-1}\right)=np(1-p)\left(1-\frac{n-1}{N-1}\right)

对超几何分布而言,当 N 足够大的时候,$\frac{M}{N}$可看作取出不合格产品的概率,那此时超几何分布可看作二项分布。 ### 总结

\begin{array}{c|c}
\hline
\
\quad 伯努利分布、quad&\quad 抛硬币,二选一 \quad\
\quad 二项分布、quad&\quad n 重伯努利,出现 k 次“是” \quad\
\quad 泊松分布、quad&\quad 二项分布的极限 \quad\
\quad 几何分布、quad&\quad n 重伯努利,第 k 次首次出现“是” \quad\
\quad 负二项分布、quad&\quad 几何分布的和 \quad\
\quad 超几何分布、quad&\quad 不放回抽样的二项分布 \quad\
\
\hline
\end{array}

## 概率密度函数 ### 概率密度函数 如果函数$p(x)$满足下列两个条件(对应了概率的三大公理): - 非负性:

p(x) \ge 0
$$
  • 规范性(暗含了可加性),因为是连续的,所以通过积分相加:

    +p(x)dx=1\int_{-\infty}^{+\infty}p(x)\mathrm{d}x=1

则称其为概率密度函数(Probability Density Function,简写为 PDF)。

期望

离散随机变量的期望定义为:

E(X)=i=1xip(xi)E(X)=\sum_{i=1}^{\infty}x_ip(x_i)

可以用类似的方法定义连续随机变量的期望,当然期望的意义是没有改变的:

E(X)=+xp(x)dxE(X)=\int_{-\infty}^{+\infty}xp(x)\mathrm{d}x

关于期望的几个性质也是成立的:

  • 复合:
    假设g(X)g(X)为连续随机变量XX的某一函数,则:

    E[g(X)]=+g(x)p(x)dxE\left[g(X)\right]=\int_{-\infty}^{+\infty}g(x)p(x)\mathrm{d}x

  • 常数:
    若 c 为常数,则:

    E(c)=cE(c)=c

  • 线性:
    数学期望满足:

    • 齐次性,对于任意常数 a 有:

    E(aX)=aE(X)E(aX)=aE(X)

    • 可加性,对于任意两个函数g1(X)g2(X)g_1(X)、g_2(X)有:

    E[g1(X)+g2(X)]=E[g1(X)]+E[g2(X)]E\left[g_1(X)+g_2(X)\right]=E\left[g_1(X)\right]+E\left[g_2(X)\right]

方差

方差的定义依然是:

Var(X)=E[(XE(X))2]Var(X)=E\left[\Big(X-E(X)\Big)^2\right]

相关的性质也是成立的:

  • 化简:
    可以通过下式来化简运算:

    Var(X)=E(X2)μ2Var(X)=E\left(X^2\right)-\mu^2

  • 常数:
    若 c 为常数,则:

    Var(c)=0Var(c)=0

  • 相加与数乘:
    若 a、b 为常数,则:

    Var(aX+b)=a2Var(X)Var(aX+b)=a^2Var(X)

累积分布函数

连续随机变量XX的概率密度函数为p(x)p(x),则:

F(x)=P(Xx)=xp(t)dtF(x)=P(X \le x)=\int_{-\infty}^{x}p(t)\mathrm{d}t

称为XX的累积分布函数。

正态分布

正态分布

如果连续随机变量XX的概率密度函数为:

p(x)=1σ2πe(xμ)22σ2,<x<+p(x)=\frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{(x-\mu)^2}{2\sigma^2}},\quad -\infty < x < +\infty

则称XX服从正态分布(normal distribution),也称作高斯分布(Gaussian distribution),记作XN(μ,σ2)X\sim N(\mu,\sigma^2),其累积分布函数为:

F(x)=1σ2πxe(tμ)22σ2dtF(x)=\frac{1}{\sigma\sqrt{2\pi}}\int_{-\infty}^{x}e^{-\frac{(t-\mu)^2}{2\sigma^2}}\mathrm{d}t

我们称μ=0σ=1\mu=0、\sigma=1时的正态分布N(0,1)N(0,1)为标准正态分布。

期望与方差

正态分布XN(μ,σ2)X\sim N(\mu,\sigma^2)的期望和方差为:

E(X)=μ,Var(X)=σ2E(X)=\mu,\quad Var(X)=\sigma^2

指数分布

若随机变量XX的概率密度函数为:

p(x)={λeλx,x00,x<0p(x)=\begin{cases} \lambda e^{-\lambda x}, & x \ge 0\\ 0,& x < 0 \end{cases}

其中λ>0\lambda > 0,称XX服从指数分布,也可以记为:

XExp(λ)X\sim Exp(\lambda)

累积分布函数为:

F(x)={1eλx,x00,x<0F(x)=\begin{cases} 1-e^{-\lambda x}, & x \ge 0\\ 0,& x < 0 \end{cases}

指数分布XExp(λ)X\sim Exp(\lambda)的期望和方差为:

E(X)=1λ,Var(X)=1λ2E(X)=\frac{1}{\lambda},\quad Var(X)=\frac{1}{\lambda^2}

总结

首先是一维离散随机变量的概率分布:

伯努利分布、quad抛硬币,二选一二项分布、quadn重伯努利,出现k次“是”泊松分布、quad二项分布的极限几何分布、quadn重伯努利,第k次首次出现“是”负二项分布、quad几何分布的和超几何分布、quad不放回抽样的二项分布\begin{array}{c|c} \hline \\ \quad 伯努利分布、quad&\quad 抛硬币,二选一 \quad\\ \quad 二项分布、quad&\quad n 重伯努利,出现 k 次“是” \quad\\ \quad 泊松分布、quad&\quad 二项分布的极限 \quad\\ \quad 几何分布、quad&\quad n 重伯努利,第 k 次首次出现“是” \quad\\ \quad 负二项分布、quad&\quad 几何分布的和 \quad\\ \quad 超几何分布、quad&\quad 不放回抽样的二项分布 \quad\\ \\ \hline \end{array}

然后是一维连续随机变量的概率分布:

均匀分布、quad古典派中的几何概型正态分布、quad二项分布的另外一种极限指数分布、quad泊松分布的间隔,连续的几何分布\begin{array}{c|c} \hline \\ \quad 均匀分布、quad&\quad 古典派中的几何概型 \quad\\ \quad 正态分布、quad&\quad 二项分布的另外一种极限 \quad\\ \quad 指数分布、quad&\quad 泊松分布的间隔,连续的几何分布 \quad\\ \\ \hline \end{array}

多维随机变量及其分布

多维随机变量及其分布

联合概率质量函数

如果二维随机向量(X,Y)(X,Y)所有可能的取值为(xi,yj),i,j=1,2,(x_i,y_j),i,j=1,2,\cdots,这两个随机变量同时发生的概率可以用函数表示如下:

pij=P(X=xi,Y=yj)=P(X=xi 且 Y=yj),i,j=1,2,p_{ij}=P(X=x_i,Y=y_j)=P(X=x_i\ \color{red}{且}\ Y=y_j),\quad i,j=1,2,\cdots

且此函数满足如下性质(即概率的三大公理):

  • 非负性:

    pij0p_{ij}\ge 0

  • 规范性和可加性:

    i=1j=1pij=1\sum_{i=1}^{\infty}\sum_{j=1}^{\infty}p_{ij}=1

则称此函数为(X,Y)(X,Y)的联合概率质量函数(Joint Probability Mass Function),或者称为联合分布列,此定义可以推广到多维离散随机变量上去。

联合概率密度函数

对于某二维随机变量(X,Y)(X,Y)存在二元函数p(x,y)p(x,y)满足:

  • 非负性:

    p(x,y)0p(x,y)\ge 0

  • 规范性和可加性(连续的都通过积分来相加):

    ++p(x,y)dxdy=1\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}p(x,y)\mathrm{d}x\mathrm{d}y=1

则称此函数为(X,Y)(X,Y)的联合概率密度函数(Joint Probability Density Function),此定义可以推广到多维连续随机变量上去。

联合累积分布函数

(X,Y)(X,Y)是二维随机变量,对于任意实数xyx、y,可以定义一个二元函数来表示两个事件同时发生的概率:

F(x,y)=P({Xx} 且 {Yy})=P(Xx,Yy)F(x,y)=P\Big(\{X\le x\}\ \color{red}{且}\ \{Y\le y\}\Big)=P(X\le x, Y\le y)

称为二维随机变量(X,Y)(X,Y)的联合累积分布函数(Joint Cumulative Distribution Function),如果混合偏导存在的话,那么:

F(x,y)xy=p(x,y)\frac{\partial F(x,y)}{\partial x \partial y}=p(x,y)

得到p(x,y)p(x,y)就是此分布的概率密度函数。此定义和性质可以推广到多维随机变量。

多维均匀分布

DDRnR^n中的一个有界区域,其度量(直线为长度,平面为面积,空间为体积等)为SDS_D,如果多维随机变量(X1,X2,,Xn)(X_1,X_2,\cdots,X_n)的联合概率密度函数为:

p(x1,x2,,xn)={1SD,(x1,x2,,xn)D0,其它p(x_1,x_2,\cdots,x_n)= \begin{cases} \frac{1}{S_D},&(x_1,x_2,\cdots,x_n)\in D\\ 0,&其它 \end{cases}

则称(X1,X2,,Xn)(X_1,X_2,\cdots,X_n)服从DD上的多维均匀分布,记作:

(X1,X2,,Xn)U(D)(X_1,X_2,\cdots,X_n)\sim U(D)

边缘分布与随机变量的独立性

边缘概率质量函数

如果二维离散随机变量(X,Y)(X,Y)的联合概率质量函数为:

P(X=xi,Y=yj),i,j=1,2,P(X=x_i,Y=y_j),i,j=1,2,\cdots

jj求和所得的函数:

j=1P(X=xi,Y=yj)=P(X=xi)\sum_{j=1}^{\infty}P(X=x_i,Y=y_j)=P(X=x_i)

称为XX的边缘概率质量函数(Marginal Probability Mass Function),或者称为边缘分布列。类似的对 i 求和所得的函数:

i=1P(X=xi,Y=yj)=P(Y=yj)\sum_{i=1}^{\infty}P(X=x_i,Y=y_j)=P(Y=y_j)

称为YY的边缘概率质量函数。

边缘概率密度函数

如果二维连续随机变量(X,Y)(X,Y)的联合概率密度函数为p(x,y)p(x,y),则:

pX(x)=+p(x,y)dyp_X(x)=\int_{-\infty}^{+\infty}p(x,y)\mathrm{d}y

称为XX的边缘概率密度函数(Marginal Probability Density Function)。类似的:

pY(y)=+p(x,y)dxp_Y(y)=\int_{-\infty}^{+\infty}p(x,y)\mathrm{d}x

称为 Y 的边缘概率密度函数。

边缘累积分布函数

如果二维连续随机变量(X,Y)(X,Y)的联合累积分布函数为F(x,y)F(x,y),如下可以得到XX的累积分布函数:

FX(x)=limy+F(x,y)=P(Xx,Y<+)=P(Xx)F_X(x)=\lim_{y\to+\infty}F(x,y)=P(X\le x,Y < +\infty)=P(X\le x)

称为XX的边缘累积分布函数(Marginal Cumulative Distribution Function)。可记作:

FX(x)=F(x,+)F_X(x)=F(x,+\infty)

同理可以得到 Y 的边缘累积分布函数:

FY(y)=F(+,y)F_Y(y)=F(+\infty, y)

条件分布

离散的条件分布

(X,Y)(X,Y)是二维离散型随机变量,对于固定的jj,若P(Y=yj)0P(Y=y_j)\ge 0,则称:

P(X=xiY=yj)=P(X=xi,Y=yj)P(Y=yj),i=1,2,P\left(X=x_{i} | Y=y_{j}\right)=\frac{P\left(X=x_{i}, Y=y_{j}\right)}{P\left(Y=y_{j}\right)}, i=1,2, \cdots

Y=yjY=y_j条件下的随机变量XX的条件概率质量函数。同样的对于固定的ii,若P(X=xi)0P(X=x_i)\ge 0,则称:

P(Y=yjX=xi)=P(X=xi,Y=yj)P(X=xi),j=1,2,P\left(Y=y_{j} | X=x_{i}\right)=\frac{P\left(X=x_{i}, Y=y_{j}\right)}{P\left(X=x_{i}\right)}, j=1,2, \cdots

X=xiX=x_i条件下的随机变量YY的条件概率质量函数。

条件分布和条件概率没有什么区别,一样可以用于全概率公式、贝叶斯公式。

连续的条件分布

设二维连续型随机变量(X,Y)(X,Y)的概率密度函数为p(x,y)p(x,y),若对于固定的yy有边缘概率密度函数pY(y)>0p_Y(y) > 0,则:

pXY(x  y)=p(x,y)pY(y)p_{X|Y}(x\ |\ y)=\frac{p(x,y)}{p_Y(y)}

Y=yY=y条件下的随机变量XX的条件概率密度函数。对应的条件累积分布函数为:

FXY(x  y)=xp(u,y)pY(y)duF_{X|Y}(x\ |\ y)=\int_{-\infty}^{x}\frac{p(u,y)}{p_Y(y)}\mathrm{d}u

同样的道理,以X=xX=x为条件有:

pYX(y  x)=p(x,y)pX(x)p_{Y|X}(y\ |\ x)=\frac{p(x,y)}{p_X(x)}

F_{Y|X}(y\ |\ x)=\int_{-\infty}^{y}\frac{p(x,u)}{p_X(x)}\mathrm{d}u

### 连续的全概率和贝叶斯 - 全概率:

p_{Y}(y)=\int_{-\infty}^{+\infty} p(y | x) p_{X}(x) \mathrm{d} x
$$
p_{X}(x)=\int_{-\infty}^{+\infty} p(x | y) p_{Y}(y) \mathrm{d} y
$$
  • 贝叶斯:

p(xy)=p(yx)pX(x)pY(y)=p(yx)pX(x)+p(yx)pX(x)dx\begin{aligned} p(x | y) &=\frac{p(y | x) p_{X}(x)}{p_{Y}(y)} \\ &=\frac{p(y | x) p_{X}(x)}{\int_{-\infty}^{+\infty} p(y | x) p_{X}(x) \mathrm{d} x} \end{aligned}

多维随机变量函数的分布

随机变量的和

  • 离散:
    设 X、Y 为两个相互独立的离散随机变量,取值范围为0120,1,2,\cdots,则其和的概率质量函数为:

    P(X+Y=k)=i=0kP(X=i)P(Y=ki)P(X+Y=k)=\sum_{i=0}^{k}P(X=i)P(Y=k-i)

    这个概率等式称为离散场合下的卷积公式。

  • 连续:
    (X,Y)(X,Y)为二维连续型随机变量,概率密度函数为p(x,y)p(x,y),则Z=X+YZ=X+Y仍为连续型随机变量,其概率密度为:

    pX+Y(z)=+p(zy,y)dy=+p(x,zx)dxp_{X+Y}(z)=\int_{-\infty}^{+\infty}p(z-y,y)\mathrm{d}y=\int_{-\infty}^{+\infty}p(x,z-x)\mathrm{d}x

    XYX、Y为相互独立,其边缘密度函数分别为pX(x)p_X(x)pY(y)p_Y(y),则其和Z=X+YZ=X+Y的概率密度函数为:

    pZ(z)=+pX(zy)pY(y)dy=+pX(x)pY(zx)dxp_Z(z)=\int_{-\infty}^{+\infty}p_X(z-y)p_Y(y)\mathrm{d}y=\int_{-\infty}^{+\infty}p_X(x)p_Y(z-x)\mathrm{d}x

    上面两个概率等式称为连续场合下的卷积公式。

随机变量的数字特征

数学期望

数学期望的定义

离散随机变量的数学期望定义为:

E(X)=i=1xip(xi)E(X)=\sum_{i=1}^{\infty}x_ip(x_i)

连续随机变量的数学期望定义为:

E(X)=+xp(x)dxE(X)=\int_{-\infty}^{+\infty}xp(x)\mathrm{d}x

函数的数学期望

  • 一维随机变量:
    YY是随机变量XX的函数Y=g(X)Y=g(X)(g 是连续函数)。

    • XX为离散随机变量,则(设下式中的级数绝对收敛):

    E(Y)=E[g(X)]=ig(xi)p(xi)E(Y)=E\left[g(X)\right]=\sum_i g(x_i)p(x_i)

    • XX为连续随机变量,则(设下式中的积分绝对收敛):

    E(Y)=E[g(X)]=+g(x)p(x)dxE(Y)=E\left[g(X)\right]=\int_{-\infty}^{+\infty}g(x)p(x)\mathrm{d}x

  • 多维随机变量:
    ZZ是随机变量(X,Y)(X,Y)的函数Z=g(X,Y)Z=g(X,Y)(g 是连续函数)。

    • (X,Y)(X,Y)为离散随机变量,则(设下式中的级数绝对收敛):

    E(Z)=E[g(X,Y)]=jig(xi,yj)p(xi,yj)E(Z)=E\left[g(X,Y)\right]=\sum_j\sum_i g(x_i,y_j)p(x_i,y_j)

    • (X,Y)(X,Y)为连续随机变量,则(设下式中的积分绝对收敛):

    E(Z)=E[g(X,Y)]=++g(x,y)p(x,y)dxdyE(Z)=E\left[g(X,Y)\right]=\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}g(x,y)p(x,y)\mathrm{d}x\mathrm{d}y

线性的数学期望

数学期望满足:

  • 齐次性,对于任意常数 a 有:

    E(aX)=aE(X)E(aX)=aE(X)

  • 可加性,对于任意两个函数g1(X)g2(X)g_1(X)、g_2(X)有:

    E[g1(X)+g2(X)]=E[g1(X)]+E[g2(X)]E\left[g_1(X)+g_2(X)\right]=E\left[g_1(X)\right]+E\left[g_2(X)\right]

对于多维也成立:

E(X+Y)=E(X)+E(Y)E(X+Y)=E(X)+E(Y)

E(X_1+X_2+\cdots+X_n)=E(X_1)+E(X_2)+\cdots+E(X_n)

### 施瓦茨不等式 对任意随机变量$X$与$Y$都有:

\Big[E(XY)\Big]^2 \le E(X2)E(Y2)

### 独立的数学期望 设$(X,Y)$为二维独立随机变量,则有:

E(XY)=E(X)E(Y)

这个结论可以推广到n维独立随机变量:这个结论可以推广到 n 维独立随机变量:

E\left(X_{1} X_{2} \cdots X_{n}\right)=E\left(X_{1}\right) E\left(X_{2}\right) \cdots E\left(X_{n}\right)

## 方差与标准差 ### 方差与标准差的定义 方差定义为(因为直接通过数学期望定义的,所以没有区分离散和连续):

Var(X)=E\left[\Big(X-E(X)\Big)^2\right]

为了写的简单一点,也常常令$E(X)=\mu$,那么上式可以改写为:

Var(X)=E\left[(X-\mu)^2\right]

之前也介绍过,由于方差里面含有平方,在实际应用中需要开平方才能保持单位一致,这就是标准差: 之前也介绍过,由于方差里面含有平方,在实际应用中需要开平方才能保持单位一致,这就是标准差:

\sigma(X)=\sqrt{Var(X)}

### 线性的方差 若$a、b$为常数,则:

Var(aX+b)=a^2Var(X)

### 独立的方差 设$(X,Y)$为二维独立随机变量,则有:

Var(X\pm Y)=Var(X)+Var(Y)

这个结论可以推广到n维独立随机变量: 这个结论可以推广到 n 维独立随机变量:

Var\left(X_{1}\pm X_{2}\pm \cdots\pm X_{n}\right)=Var\left(X_{1}\right) +Var\left(X_{2}\right)+\cdots+Var\left(X_{n}\right)

## 协方差 ### 协方差的定义 设$(X,Y)$是一个二维随机变量,若$E\Big[(X-\mu_X)(Y-\mu_Y)\Big]$存在,则称此数学期望为$X$与$Y$的协方差(Covariance),记作:

Cov(X,Y)=E\Big[(X-\mu_X)(Y-\mu_Y)\Big]

特别地有$Cov(X,X)=Var(X)$。 很显然会有: - $Cov(X,Y) > 0$时,$X、Y$正相关,即两者有同时增加或者减少的倾向。 - $Cov(X,Y) < 0$时,$X、Y$负相关,即两者有反向增加或者减少的倾向。 - $Cov(X,Y) = 0$时,$X、Y$不相关,不过和独立还是有区别的,这点我们后面再论述。 ### 协方差的性质 - 化简: 可以通过下式来化简运算:

Cov(X,Y)=E(XY)-E(X)E(Y)
$$
据此马上可以得到一个推论:
$$
Cov(X,Y)=Cov(Y,X)
$$
  • 方差:
    对于任意的二维随机变量(X,Y)(X,Y)有:

    Var(X+Y)=Var(X)+Var(Y)+2Cov(X,Y)Var(X+Y)=Var(X)+Var(Y)+2Cov(X,Y)

    Var(X-Y)=Var(X)+Var(Y)-2Cov(X,Y)

    所以当$(X,Y)$为二维不相关随机变量时,有:

    Var(X\pm Y)=Var(X)+Var(Y)

    Cov(X1+X2,Y)=Cov(X1,Y)+Cov(X2,Y)Cov(X_1+X_2,Y)=Cov(X_1, Y)+Cov(X_2,Y)

  • 数乘:

    Cov(aX+c,bY+d)=abCov(X,Y)Cov(aX+c,bY+d)=abCov(X, Y)

独立与不相关

  • 独立必不相关:
    根据刚才的性质:

    Cov(X,Y)=E(XY)E(X)E(Y)Cov(X,Y)=E(XY)-E(X)E(Y)

    如果 X、Y 独立,则有:

    E(XY)=E(X)E(Y)    Cov(X,Y)=0E(XY)=E(X)E(Y)\implies Cov(X,Y)=0

    所以:

    独立、implies不相关独立、implies 不相关

  • 不相关不能推出独立:
    不相关只能说明 X、Y 之间没有正相关规律,也没有负相关规律,但可能还有很多别的规律,所以:

    不相关、/ 独立不相关、\mathrel{\rlap{\hskip .5em/}}\Longrightarrow\ 独立

相关系数

对于二维随机变量(X,Y)(X,Y),各自的方差为:

Var(X)=σX2,Var(Y)=σY2Var(X)=\sigma^2_X,\quad Var(Y)=\sigma^2_Y

则:

ρXY=Cov(X,Y)σXσY\rho_{XY}=\frac{Cov(X,Y)}{\sigma_X\sigma_Y}

称为随机变量XXYY的相关系数。

对于任意的二维随机变量(X,Y)(X,Y),若相关系数存在,则:

1ρXY1-1\le\rho_{XY}\le 1

有界性让比较有了一个范围,我们可以得到如下结论:

  • ρ>0\rho > 0:正相关,且ρ=1\rho=1的时候,正相关性最大,称为完全正相关。
  • ρ<0\rho < 0:负相关,且ρ=1\rho=-1的时候,负相关性最大,称为完全负相关。
  • ρ=0\rho = 0:不相关。

二维正态分布

如果二维随机变量(X,Y)(X,Y)的联合概率密度函数为:

p(x,y)=12πσ1σ21ρ2exp{12(1ρ2)[(xμ1)2σ122ρ(xμ1)(yμ2)σ1σ2+(yμ2)2σ22]}\begin{aligned} p(x, y)= & \frac{1}{2 \pi \sigma_{1} \sigma_{2} \sqrt{1-\rho^{2}}} \exp \left\{-\frac{1}{2\left(1-\rho^{2}\right)}\left[\frac{\left(x-\mu_{1}\right)^{2}}{\sigma_{1}^{2}}\right.\right.\\ &-\frac{2 \rho\left(x-\mu_{1}\right)\left(y-\mu_{2}\right)}{\sigma_{1} \sigma_{2}}+\frac{\left(y-\mu_{2}\right)^{2}}{\sigma_{2}^{2}} ] \} \end{aligned}

则称(X,Y)(X,Y)服从二维正态分布,记作:

(X,Y)N(μ1,μ2,σ12,σ22,ρ)(X,Y)\sim N(\mu_1,\mu_2,\sigma_1^2,\sigma_2^2,\rho)

它含有五个参数μ1μ2σ12σ22\mu_1,\mu_2,\sigma_1^2,\sigma_2^2ρ\rho,取值范围分别为:

<μ1<,<μ2<,σ1>0,σ2>0,1ρ1-\infty<\mu_{1}<\infty,-\infty<\mu_{2}<\infty, \sigma_{1}>0, \sigma_{2}>0,-1 \leqslant \rho \leqslant 1

并且μ1μ2\mu_1,\mu_2分别是XYX、Y的期望;σ12σ22\sigma_1^2,\sigma_2^2分别是XYX、Y的方差;ρ\rhoXYX、Y的相关系数。

大数定律及中心极限定理

大数定律

伯努利大数定律

整个概率论的得以存在的基础是,其所研究的随机现象虽然结果不确定,但又有规律可循。这个基础在概率论中被称为大数定律(Law of large numbers)。大数定律是一系列的定律,先来介绍伯努利大数定律:

nAn_Ann次重复独立实验中事件AA发生的次数,pp是事件AA在每次实验中发生的概率,则对于任意正数ϵ>0\epsilon > 0,有:

limnP(nAnp<ϵ)=1\lim_{n\to \infty}P\left(\left|\frac{n_\text{A}}{n}-p\right| < \epsilon \right) = 1

或:

limnP(nAnpϵ)=0\lim_{n\to \infty}P\left(\left|\frac{n_\text{A}}{n}-p\right| \ge \epsilon \right) = 0

这里需要注意不能直接用:

limnnHn=p\lim_{n\to \infty}\frac{n_\text{H}}{n}=p

而必须在外面套上一个概率函数,nHn\frac{n_\text{H}}{n}并不是一个数列,而是随机变量。因此它不具备进行极限运算的前提。

依概率收敛

因为nHn\frac{n_\text{H}}{n}是随机变量,所以要表示它和pp接近,只能表示为事件:

“频率Pn越来越接近概率p={nHnp<ϵ}“频率 P_n 越来越接近概率 p”=\Big\{\left|\frac{n_\text{H}}{n}-p\right| < \epsilon\Big\}

然后套上概率函数PP,对该函数求nn趋于无穷时的极限:

limnP(nHnp<ϵ)=1\lim_{n\to \infty}P\left(\left|\frac{n_\text{H}}{n}-p\right| < \epsilon \right) = 1

这个极限同样表达了“随着nn的增大,频率PnP_n会越来越接近概率pp”的意思,但是因为套上了概率函数,所以也称为PnP_n依概率收敛于pp,记作:

nHnPp,n\frac{n_\text{H}}{n}\xrightarrow{\quad P \quad}p,\quad n\to\infty

辛钦大数定律

伯努利大数定律局限于伯努利分布,下面介绍辛钦大数定律就没有这个限制,只是要求遵循相同的分布:
设有随机变量:

X1,X2,,XnX_1,X_2,\cdots,X_n

这些随机变量相互独立,服从同一分布,且具有相同的数学期望:

E(Xi)=μ,i=1,2,,nE(X_i)=\mu,\quad i=1,2,\cdots,n

令:

X=X1+X2++Xnn\overline{X}=\frac{X_1+X_2+\cdots+X_n}{n}

则对于任意ϵ>0\epsilon > 0有:

limnP(Xμ<ϵ)=1\lim_{n\to \infty}P\left(\left|\overline{X}-\mu\right| < \epsilon \right) = 1

或:

limnP(Xμϵ)=0\lim_{n\to \infty}P\left(\left|\overline{X}-\mu\right| \ge \epsilon \right) = 0

也可以表述为:

XPμ,n\overline{X}\xrightarrow{\quad P \quad}\mu,\quad n\to\infty

切比雪夫大数定律

相同的分布也算比较严格的限制,下面介绍切比雪夫大数定律对于分布就更加宽松,只要各自的方差有共同上界即可:
设有随机变量:

X1,X2,,XnX_1,X_2,\cdots,X_n

这些随机变量两两不相关,若每个随机变量XiX_i的方差存在,且有共同的上界,即:

Var(Xi)c,i=1,2,,nVar(X_i)\le c,\quad i=1,2,\cdots,n

令:

X=X1+X2++Xnn,μ=E(X)\overline{X}=\frac{X_1+X_2+\cdots+X_n}{n},\quad \mu=E(\overline{X})

则对于任意ϵ>0\epsilon > 0有:

limnP(Xμ<ϵ)=1\lim_{n\to \infty}P\left(\left|\overline{X}-\mu\right| < \epsilon \right) = 1

或:

limnP(Xμϵ)=0\lim_{n\to \infty}P\left(\left|\overline{X}-\mu\right| \ge \epsilon \right) = 0

也可以表述为:

XPμ,n\overline{X}\xrightarrow{\quad P \quad}\mu,\quad n\to\infty

总结

这里总共介绍了三个大数定律,主要区别如下:

\begin{array}{c|c} \hline \quad \quad &\quad 分布、quad&\quad 独立性、quad&\quad 方差、quad\\ \hline \\ \quad 伯努利大数、quad & \quad 伯努利分布、quad & \quad 独立、quad & \quad 无要求、quad\\ 辛钦大数 & 同分布 & 独立 & 无要求 \\ 切比雪夫大数 & 无要求 & 不相关 & 同上界、\ \\ \hline \end{array}

强大数定律

前面介绍的大数定律又称为弱大数定律(Weak Law of large numbers),有弱就自然就有强,下面就来介绍强大数定律(Strong Law of large numbers):
设有随机变量:

X1,X2,,XnX_1,X_2,\cdots,X_n

这些随机变量相互独立,服从同一分布,且具有相同的数学期望:

E(Xi)=μ,i=1,2,,nE(X_i)=\mu,\quad i=1,2,\cdots,n

令:

X=X1+X2++Xnn\overline{X}=\frac{X_1+X_2+\cdots+X_n}{n}

则对于任意ϵ>0\epsilon > 0有:

P(limnXμ<ϵ)=1P\left(\lim_{n\to \infty}\left|\overline{X}-\mu\right| < \epsilon \right) = 1

或:

P(limnXμϵ)=0P\left(\lim_{n\to \infty}\left|\overline{X}-\mu\right| \ge \epsilon \right) = 0

这个强大数定律和之前的辛钦大数定律非常接近:

  • 弱大数定律(辛钦大数定律),极限符号在 P 函数外面:

limnP(Xμ<ϵ)=1\lim_{n\to \infty}P\left(\left|\overline{X}-\mu\right| < \epsilon \right) = 1

  • 强大数定律,极限符号在 P 函数里面:

P(limnXμ<ϵ)=1P\left(\lim_{n\to \infty}\left|\overline{X}-\mu\right| < \epsilon \right) = 1

仔细体会这两则之间的区别^ _ ^。

中心极限定理

棣莫弗-拉普拉斯定理

设随机变量Xb(n,p)X\sim b(n,p),则对任意 x 有:

limnP(Xnpnp(1p)x)=Φ(x)=12πxet22dt\lim_{n\to\infty}P\left(\frac{X-np}{\sqrt{np(1-p)}}\le x\right)=\Phi(x)=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^{x}e^{-\frac{t^2}{2}}\mathrm{d}t

林德伯格-莱维定理

设随机变量:

Xi,i=1,2,,nX_i,\quad i=1,2,\cdots,n

相互独立,服从同一分布,且有相同的数学期望和方差:

E(Xi)=μ,Var(Xi)=σ2E(X_i)=\mu,\quad Var(X_i)=\sigma^2

则随机变量:

Y=X1+X2++XnnμσnY=\frac{X_1+X_2+\cdots+X_n-n\mu}{\sigma\sqrt{n}}

对于任意实数yy有:

limnFY(y)=limnP(Yy)=Φ(y)=12πyet22dt\lim_{n\to\infty}F_Y(y)=\lim_{n\to\infty}P(Y\le y)=\Phi(y)=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^{y}e^{-\frac{t^2}{2}}\mathrm{d}t

参考文献

《马同学的概率论与数理统计》
感兴趣的可以购买他的课程,写的很好(强烈推荐)!!!

[[ANovelCameraPathPlanningAlgorithmForRealTimeVideoStabilization]]
[[DigitalVideoStabilizationAndRollingShutterCorrectionUsingGyroscope]]
[[GyroscopeBasedNonlinearFilterForVideoStabilization]]
[[HybridMotionEstimationForVideoStabilizationBasedOnIMUSensor]]
[[NonlinearAnalysisAndControlOf3DInvertedPendulumBasedOnCounterwheelAction]]
[[ProbabilityTheoryandMathematicalStatistics]]