概率论与数理统计
概率论基本概念
概率的派别
对于概率的定义有几个主流的派别:
频率派: 频率派认为如果频率存在稳定性,即当\(n\to\infty\)时下面极限存在(下面这个写法只是示意,后面介绍大数定律的时候会给出严格的定义),就得到了概率(用 Probability 的首字母 P 来表示): \[ P(正面)=\lim_{n\to\infty}P_{n}(正面) \]
古典派: 如果因为无知,使得我们没有办法判断哪一个结果会比另外一个结果更容易出现,那么应该给予它们相同的概率,此称为不充分理由原则(Insufficient Reason Principle)。以不充分理由原则为基础,经由拉普拉斯:之手,确立了古典概率的定义,即: 未知的概率都为等概率
主观派: 最后介绍下主观派,主观派认为概率是信念强度(degree of belief)。比如说,我个人相信 20 年后人类从网络时代进入人工智能时代的概率为 70%.
三个流派大概有以下的区别: \[ \begin{array}{c|c} \hline \quad\quad&\quad\color{orange}{频率派}\quad&\quad\color{blue}{古典派}\quad&\quad\color{ForestGreen}{主观派}\quad\\ \hline \\ \quad 理论基础 \quad&\quad 过往事实的归纳总结、quad&\quad 不充分理由原则、quad&\quad 知识和直觉、quad\\ \quad 概率定义 \quad&\quad 频率稳定性、quad&\quad 等概率、quad&\quad 信念强度、quad\\ \\\hline \end{array} \]
概率公理化
已知某样本空间\(\Omega\),对于其中任一事件\(A\),定义函数\(P\),满足以下三大公理:
非负性公理: \[ P(A)\ge 0 \]
规范性公理: \[ P(\Omega) = 1 \]
可加性公理: 设\(A_1、A_2、\cdots\)为两两不相容的事件,即\(A_i\cap A_j=\varnothing(i\ne j)\),有: \[ P(A_1\cup A_2\cup\cdots) = P(A_1)+P(A_2)+\cdots \]
则\(P\)称为概率函数,\(P(A)\)称为事件 A 的概率。
事件之间的运算和关系
并运算: 对于事件\(A、B\),并运算定义为(\(\equiv\)表示定义): \[ A\cup B\equiv\{x|x\in A\ 或 \ x\in B\} \]
交运算: 对于事件\(A、B\),交运算定义为: \[ A\cap B\equiv\{x|x\in A\ 且 \ x\in B\} \]
差运算: 对于事件\(A、B\),定义差运算为: \[ A-B\equiv\{x|x\in A\quad 且、quad x\notin B\} \]
补运算: 对于事件 A、B,如果: \[ A=\Omega-B \] 则称 B 为 A 的补,记作(其中 c 代表 Complement): \[ B=\overline{A}\quad 或、quad B=A^c \]
基本运算的性质: \[ \begin{array}{c|c|c} \hline \quad\quad&\quad 类比、quad&\quad 改写 \quad\\ \hline \\ \quad 并 \quad&\quad +\quad&\quad A\cup B=A+B \quad\\ \quad 交 \quad&\quad \times\quad&\quad A\cap B=AB \quad\\ \quad 差 \quad&\quad -\quad&\quad A-B \quad\\ \\ \hline \end{array} \]
德摩根定律: \[ \overline{A\cup B}=\overline{A}\cap\overline{B} \] = $$
小结: \[ \begin{array}{c|c|c} \hline \quad\quad&\quad 定义、quad&\quad 类比、quad\\ \hline \\ \quad 并 \quad&\quad A\cup B=\{x|x\in A\ 或 \ x\in B\}\quad&\quad +\quad\\ \quad 交 \quad&\quad A\cap B=\{x|x\in A\ 且 \ x\in B\}\quad&\quad \times\quad\\ \quad 差 \quad&\quad A-B=\{x|x\in A\ 且、x\notin B\}\quad&\quad -\quad\\ \quad 补 \quad&\quad \overline{A}=B\iff B=\Omega - A\\ \\ \hline \end{array} \]
事件之间的关系:
\[ 事件之间的关系= \begin{cases} 包含、\ 相等、\ 不相容、\ 对立 \end{cases} \]
条件概率
设 A 和 B 是样本空间\(\Omega\)中的两事件,若\(P(B) > 0\),则称:
\[ P(A|B)=\frac{P(A\cap B)}{P(B)} \]
为“假设条件为 B 时的 A 的概率”,简称条件概率。也常写作:
\[ P(A|B)=\frac{P(AB)}{P(B)} \]
乘法公式
若\(P(B) > 0\),则: \[ P(AB)=P(\color{Orange}{B})P(A|\color{Orange}{B}) \]
若\(P(A) > 0\),则: \[ P(AB)=P(\color{Magenta}{A})P(B|\color{Magenta}{A}) \]
若\(P(A_1\cdots A_n) > 0\),则: \[ P(A_1\cdots A_n)=P(A_1)P(A_2|A_1)P(A_3|A_1A_2)\cdots P(A_n|A_1\cdots A_{n-1}) \]
63 4、 贝叶斯与全概率 对于同一样本空间\(\Omega\)中的随机事件\(A、B\),若\(P(B) \ne 0\),有: \[ P(A|B)=\frac{P(A)}{P(B)}P(B|A) \]
设\(A_1、A_2、\cdots、A_n\)满足: \[ A_i\cap A_j=\varnothing , (i\ne j)\quad 且、quad P(\bigcup_{i=1}^{n}A_i)=1 \]
若\(P(A_i) > 0,i=1,2,\cdots,n\),则对任意事件\(B\)有: \[ P(B)=\sum_{i=1}^{n}P(A_i)P(B|A_i) \]
有了全概率公式后,可以得到贝叶斯定理真正的样子: 设\(A_1、A_2、\cdots、A_n\)为样本空间\(\Omega\)的一个分割,则有: \[ \begin{aligned} P(A_i|B) &=\frac{P(BA_i)}{P(B)}\\ \\ &=\frac{P(B|A_i)}{P(B)}P(A_i)\\ \\ &=\frac{P(B|A_i)}{\displaystyle\sum_{i=1}^{n}P(A_i)P(B|A_i)}P(A_i) \end{aligned} \]
也就是把\(P(B)\)分解到分割\(A_1、A_2、\cdots、A_n\)上去了。
独立事件
对于两个随机事件\(A、B\),如果满足: \[ P(AB)=P(A)P(B) \]
则称 A 与 B 相互独立,或简称 A 与 B 独立,否则称 A 与 B 不独立或相依。
设\(A_1、A_2、\cdots\)为有限个或者无限个事件,从中任取两个\(A_{i1}、A_{i2}\),若满足: \[ P(A_{i1}A_{i2})=P(A_{i1})P(A_{i2}) \]
则称\(A_1、A_2、\cdots\)是两两独立。
若从中任取有限个\(A_{j1}、A_{j2}、\cdots、A_{jm}\),若满足: \[ P(A_{j1}A_{j2}\cdots A_{jm})=P(A_{j1})P(A_{j2})\cdots P(A_{jm}) \]
则称\(A_1、A_2、\cdots\)是相互独立。
随机变量及其分布
随机变量
定义在样本空间\(\Omega\)上的实值函数: \[ X=X(\omega),\quad \omega\in\Omega \]
称为随机变量。随机变量是一个函数,所以都用大写字母来表示,以示和自变量 x 的区别。
二项分布
概率质量函数
如果\(p(x)\)满足\((x\in \{x_i\},i=1,2,\cdots)\):
非负性: \[ p(x_i) \ge 0 \]
规范性: \[ \sum_{i=1}^{\infty}p(x_i)=1 \]
则称其为概率质量函数(PMF)。
伯努利分布
某样本空间只包含两个元素,\(\Omega=\{\omega_1,\omega_2\}\),在其上定义随机变量\(X\): \[ X=X(\omega)= \begin{cases} 1,&\omega=\omega_1\\ 0,&\omega=\omega_2 \end{cases} \]
若\(0\le p\le 1\)时,有:
\[ p(1)=P(X=1)=p \]
\[ p(0)=P(X=0)=1-p \]
或写作:
\[ P(X=x)=p(x)= \begin{cases} p,&x=1\\ 1-p,&x=0 \end{cases} \]
则此概率分布称作 0-1 分布,也称作伯努利分布。
在数学中,类似于扔一次硬币这样的“是非题”称为一次伯努利试验,像上面这样独立地重复扔 n 次硬币(做同样的“是非题”n 次),就称为 n 重伯努利试验。
二项分布
对于 n 重伯努利实验,如果每次得到“是”的概率为 p,设随机变量: \[ X=得到“是”的次数 \]
则称: \[ p(k)=P(X=k)={n\choose k}p^k(1-p)^{n-k},\quad k=0,1,\cdots,n \]
为随机变量 X 的二项分布,也可以记作: \[ X\sim b(n,p) \]
当 n=1 的时候,对应的就是伯努利分布,所以伯努利分布也可以记作\(b(1,p)\)。
离散的累积分布函数
设\(X\)是一个随机变量,\(x\)是任意实数,函数: \[ F(x)=P(X \le x)=\sum_{a\le x}p(a) \]
因为是把概率质量函数累加起来,所以称为累积分布函数(Cumulative Distribution Function,或者缩写为 CDF),也简称为分布函数。
离散的数学期望 设离散随机变量\(X\)的概率质量函数为: \[ p(x_i)=P(X=x_i),i=1,2,\cdots,n,\cdots \]
如果: \[ \sum_{i=1}^{\infty}|x_i|p(x_i) < \infty \] 则称: \[ E(X)=\sum_{i=1}^{\infty}x_ip(x_i) \]
为随机变量 X 的数学期望(expected value,或,expectation),简称期望或均值(mean),也有很多文档会用\(\mu_X\)来表示(如果不强调随机变量的话,也可以直接用\(\mu\)来表示): \[ \mu_X=\mu=\sum_{i=1}^{\infty}x_ip(x_i) \]
若级数\(\sum_{i=1}^{\infty}|x_i|p(x_i)\)不收敛,则称\(X\)的数学期望不存在。
学期望也称作矩。更准确点说,由于数学期望: \[ E(X)=\sum_{i=1}^{\infty}x_ip(x_i) \] 中\(x_i\)是一次项,所以又称作一阶矩。这个称呼经常在统计的书上会遇到,特在此说明。
数学期望的性质
复合: 假设\(g(X)\)为随机变量\(X\)的某一函数,则: \[ E\left[g(X)\right]=\sum_i g(x_i)p(x_i) \]
常数: 若 c 为常数,则: \[ E(c)=c \]
- 线性组合: 数学期望满足:
- 齐次性,对于任意常数\(a\)有: \[ E(aX)=aE(X) \]
- 可加性,对于随机变量的函数\(g_1(X)、g_2(X)\)有: \[ E\left[g_1(X)+g_2(X)\right]=E\left[g_1(X)\right]+E\left[g_2(X)\right] \]
伯努利分布和二项分布的期望分别如下: \[ \begin{array}{c|c} &\qquad 伯努利分布、qquad&\qquad 二项分布、qquad\\ \hline\\ \ PMF\ & p(x)=\begin{cases}p,&x=1\\1-p,&x=0\end{cases} & p(x)={n\choose x}p^x(1-p)^{n-x}\\\\ \hline \\ \quad \mu\quad& p & np \\ \end{array} \]
方差与标准差
方差
代数式: \[ Var(X)=E\left[\Big(X-E(X)\Big)^2\right] \] 称为随机变量 X 的方差(Variance),也可记作\(\sigma^2\)或者\(\sigma_X^2\)。
方差的性质
化简: 可以通过下式来化简运算: \[ Var(X)=E\left(X^2\right)-\mu^2 \]
常数: 若 c 为常数,则: \[ Var(c)=0 \]
相加与数乘: 若 a、b 为常数,则: \[ Var(aX+b)=a^2Var(X) \]
标准差
假如随机变量\(X\)的方差为\(Var(X)\),则称:
\[ \sigma(X)=\sqrt{Var(X)} \] 为标准差,也可以记作\(\sigma\)或者\(\sigma_X\)。
二项分布的方差
\[ \begin{array}{c|c} &\qquad 伯努利分布、qquad&\qquad 二项分布、qquad\\ \hline \\ \ PMF\ & p(x)=\begin{cases}p,&x=1\\1-p,&x=0\end{cases} & p(x)={n\choose x}p^x(1-p)^{n-x}\\ \\ \hline \\ \quad \mu\quad& p & np \\ \\ \hline \\ \quad Var(X)\quad& p(1-p) & np(1-p) \\ \\ \end{array} \]
马尔可夫不等式
设\(X\)为取非负值的随机变量,则对于任何\(a > 0\),有: \[ P(X\ge a)\le \frac{E(X)}{a} \]
切比雪夫不等式
设\(X\)是一随机变量,均值\(\mu\)和方差\(\sigma^2\)有限,则对任何\(k > 0\)有: \[ P(|X-\mu| \ge k)\le \frac{\sigma^2}{k^2} \]
泊松分布
对于随机变量\(X\)的概率质量函数: \[ P(X=k)=\frac{\lambda^k}{k!}e^{-\lambda},\quad k=0,1,2,\cdots \] 称为随机变量\(X\)的泊松分布,也可以记为: \[ X\sim P(\lambda) \]
其数学期望和方差为:
\[ E(X)=\lambda,\quad Var(X)=\lambda \]
条件
更一般地,在某一段时间 T 内发生特定事件的次数,如果满足以下假设,都可以看作泊松分布:
- 平稳性:在此时间段 T 内,此事件发生的概率相同(在实际应用中大致相同就可以了)。
- 独立性:事件的发生彼此之间独立(或者说,关联性很弱)。
- 普通性:把 T 切分成足够小的区间、Delta T,在、Delta T 内恰好发生两个、或多个事件的可能性为 0(或者说,几乎为 0)。
泊松分布是二项分布的极限: \[ \lim_{n\to\infty}{n\choose k}\left(\frac{\mu}{n}\right)^k\left(1-\frac{\mu}{n}\right)^{n-k}=\frac{\mu^k}{k!}e^{-\mu} \]
所以在泊松分布的\(\lambda\)固定的情况,二项分布的 n 越大(对应的\(p=\frac{\lambda}{n}\)越小),此时两者会非常接近。
重要的离散分部
几何分布
对于 n 重伯努利实验,如果每次得到“是”的概率为 p,设随机变量: \[ X=首次得到“是”时进行的试验次数 \]
则称: \[ p(k)=P(X=k)=(1-p)^{k-1}p,\quad k=1,2,\cdots \]
为随机变量 X 的几何分布,也可以记作: \[ X\sim Ge(p) \]
其数学期望和方差为: \[ E(X)=\frac{1}{p},\quad Var(X)=\frac{1-p}{p^2} \]
负二项分布
对于 n 重伯努利实验,如果每次得到“是”的概率为 p,设随机变量: \[ X=第 r 次“是”发生时的实验次数 \]
则称: \[ p(k)=P(X=k)={k-1\choose r-1}p^r(1-p)^{k-r},k=r,r+1,\cdots \]
为随机变量 X 的负二项分布,也称为帕斯卡分布,也可以记作: \[ X\sim Nb(r,p) \]
其数学期望为: \[ E(X)=\frac{r}{p},\quad Var(X)=\frac{r(1-p)}{p^2} \]
负二项分布与几何分布
几何是负二项的特例 : 负二项分布是这样的: \[ p(k)=P(X=k)={k-1\choose r-1}p^r(1-p)^{k-r},k=r,r+1,\cdots \] r=1 的时候,就得到了几何分布: \[ p(k)=P(X=k)=(1-p)^{k-1}p,\quad k=1,2,\cdots \]
负二项是几何的和: 参数为 r、p 的负二项分布可以表示为如下事件序列: 图中所示的每一段\(X_1、X_2、\cdots、X_r\)都是几何分布,所以有: \[ X=X_1+X_2+\cdots+X_r\sim Nb(r,p) \] 所以负二项分布的期望为: \[ E(X)=E(X_1)+E(X_2)+\cdots+E(X_r)=\frac{r}{p} \]
超几何分布
设有 N 件产品,其中有 M 件不合格品,随机抽取 n 件产品,则其中含有 m 件不合格产品的概率为多少? 假设随机变量: \[ X=随机抽取的 n 件中有 m 件不合格品 \] 这个随机变量的概率可以用古典概率来求,首先,样本空间就是从 N 件中随便抽取 n 件,所以:
\[ |\Omega| = {N\choose n} \]
然后有 m 件从不合格品中抽取,剩下的在合格品中抽取,则有:
\[ |X| = {M\choose m}{N-M\choose n-m} \]
所求概率即为:
\[ P(X=m)=\frac{\left(\begin{array}{c} M \\ m \end{array}\right)\left(\begin{array}{c} N-M \\ n-m \end{array}\right)}{\left(\begin{array}{c} N \\ n \end{array}\right)}, m=0,1, \cdots, r \]
其中\(r=min(M,n)\)。此时称 X 服从超几何分布,可以记作:
\[ X\sim h(n,N,M) \]
其数学期望和方差为: \[ E(X)=n\frac{M}{N},\quad Var(X)=n\frac{M}{N}\left(1-\frac{M}{N}\right)\left(1-\frac{n-1}{N-1}\right) \]
超几何分布与二项分布
超几何分布与二项分布类似,都是求抽取 n 次其中有 m 次“是”的概率,只是:
- 二项分布:相当于抽取之后放回。
- 超几何分布:抽取之后不放回。
所以在超几何分布中,如果被抽取的总数 N 特别大,那么放回不放回区别也就不大了,此时,那么超几何分布可以近似看作二项分布。 这点从两者的期望、方差也可以看出来: \[ \begin{array}{c|c} &\qquad 二项分布、qquad&\qquad 超几何分布、qquad\\ \hline \\ \quad \mu\quad& np & n\frac{M}{N} \\ \\ \hline \\ \quad \sigma^2\quad& np(1-p) & n\frac{M}{N}\left(1-\frac{M}{N}\right)\left(1-\frac{n-1}{N-1}\right)\\ \\ \end{array} \] 令\(p=\frac{M}{N}\),超几何分布的期望和方差可以写作: \[ \mu=n\frac{M}{N}=np \] ^2=n(1-)(1-)=np(1-p)(1-) $$
对超几何分布而言,当 N 足够大的时候,\(\frac{M}{N}\)可看作取出不合格产品的概率,那此时超几何分布可看作二项分布。
总结
\[ \begin{array}{c|c} \hline \\ \quad 伯努利分布、quad&\quad 抛硬币,二选一 \quad\\ \quad 二项分布、quad&\quad n 重伯努利,出现 k 次“是” \quad\\ \quad 泊松分布、quad&\quad 二项分布的极限 \quad\\ \quad 几何分布、quad&\quad n 重伯努利,第 k 次首次出现“是” \quad\\ \quad 负二项分布、quad&\quad 几何分布的和 \quad\\ \quad 超几何分布、quad&\quad 不放回抽样的二项分布 \quad\\ \\ \hline \end{array} \]
概率密度函数
概率密度函数
如果函数\(p(x)\)满足下列两个条件(对应了概率的三大公理):
非负性: \[ p(x) \ge 0 \]
规范性(暗含了可加性),因为是连续的,所以通过积分相加: \[ \int_{-\infty}^{+\infty}p(x)\mathrm{d}x=1 \]
则称其为概率密度函数(Probability Density Function,简写为 PDF)。
期望
离散随机变量的期望定义为: \[ E(X)=\sum_{i=1}^{\infty}x_ip(x_i) \]
可以用类似的方法定义连续随机变量的期望,当然期望的意义是没有改变的: \[ E(X)=\int_{-\infty}^{+\infty}xp(x)\mathrm{d}x \] 关于期望的几个性质也是成立的:
复合: 假设\(g(X)\)为连续随机变量\(X\)的某一函数,则: \[ E\left[g(X)\right]=\int_{-\infty}^{+\infty}g(x)p(x)\mathrm{d}x \]
常数: 若 c 为常数,则: \[ E(c)=c \]
- 线性: 数学期望满足:
- 齐次性,对于任意常数 a 有: \[ E(aX)=aE(X) \]
- 可加性,对于任意两个函数\(g_1(X)、g_2(X)\)有: \[ E\left[g_1(X)+g_2(X)\right]=E\left[g_1(X)\right]+E\left[g_2(X)\right] \]
方差
方差的定义依然是: \[ Var(X)=E\left[\Big(X-E(X)\Big)^2\right] \]
相关的性质也是成立的:
化简: 可以通过下式来化简运算: \[ Var(X)=E\left(X^2\right)-\mu^2 \]
常数: 若 c 为常数,则: \[ Var(c)=0 \]
相加与数乘: 若 a、b 为常数,则: \[ Var(aX+b)=a^2Var(X) \]
累积分布函数
连续随机变量\(X\)的概率密度函数为\(p(x)\),则: \[ F(x)=P(X \le x)=\int_{-\infty}^{x}p(t)\mathrm{d}t \] 称为\(X\)的累积分布函数。
正态分布
正态分布
如果连续随机变量\(X\)的概率密度函数为: \[ p(x)=\frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{(x-\mu)^2}{2\sigma^2}},\quad -\infty < x < +\infty \]
则称\(X\)服从正态分布(normal distribution),也称作高斯分布(Gaussian distribution),记作\(X\sim N(\mu,\sigma^2)\),其累积分布函数为: \[ F(x)=\frac{1}{\sigma\sqrt{2\pi}}\int_{-\infty}^{x}e^{-\frac{(t-\mu)^2}{2\sigma^2}}\mathrm{d}t \]
我们称\(\mu=0、\sigma=1\)时的正态分布\(N(0,1)\)为标准正态分布。
期望与方差
正态分布\(X\sim N(\mu,\sigma^2)\)的期望和方差为: \[ E(X)=\mu,\quad Var(X)=\sigma^2 \]
指数分布
若随机变量\(X\)的概率密度函数为: \[ p(x)=\begin{cases} \lambda e^{-\lambda x}, & x \ge 0\\ 0,& x < 0 \end{cases} \]
其中\(\lambda > 0\),称\(X\)服从指数分布,也可以记为: \[ X\sim Exp(\lambda) \]
累积分布函数为: \[ F(x)=\begin{cases} 1-e^{-\lambda x}, & x \ge 0\\ 0,& x < 0 \end{cases} \]
指数分布\(X\sim Exp(\lambda)\)的期望和方差为: \[ E(X)=\frac{1}{\lambda},\quad Var(X)=\frac{1}{\lambda^2} \]
总结
首先是一维离散随机变量的概率分布:
\[ \begin{array}{c|c} \hline \\ \quad 伯努利分布、quad&\quad 抛硬币,二选一 \quad\\ \quad 二项分布、quad&\quad n 重伯努利,出现 k 次“是” \quad\\ \quad 泊松分布、quad&\quad 二项分布的极限 \quad\\ \quad 几何分布、quad&\quad n 重伯努利,第 k 次首次出现“是” \quad\\ \quad 负二项分布、quad&\quad 几何分布的和 \quad\\ \quad 超几何分布、quad&\quad 不放回抽样的二项分布 \quad\\ \\ \hline \end{array} \]
然后是一维连续随机变量的概率分布:
\[ \begin{array}{c|c} \hline \\ \quad 均匀分布、quad&\quad 古典派中的几何概型 \quad\\ \quad 正态分布、quad&\quad 二项分布的另外一种极限 \quad\\ \quad 指数分布、quad&\quad 泊松分布的间隔,连续的几何分布 \quad\\ \\ \hline \end{array} \]
多维随机变量及其分布
多维随机变量及其分布
联合概率质量函数
如果二维随机向量\((X,Y)\)所有可能的取值为\((x_i,y_j),i,j=1,2,\cdots\),这两个随机变量同时发生的概率可以用函数表示如下: \[ p_{ij}=P(X=x_i,Y=y_j)=P(X=x_i\ \color{red}{且}\ Y=y_j),\quad i,j=1,2,\cdots \]
且此函数满足如下性质(即概率的三大公理):
非负性: \[ p_{ij}\ge 0 \]
规范性和可加性: \[ \sum_{i=1}^{\infty}\sum_{j=1}^{\infty}p_{ij}=1 \]
则称此函数为\((X,Y)\)的联合概率质量函数(Joint Probability Mass Function),或者称为联合分布列,此定义可以推广到多维离散随机变量上去。
联合概率密度函数
对于某二维随机变量\((X,Y)\)存在二元函数\(p(x,y)\)满足:
非负性: \[ p(x,y)\ge 0 \]
规范性和可加性(连续的都通过积分来相加): \[ \int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}p(x,y)\mathrm{d}x\mathrm{d}y=1 \]
则称此函数为\((X,Y)\)的联合概率密度函数(Joint Probability Density Function),此定义可以推广到多维连续随机变量上去。
联合累积分布函数
设\((X,Y)\)是二维随机变量,对于任意实数\(x、y\),可以定义一个二元函数来表示两个事件同时发生的概率: \[ F(x,y)=P\Big(\{X\le x\}\ \color{red}{且}\ \{Y\le y\}\Big)=P(X\le x, Y\le y) \]
称为二维随机变量\((X,Y)\)的联合累积分布函数(Joint Cumulative Distribution Function),如果混合偏导存在的话,那么:
\[ \frac{\partial F(x,y)}{\partial x \partial y}=p(x,y) \]
得到\(p(x,y)\)就是此分布的概率密度函数。此定义和性质可以推广到多维随机变量。
多维均匀分布
设\(D\)为\(R^n\)中的一个有界区域,其度量(直线为长度,平面为面积,空间为体积等)为\(S_D\),如果多维随机变量\((X_1,X_2,\cdots,X_n)\)的联合概率密度函数为: \[ p(x_1,x_2,\cdots,x_n)= \begin{cases} \frac{1}{S_D},&(x_1,x_2,\cdots,x_n)\in D\\ 0,&其它 \end{cases} \] 则称\((X_1,X_2,\cdots,X_n)\)服从\(D\)上的多维均匀分布,记作:
\[ (X_1,X_2,\cdots,X_n)\sim U(D) \]
边缘分布与随机变量的独立性
边缘概率质量函数
如果二维离散随机变量\((X,Y)\)的联合概率质量函数为: \[ P(X=x_i,Y=y_j),i,j=1,2,\cdots \]
对\(j\)求和所得的函数:
\[ \sum_{j=1}^{\infty}P(X=x_i,Y=y_j)=P(X=x_i) \]
称为\(X\)的边缘概率质量函数(Marginal Probability Mass Function),或者称为边缘分布列。类似的对 i 求和所得的函数: \[ \sum_{i=1}^{\infty}P(X=x_i,Y=y_j)=P(Y=y_j) \]
称为\(Y\)的边缘概率质量函数。
边缘概率密度函数
如果二维连续随机变量\((X,Y)\)的联合概率密度函数为\(p(x,y)\),则: \[ p_X(x)=\int_{-\infty}^{+\infty}p(x,y)\mathrm{d}y \]
称为\(X\)的边缘概率密度函数(Marginal Probability Density Function)。类似的: \[ p_Y(y)=\int_{-\infty}^{+\infty}p(x,y)\mathrm{d}x \]
称为 Y 的边缘概率密度函数。
边缘累积分布函数
如果二维连续随机变量\((X,Y)\)的联合累积分布函数为\(F(x,y)\),如下可以得到\(X\)的累积分布函数: \[ F_X(x)=\lim_{y\to+\infty}F(x,y)=P(X\le x,Y < +\infty)=P(X\le x) \]
称为\(X\)的边缘累积分布函数(Marginal Cumulative Distribution Function)。可记作: \[ F_X(x)=F(x,+\infty) \]
同理可以得到 Y 的边缘累积分布函数: \[ F_Y(y)=F(+\infty, y) \]
条件分布
离散的条件分布
设\((X,Y)\)是二维离散型随机变量,对于固定的\(j\),若\(P(Y=y_j)\ge 0\),则称: \[ P\left(X=x_{i} | Y=y_{j}\right)=\frac{P\left(X=x_{i}, Y=y_{j}\right)}{P\left(Y=y_{j}\right)}, i=1,2, \cdots \]
为\(Y=y_j\)条件下的随机变量\(X\)的条件概率质量函数。同样的对于固定的\(i\),若\(P(X=x_i)\ge 0\),则称: \[ P\left(Y=y_{j} | X=x_{i}\right)=\frac{P\left(X=x_{i}, Y=y_{j}\right)}{P\left(X=x_{i}\right)}, j=1,2, \cdots \]
为\(X=x_i\)条件下的随机变量\(Y\)的条件概率质量函数。
条件分布和条件概率没有什么区别,一样可以用于全概率公式、贝叶斯公式。
连续的条件分布
设二维连续型随机变量\((X,Y)\)的概率密度函数为\(p(x,y)\),若对于固定的\(y\)有边缘概率密度函数\(p_Y(y) > 0\),则: \[ p_{X|Y}(x\ |\ y)=\frac{p(x,y)}{p_Y(y)} \] 为\(Y=y\)条件下的随机变量\(X\)的条件概率密度函数。对应的条件累积分布函数为: \[ F_{X|Y}(x\ |\ y)=\int_{-\infty}^{x}\frac{p(u,y)}{p_Y(y)}\mathrm{d}u \]
同样的道理,以\(X=x\)为条件有: \[ p_{Y|X}(y\ |\ x)=\frac{p(x,y)}{p_X(x)} \] F_{Y|X}(y | x)=_{-}^{y}u $$
连续的全概率和贝叶斯
全概率: \[ p_{Y}(y)=\int_{-\infty}^{+\infty} p(y | x) p_{X}(x) \mathrm{d} x \] p_{X}(x)={-}^{+} p(x | y) p{Y}(y) y $$
贝叶斯: \[ \begin{aligned} p(x | y) &=\frac{p(y | x) p_{X}(x)}{p_{Y}(y)} \\ &=\frac{p(y | x) p_{X}(x)}{\int_{-\infty}^{+\infty} p(y | x) p_{X}(x) \mathrm{d} x} \end{aligned} \]
多维随机变量函数的分布
随机变量的和
离散: 设 X、Y 为两个相互独立的离散随机变量,取值范围为\(0,1,2,\cdots\),则其和的概率质量函数为: \[ P(X+Y=k)=\sum_{i=0}^{k}P(X=i)P(Y=k-i) \] 这个概率等式称为离散场合下的卷积公式。
连续: 设\((X,Y)\)为二维连续型随机变量,概率密度函数为\(p(x,y)\),则\(Z=X+Y\)仍为连续型随机变量,其概率密度为: \[ p_{X+Y}(z)=\int_{-\infty}^{+\infty}p(z-y,y)\mathrm{d}y=\int_{-\infty}^{+\infty}p(x,z-x)\mathrm{d}x \] 若\(X、Y\)为相互独立,其边缘密度函数分别为\(p_X(x)\)和\(p_Y(y)\),则其和\(Z=X+Y\)的概率密度函数为: \[ p_Z(z)=\int_{-\infty}^{+\infty}p_X(z-y)p_Y(y)\mathrm{d}y=\int_{-\infty}^{+\infty}p_X(x)p_Y(z-x)\mathrm{d}x \] 上面两个概率等式称为连续场合下的卷积公式。
随机变量的数字特征
数学期望
数学期望的定义
离散随机变量的数学期望定义为: \[ E(X)=\sum_{i=1}^{\infty}x_ip(x_i) \]
连续随机变量的数学期望定义为: \[ E(X)=\int_{-\infty}^{+\infty}xp(x)\mathrm{d}x \]
函数的数学期望
一维随机变量: 设\(Y\)是随机变量\(X\)的函数\(Y=g(X)\)(g 是连续函数)。
- 若\(X\)为离散随机变量,则(设下式中的级数绝对收敛): \[ E(Y)=E\left[g(X)\right]=\sum_i g(x_i)p(x_i) \]
- 若\(X\)为连续随机变量,则(设下式中的积分绝对收敛): \[ E(Y)=E\left[g(X)\right]=\int_{-\infty}^{+\infty}g(x)p(x)\mathrm{d}x \]
多维随机变量: 设\(Z\)是随机变量\((X,Y)\)的函数\(Z=g(X,Y)\)(g 是连续函数)。
- 若\((X,Y)\)为离散随机变量,则(设下式中的级数绝对收敛): \[ E(Z)=E\left[g(X,Y)\right]=\sum_j\sum_i g(x_i,y_j)p(x_i,y_j) \]
- 若\((X,Y)\)为连续随机变量,则(设下式中的积分绝对收敛): \[ E(Z)=E\left[g(X,Y)\right]=\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}g(x,y)p(x,y)\mathrm{d}x\mathrm{d}y \]
线性的数学期望
数学期望满足:
齐次性,对于任意常数 a 有: \[ E(aX)=aE(X) \]
可加性,对于任意两个函数\(g_1(X)、g_2(X)\)有: \[ E\left[g_1(X)+g_2(X)\right]=E\left[g_1(X)\right]+E\left[g_2(X)\right] \]
对于多维也成立: \[ E(X+Y)=E(X)+E(Y) \] E(X_1+X_2++X_n)=E(X_1)+E(X_2)++E(X_n) $$
施瓦茨不等式
对任意随机变量\(X\)与\(Y\)都有: \[ \Big[E(XY)\Big]^2 \le E(X^2)E(Y^2) \]
独立的数学期望
设\((X,Y)\)为二维独立随机变量,则有: \[ E(XY)=E(X)E(Y) \] 这个结论可以推广到 n 维独立随机变量: \[ E\left(X_{1} X_{2} \cdots X_{n}\right)=E\left(X_{1}\right) E\left(X_{2}\right) \cdots E\left(X_{n}\right) \]
方差与标准差
方差与标准差的定义
方差定义为(因为直接通过数学期望定义的,所以没有区分离散和连续): \[ Var(X)=E\left[\Big(X-E(X)\Big)^2\right] \]
为了写的简单一点,也常常令\(E(X)=\mu\),那么上式可以改写为: \[ Var(X)=E\left[(X-\mu)^2\right] \]
之前也介绍过,由于方差里面含有平方,在实际应用中需要开平方才能保持单位一致,这就是标准差:
\[ \sigma(X)=\sqrt{Var(X)} \]
线性的方差
若\(a、b\)为常数,则: \[ Var(aX+b)=a^2Var(X) \]
独立的方差
设\((X,Y)\)为二维独立随机变量,则有: \[ Var(X\pm Y)=Var(X)+Var(Y) \]
这个结论可以推广到 n 维独立随机变量:
\[ Var\left(X_{1}\pm X_{2}\pm \cdots\pm X_{n}\right)=Var\left(X_{1}\right) +Var\left(X_{2}\right)+\cdots+Var\left(X_{n}\right) \]
协方差
协方差的定义
设\((X,Y)\)是一个二维随机变量,若\(E\Big[(X-\mu_X)(Y-\mu_Y)\Big]\)存在,则称此数学期望为\(X\)与\(Y\)的协方差(Covariance),记作: \[ Cov(X,Y)=E\Big[(X-\mu_X)(Y-\mu_Y)\Big] \]
特别地有\(Cov(X,X)=Var(X)\)。
很显然会有:
- \(Cov(X,Y) > 0\)时,\(X、Y\)正相关,即两者有同时增加或者减少的倾向。
- \(Cov(X,Y) < 0\)时,\(X、Y\)负相关,即两者有反向增加或者减少的倾向。
- \(Cov(X,Y) = 0\)时,\(X、Y\)不相关,不过和独立还是有区别的,这点我们后面再论述。
协方差的性质
化简: 可以通过下式来化简运算: \[ Cov(X,Y)=E(XY)-E(X)E(Y) \] 据此马上可以得到一个推论: \[ Cov(X,Y)=Cov(Y,X) \]
方差: 对于任意的二维随机变量\((X,Y)\)有: \[ Var(X+Y)=Var(X)+Var(Y)+2Cov(X,Y) \] Var(X-Y)=Var(X)+Var(Y)-2Cov(X,Y) \[ 所以当$(X,Y)$为二维不相关随机变量时,有: \] Var(XY)=Var(X)+Var(Y) $$
分配律: \[ Cov(X_1+X_2,Y)=Cov(X_1, Y)+Cov(X_2,Y) \]
数乘: \[ Cov(aX+c,bY+d)=abCov(X, Y) \]
独立与不相关
独立必不相关: 根据刚才的性质: \[ Cov(X,Y)=E(XY)-E(X)E(Y) \] 如果 X、Y 独立,则有: \[ E(XY)=E(X)E(Y)\implies Cov(X,Y)=0 \] 所以: \[ 独立、implies 不相关 \]
不相关不能推出独立: 不相关只能说明 X、Y 之间没有正相关规律,也没有负相关规律,但可能还有很多别的规律,所以: \[ 不相关、\mathrel{\rlap{\hskip .5em/}}\Longrightarrow\ 独立 \]
相关系数
对于二维随机变量\((X,Y)\),各自的方差为: \[ Var(X)=\sigma^2_X,\quad Var(Y)=\sigma^2_Y \] 则: \[ \rho_{XY}=\frac{Cov(X,Y)}{\sigma_X\sigma_Y} \] 称为随机变量\(X\)和\(Y\)的相关系数。
对于任意的二维随机变量\((X,Y)\),若相关系数存在,则: \[ -1\le\rho_{XY}\le 1 \]
有界性让比较有了一个范围,我们可以得到如下结论:
- \(\rho > 0\):正相关,且\(\rho=1\)的时候,正相关性最大,称为完全正相关。
- \(\rho < 0\):负相关,且\(\rho=-1\)的时候,负相关性最大,称为完全负相关。
- \(\rho = 0\):不相关。
二维正态分布
如果二维随机变量\((X,Y)\)的联合概率密度函数为: \[ \begin{aligned} p(x, y)= & \frac{1}{2 \pi \sigma_{1} \sigma_{2} \sqrt{1-\rho^{2}}} \exp \left\{-\frac{1}{2\left(1-\rho^{2}\right)}\left[\frac{\left(x-\mu_{1}\right)^{2}}{\sigma_{1}^{2}}\right.\right.\\ &-\frac{2 \rho\left(x-\mu_{1}\right)\left(y-\mu_{2}\right)}{\sigma_{1} \sigma_{2}}+\frac{\left(y-\mu_{2}\right)^{2}}{\sigma_{2}^{2}} ] \} \end{aligned} \]
则称\((X,Y)\)服从二维正态分布,记作: \[ (X,Y)\sim N(\mu_1,\mu_2,\sigma_1^2,\sigma_2^2,\rho) \]
它含有五个参数\(\mu_1,\mu_2,\sigma_1^2,\sigma_2^2\)和\(\rho\),取值范围分别为: \[ -\infty<\mu_{1}<\infty,-\infty<\mu_{2}<\infty, \sigma_{1}>0, \sigma_{2}>0,-1 \leqslant \rho \leqslant 1 \] 并且\(\mu_1,\mu_2\)分别是\(X、Y\)的期望;\(\sigma_1^2,\sigma_2^2\)分别是\(X、Y\)的方差;\(\rho\)是\(X、Y\)的相关系数。
大数定律及中心极限定理
大数定律
伯努利大数定律
整个概率论的得以存在的基础是,其所研究的随机现象虽然结果不确定,但又有规律可循。这个基础在概率论中被称为大数定律(Law of large numbers)。大数定律是一系列的定律,先来介绍伯努利大数定律:
设\(n_A\)是\(n\)次重复独立实验中事件\(A\)发生的次数,\(p\)是事件\(A\)在每次实验中发生的概率,则对于任意正数\(\epsilon > 0\),有: \[ \lim_{n\to \infty}P\left(\left|\frac{n_\text{A}}{n}-p\right| < \epsilon \right) = 1 \]
或: \[ \lim_{n\to \infty}P\left(\left|\frac{n_\text{A}}{n}-p\right| \ge \epsilon \right) = 0 \]
这里需要注意不能直接用: \[ \lim_{n\to \infty}\frac{n_\text{H}}{n}=p \] 而必须在外面套上一个概率函数,\(\frac{n_\text{H}}{n}\)并不是一个数列,而是随机变量。因此它不具备进行极限运算的前提。
依概率收敛
因为\(\frac{n_\text{H}}{n}\)是随机变量,所以要表示它和\(p\)接近,只能表示为事件: \[ “频率 P_n 越来越接近概率 p”=\Big\{\left|\frac{n_\text{H}}{n}-p\right| < \epsilon\Big\} \] 然后套上概率函数\(P\),对该函数求\(n\)趋于无穷时的极限: \[ \lim_{n\to \infty}P\left(\left|\frac{n_\text{H}}{n}-p\right| < \epsilon \right) = 1 \]
这个极限同样表达了“随着\(n\)的增大,频率\(P_n\)会越来越接近概率\(p\)”的意思,但是因为套上了概率函数,所以也称为\(P_n\)依概率收敛于\(p\),记作: \[ \frac{n_\text{H}}{n}\xrightarrow{\quad P \quad}p,\quad n\to\infty \]
辛钦大数定律
伯努利大数定律局限于伯努利分布,下面介绍辛钦大数定律就没有这个限制,只是要求遵循相同的分布: 设有随机变量: \[ X_1,X_2,\cdots,X_n \] 这些随机变量相互独立,服从同一分布,且具有相同的数学期望: \[ E(X_i)=\mu,\quad i=1,2,\cdots,n \] 令: \[ \overline{X}=\frac{X_1+X_2+\cdots+X_n}{n} \] 则对于任意\(\epsilon > 0\)有: \[ \lim_{n\to \infty}P\left(\left|\overline{X}-\mu\right| < \epsilon \right) = 1 \] 或: \[ \lim_{n\to \infty}P\left(\left|\overline{X}-\mu\right| \ge \epsilon \right) = 0 \] 也可以表述为: \[ \overline{X}\xrightarrow{\quad P \quad}\mu,\quad n\to\infty \]
切比雪夫大数定律
相同的分布也算比较严格的限制,下面介绍切比雪夫大数定律对于分布就更加宽松,只要各自的方差有共同上界即可: 设有随机变量: \[ X_1,X_2,\cdots,X_n \] 这些随机变量两两不相关,若每个随机变量\(X_i\)的方差存在,且有共同的上界,即: \[ Var(X_i)\le c,\quad i=1,2,\cdots,n \] 令: \[ \overline{X}=\frac{X_1+X_2+\cdots+X_n}{n},\quad \mu=E(\overline{X}) \] 则对于任意\(\epsilon > 0\)有: \[ \lim_{n\to \infty}P\left(\left|\overline{X}-\mu\right| < \epsilon \right) = 1 \] 或: \[ \lim_{n\to \infty}P\left(\left|\overline{X}-\mu\right| \ge \epsilon \right) = 0 \] 也可以表述为: \[ \overline{X}\xrightarrow{\quad P \quad}\mu,\quad n\to\infty \]
总结
这里总共介绍了三个大数定律,主要区别如下: \[ \begin{array}{c|c} \hline \quad \quad &\quad 分布、quad&\quad 独立性、quad&\quad 方差、quad\\ \hline \\ \quad 伯努利大数、quad & \quad 伯努利分布、quad & \quad 独立、quad & \quad 无要求、quad\\ 辛钦大数 & 同分布 & 独立 & 无要求 \\ 切比雪夫大数 & 无要求 & 不相关 & 同上界、\ \\ \hline \end{array} \]
强大数定律
前面介绍的大数定律又称为弱大数定律(Weak Law of large numbers),有弱就自然就有强,下面就来介绍强大数定律(Strong Law of large numbers): 设有随机变量: \[ X_1,X_2,\cdots,X_n \] 这些随机变量相互独立,服从同一分布,且具有相同的数学期望: \[ E(X_i)=\mu,\quad i=1,2,\cdots,n \] 令: \[ \overline{X}=\frac{X_1+X_2+\cdots+X_n}{n} \] 则对于任意\(\epsilon > 0\)有: \[ P\left(\lim_{n\to \infty}\left|\overline{X}-\mu\right| < \epsilon \right) = 1 \] 或: \[ P\left(\lim_{n\to \infty}\left|\overline{X}-\mu\right| \ge \epsilon \right) = 0 \]
这个强大数定律和之前的辛钦大数定律非常接近:
弱大数定律(辛钦大数定律),极限符号在 P 函数外面: \[ \lim_{n\to \infty}P\left(\left|\overline{X}-\mu\right| < \epsilon \right) = 1 \]
强大数定律,极限符号在 P 函数里面: \[ P\left(\lim_{n\to \infty}\left|\overline{X}-\mu\right| < \epsilon \right) = 1 \] 仔细体会这两则之间的区别^ _ ^。
中心极限定理
棣莫弗-拉普拉斯定理
设随机变量\(X\sim b(n,p)\),则对任意 x 有: \[ \lim_{n\to\infty}P\left(\frac{X-np}{\sqrt{np(1-p)}}\le x\right)=\Phi(x)=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^{x}e^{-\frac{t^2}{2}}\mathrm{d}t \]
林德伯格-莱维定理
设随机变量: \[ X_i,\quad i=1,2,\cdots,n \] 相互独立,服从同一分布,且有相同的数学期望和方差: \[ E(X_i)=\mu,\quad Var(X_i)=\sigma^2 \] 则随机变量: \[ Y=\frac{X_1+X_2+\cdots+X_n-n\mu}{\sigma\sqrt{n}} \] 对于任意实数\(y\)有: \[ \lim_{n\to\infty}F_Y(y)=\lim_{n\to\infty}P(Y\le y)=\Phi(y)=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^{y}e^{-\frac{t^2}{2}}\mathrm{d}t \]
参考文献
《马同学的概率论与数理统计》
感兴趣的可以购买他的课程,写的很好(强烈推荐)!!!