概率论与数理统计

分类于 Science Thought ， Math 阅读次数： Waline：本文字数： 8.9k 阅读时长 ≈ 32 分钟

原图

概率论基本概念

概率的派别

对于概率的定义有几个主流的派别：

频率派：频率派认为如果频率存在稳定性，即当$n\to\infty$时下面极限存在（下面这个写法只是示意，后面介绍大数定律的时候会给出严格的定义），就得到了概率（用 Probability 的首字母 P 来表示）： \[ P（正面）=\lim_{n\to\infty}P_{n}（正面） \]
古典派：如果因为无知，使得我们没有办法判断哪一个结果会比另外一个结果更容易出现，那么应该给予它们相同的概率，此称为不充分理由原则（Insufficient Reason Principle）。以不充分理由原则为基础，经由拉普拉斯：之手，确立了古典概率的定义，即：未知的概率都为等概率
主观派：最后介绍下主观派，主观派认为概率是信念强度（degree of belief）。比如说，我个人相信 20 年后人类从网络时代进入人工智能时代的概率为 70%.

三个流派大概有以下的区别： \[ \begin{array}{c|c} \hline \quad\quad&\quad\color{orange}{频率派}\quad&\quad\color{blue}{古典派}\quad&\quad\color{ForestGreen}{主观派}\quad\\ \hline \\ \quad 理论基础 \quad&\quad 过往事实的归纳总结、quad&\quad 不充分理由原则、quad&\quad 知识和直觉、quad\\ \quad 概率定义 \quad&\quad 频率稳定性、quad&\quad 等概率、quad&\quad 信念强度、quad\\ \\\hline \end{array} \]

概率公理化

已知某样本空间$\Omega$，对于其中任一事件$A$，定义函数$P$，满足以下三大公理：

非负性公理： \[ P(A)\ge 0 \]
规范性公理： \[ P(\Omega) = 1 \]
可加性公理：设$A_1、A_2、\cdots$为两两不相容的事件，即$A_i\cap A_j=\varnothing（i\ne j）$，有： \[ P(A_1\cup A_2\cup\cdots) = P(A_1)+P(A_2)+\cdots \]

则$P$称为概率函数，$P(A)$称为事件 A 的概率。

事件之间的运算和关系

并运算：对于事件$A、B$，并运算定义为（$\equiv$表示定义）： \[ A\cup B\equiv\{x|x\in A\ 或 \ x\in B\} \]
交运算：对于事件$A、B$，交运算定义为： \[ A\cap B\equiv\{x|x\in A\ 且 \ x\in B\} \]
差运算：对于事件$A、B$，定义差运算为： \[ A-B\equiv\{x|x\in A\quad 且、quad x\notin B\} \]
补运算：对于事件 A、B，如果： \[ A=\Omega-B \] 则称 B 为 A 的补，记作（其中 c 代表 Complement）： \[ B=\overline{A}\quad 或、quad B=A^c \]
基本运算的性质： \[ \begin{array}{c|c|c} \hline \quad\quad&\quad 类比、quad&\quad 改写 \quad\\ \hline \\ \quad 并 \quad&\quad +\quad&\quad A\cup B=A+B \quad\\ \quad 交 \quad&\quad \times\quad&\quad A\cap B=AB \quad\\ \quad 差 \quad&\quad -\quad&\quad A-B \quad\\ \\ \hline \end{array} \]
德摩根定律： \[ \overline{A\cup B}=\overline{A}\cap\overline{B} \] = $$
小结： \[ \begin{array}{c|c|c} \hline \quad\quad&\quad 定义、quad&\quad 类比、quad\\ \hline \\ \quad 并 \quad&\quad A\cup B=\{x|x\in A\ 或 \ x\in B\}\quad&\quad +\quad\\ \quad 交 \quad&\quad A\cap B=\{x|x\in A\ 且 \ x\in B\}\quad&\quad \times\quad\\ \quad 差 \quad&\quad A-B=\{x|x\in A\ 且、x\notin B\}\quad&\quad -\quad\\ \quad 补 \quad&\quad \overline{A}=B\iff B=\Omega - A\\ \\ \hline \end{array} \]
事件之间的关系：

\[ 事件之间的关系= \begin{cases} 包含、\ 相等、\ 不相容、\ 对立 \end{cases} \]

条件概率

设 A 和 B 是样本空间$\Omega$中的两事件，若$P(B) > 0$，则称：

\[ P(A|B)=\frac{P(A\cap B)}{P(B)} \]

为“假设条件为 B 时的 A 的概率”，简称条件概率。也常写作：

\[ P(A|B)=\frac{P(AB)}{P(B)} \]

乘法公式

若$P(B) > 0$，则： \[ P(AB)=P(\color{Orange}{B})P(A|\color{Orange}{B}) \]
若$P(A) > 0$，则： \[ P(AB)=P(\color{Magenta}{A})P(B|\color{Magenta}{A}) \]
若$P(A_1\cdots A_n) > 0$，则： \[ P(A_1\cdots A_n)=P(A_1)P(A_2|A_1)P(A_3|A_1A_2)\cdots P(A_n|A_1\cdots A_{n-1}) \]

63 4、贝叶斯与全概率对于同一样本空间$\Omega$中的随机事件$A、B$，若$P(B) \ne 0$，有： \[ P(A|B)=\frac{P(A)}{P(B)}P(B|A) \]

设$A_1、A_2、\cdots、A_n$满足： \[ A_i\cap A_j=\varnothing , (i\ne j)\quad 且、quad P(\bigcup_{i=1}^{n}A_i)=1 \]

若$P(A_i) > 0,i=1,2,\cdots,n$，则对任意事件$B$有： \[ P(B)=\sum_{i=1}^{n}P(A_i)P(B|A_i) \]

有了全概率公式后，可以得到贝叶斯定理真正的样子：设$A_1、A_2、\cdots、A_n$为样本空间$\Omega$的一个分割，则有： \[ \begin{aligned} P(A_i|B) &=\frac{P(BA_i)}{P(B)}\\ \\ &=\frac{P(B|A_i)}{P(B)}P(A_i)\\ \\ &=\frac{P(B|A_i)}{\displaystyle\sum_{i=1}^{n}P(A_i)P(B|A_i)}P(A_i) \end{aligned} \]

也就是把$P(B)$分解到分割$A_1、A_2、\cdots、A_n$上去了。

独立事件

对于两个随机事件$A、B$，如果满足： \[ P(AB)=P(A)P(B) \]

则称 A 与 B 相互独立，或简称 A 与 B 独立，否则称 A 与 B 不独立或相依。

设$A_1、A_2、\cdots$为有限个或者无限个事件，从中任取两个$A_{i1}、A_{i2}$，若满足： \[ P(A_{i1}A_{i2})=P(A_{i1})P(A_{i2}) \]

则称$A_1、A_2、\cdots$是两两独立。

若从中任取有限个$A_{j1}、A_{j2}、\cdots、A_{jm}$，若满足： \[ P(A_{j1}A_{j2}\cdots A_{jm})=P(A_{j1})P(A_{j2})\cdots P(A_{jm}) \]

则称$A_1、A_2、\cdots$是相互独立。

随机变量及其分布

随机变量

定义在样本空间$\Omega$上的实值函数： \[ X=X(\omega),\quad \omega\in\Omega \]

称为随机变量。随机变量是一个函数，所以都用大写字母来表示，以示和自变量 x 的区别。

二项分布

概率质量函数

如果$p(x)$满足$（x\in \{x_i\},i=1,2,\cdots）$：

非负性： \[ p(x_i) \ge 0 \]
规范性： \[ \sum_{i=1}^{\infty}p(x_i)=1 \]

则称其为概率质量函数（PMF）。

伯努利分布

某样本空间只包含两个元素，$\Omega=\{\omega_1,\omega_2\}$，在其上定义随机变量$X$： \[ X=X(\omega)= \begin{cases} 1,&\omega=\omega_1\\ 0,&\omega=\omega_2 \end{cases} \]

若$0\le p\le 1$时，有：

\[ p(1)=P(X=1)=p \]

\[ p(0)=P(X=0)=1-p \]

或写作：

\[ P(X=x)=p(x)= \begin{cases} p,&x=1\\ 1-p,&x=0 \end{cases} \]

则此概率分布称作 0-1 分布，也称作伯努利分布。

在数学中，类似于扔一次硬币这样的“是非题”称为一次伯努利试验，像上面这样独立地重复扔 n 次硬币（做同样的“是非题”n 次），就称为 n 重伯努利试验。

二项分布

对于 n 重伯努利实验，如果每次得到“是”的概率为 p，设随机变量： \[ X=得到“是”的次数 \]

则称： \[ p(k)=P(X=k)={n\choose k}p^k(1-p)^{n-k},\quad k=0,1,\cdots,n \]

为随机变量 X 的二项分布，也可以记作： \[ X\sim b(n,p) \]

当 n=1 的时候，对应的就是伯努利分布，所以伯努利分布也可以记作$b(1,p)$。

离散的累积分布函数

设$X$是一个随机变量，$x$是任意实数，函数： \[ F(x)=P(X \le x)=\sum_{a\le x}p(a) \]

因为是把概率质量函数累加起来，所以称为累积分布函数（Cumulative Distribution Function，或者缩写为 CDF），也简称为分布函数。

离散的数学期望设离散随机变量$X$的概率质量函数为： \[ p(x_i)=P(X=x_i),i=1,2,\cdots,n,\cdots \]

如果： \[ \sum_{i=1}^{\infty}|x_i|p(x_i) < \infty \] 则称： \[ E(X)=\sum_{i=1}^{\infty}x_ip(x_i) \]

为随机变量 X 的数学期望（expected value，或，expectation），简称期望或均值（mean），也有很多文档会用$\mu_X$来表示（如果不强调随机变量的话，也可以直接用$\mu$来表示）： \[ \mu_X=\mu=\sum_{i=1}^{\infty}x_ip(x_i) \]

若级数$\sum_{i=1}^{\infty}|x_i|p(x_i)$不收敛，则称$X$的数学期望不存在。

学期望也称作矩。更准确点说，由于数学期望： \[ E(X)=\sum_{i=1}^{\infty}x_ip(x_i) \] 中$x_i$是一次项，所以又称作一阶矩。这个称呼经常在统计的书上会遇到，特在此说明。

数学期望的性质

复合：假设$g(X)$为随机变量$X$的某一函数，则： \[ E\left[g(X)\right]=\sum_i g(x_i)p(x_i) \]
常数：若 c 为常数，则： \[ E(c)=c \]
线性组合：数学期望满足：
- 齐次性，对于任意常数$a$有： \[ E(aX)=aE(X) \]
- 可加性，对于随机变量的函数$g_1(X)、g_2(X)$有： \[ E\left[g_1(X)+g_2(X)\right]=E\left[g_1(X)\right]+E\left[g_2(X)\right] \]
伯努利分布和二项分布的期望分别如下： \[ \begin{array}{c|c} &\qquad 伯努利分布、qquad&\qquad 二项分布、qquad\\ \hline\\ \ PMF\ & p(x)=\begin{cases}p,&x=1\\1-p,&x=0\end{cases} & p(x)={n\choose x}p^x(1-p)^{n-x}\\\\ \hline \\ \quad \mu\quad& p & np \\ \end{array} \]

方差与标准差

方差

代数式： \[ Var(X)=E\left[\Big(X-E(X)\Big)^2\right] \] 称为随机变量 X 的方差（Variance），也可记作$\sigma^2$或者$\sigma_X^2$。

方差的性质

化简：可以通过下式来化简运算： \[ Var(X)=E\left(X^2\right)-\mu^2 \]
常数：若 c 为常数，则： \[ Var(c)=0 \]
相加与数乘：若 a、b 为常数，则： \[ Var(aX+b)=a^2Var(X) \]

标准差

假如随机变量$X$的方差为$Var(X)$，则称：

\[ \sigma(X)=\sqrt{Var(X)} \] 为标准差，也可以记作$\sigma$或者$\sigma_X$。

二项分布的方差

\[ \begin{array}{c|c} &\qquad 伯努利分布、qquad&\qquad 二项分布、qquad\\ \hline \\ \ PMF\ & p(x)=\begin{cases}p,&x=1\\1-p,&x=0\end{cases} & p(x)={n\choose x}p^x(1-p)^{n-x}\\ \\ \hline \\ \quad \mu\quad& p & np \\ \\ \hline \\ \quad Var(X)\quad& p(1-p) & np(1-p) \\ \\ \end{array} \]

马尔可夫不等式

设$X$为取非负值的随机变量，则对于任何$a > 0$，有： \[ P(X\ge a)\le \frac{E(X)}{a} \]

切比雪夫不等式

设$X$是一随机变量，均值$\mu$和方差$\sigma^2$有限，则对任何$k > 0$有： \[ P(|X-\mu| \ge k)\le \frac{\sigma^2}{k^2} \]

泊松分布

对于随机变量$X$的概率质量函数： \[ P(X=k)=\frac{\lambda^k}{k!}e^{-\lambda},\quad k=0,1,2,\cdots \] 称为随机变量$X$的泊松分布，也可以记为： \[ X\sim P(\lambda) \]

其数学期望和方差为：

\[ E(X)=\lambda,\quad Var(X)=\lambda \]

条件
更一般地，在某一段时间 T 内发生特定事件的次数，如果满足以下假设，都可以看作泊松分布：

平稳性：在此时间段 T 内，此事件发生的概率相同（在实际应用中大致相同就可以了）。
独立性：事件的发生彼此之间独立（或者说，关联性很弱）。
普通性：把 T 切分成足够小的区间、Delta T，在、Delta T 内恰好发生两个、或多个事件的可能性为 0（或者说，几乎为 0）。

泊松分布是二项分布的极限： \[ \lim_{n\to\infty}{n\choose k}\left(\frac{\mu}{n}\right)^k\left(1-\frac{\mu}{n}\right)^{n-k}=\frac{\mu^k}{k!}e^{-\mu} \]

所以在泊松分布的$\lambda$固定的情况，二项分布的 n 越大（对应的$p=\frac{\lambda}{n}$越小），此时两者会非常接近。

重要的离散分部

几何分布

对于 n 重伯努利实验，如果每次得到“是”的概率为 p，设随机变量： \[ X=首次得到“是”时进行的试验次数 \]

则称： \[ p(k)=P(X=k)=(1-p)^{k-1}p,\quad k=1,2,\cdots \]

为随机变量 X 的几何分布，也可以记作： \[ X\sim Ge(p) \]

其数学期望和方差为： \[ E(X)=\frac{1}{p},\quad Var(X)=\frac{1-p}{p^2} \]

负二项分布

对于 n 重伯努利实验，如果每次得到“是”的概率为 p，设随机变量： \[ X=第 r 次“是”发生时的实验次数 \]

则称： \[ p(k)=P(X=k)={k-1\choose r-1}p^r(1-p)^{k-r},k=r,r+1,\cdots \]

为随机变量 X 的负二项分布，也称为帕斯卡分布，也可以记作： \[ X\sim Nb(r,p) \]

其数学期望为： \[ E(X)=\frac{r}{p},\quad Var(X)=\frac{r(1-p)}{p^2} \]

负二项分布与几何分布

几何是负二项的特例：负二项分布是这样的： \[ p(k)=P(X=k)={k-1\choose r-1}p^r(1-p)^{k-r},k=r,r+1,\cdots \] r=1 的时候，就得到了几何分布： \[ p(k)=P(X=k)=(1-p)^{k-1}p,\quad k=1,2,\cdots \]
负二项是几何的和：参数为 r、p 的负二项分布可以表示为如下事件序列：图中所示的每一段$X_1、X_2、\cdots、X_r$都是几何分布，所以有： \[ X=X_1+X_2+\cdots+X_r\sim Nb(r,p) \] 所以负二项分布的期望为： \[ E(X)=E(X_1)+E(X_2)+\cdots+E(X_r)=\frac{r}{p} \]

超几何分布

设有 N 件产品，其中有 M 件不合格品，随机抽取 n 件产品，则其中含有 m 件不合格产品的概率为多少？假设随机变量： \[ X=随机抽取的 n 件中有 m 件不合格品 \] 这个随机变量的概率可以用古典概率来求，首先，样本空间就是从 N 件中随便抽取 n 件，所以：

\[ |\Omega| = {N\choose n} \]

然后有 m 件从不合格品中抽取，剩下的在合格品中抽取，则有：

\[ |X| = {M\choose m}{N-M\choose n-m} \]

所求概率即为：

\[ P(X=m)=\frac{\left(\begin{array}{c} M \\ m \end{array}\right)\left(\begin{array}{c} N-M \\ n-m \end{array}\right)}{\left(\begin{array}{c} N \\ n \end{array}\right)}, m=0,1, \cdots, r \]

其中$r=min(M,n)$。此时称 X 服从超几何分布，可以记作：

\[ X\sim h(n,N,M) \]

其数学期望和方差为： \[ E(X)=n\frac{M}{N},\quad Var(X)=n\frac{M}{N}\left(1-\frac{M}{N}\right)\left(1-\frac{n-1}{N-1}\right) \]

超几何分布与二项分布

超几何分布与二项分布类似，都是求抽取 n 次其中有 m 次“是”的概率，只是：

二项分布：相当于抽取之后放回。
超几何分布：抽取之后不放回。

所以在超几何分布中，如果被抽取的总数 N 特别大，那么放回不放回区别也就不大了，此时，那么超几何分布可以近似看作二项分布。这点从两者的期望、方差也可以看出来： \[ \begin{array}{c|c} &\qquad 二项分布、qquad&\qquad 超几何分布、qquad\\ \hline \\ \quad \mu\quad& np & n\frac{M}{N} \\ \\ \hline \\ \quad \sigma^2\quad& np(1-p) & n\frac{M}{N}\left(1-\frac{M}{N}\right)\left(1-\frac{n-1}{N-1}\right)\\ \\ \end{array} \] 令$p=\frac{M}{N}$，超几何分布的期望和方差可以写作： \[ \mu=n\frac{M}{N}=np \] ^2=n(1-)(1-)=np(1-p)(1-) $$

对超几何分布而言，当 N 足够大的时候，$\frac{M}{N}$可看作取出不合格产品的概率，那此时超几何分布可看作二项分布。

总结

\[ \begin{array}{c|c} \hline \\ \quad 伯努利分布、quad&\quad 抛硬币，二选一 \quad\\ \quad 二项分布、quad&\quad n 重伯努利，出现 k 次“是” \quad\\ \quad 泊松分布、quad&\quad 二项分布的极限 \quad\\ \quad 几何分布、quad&\quad n 重伯努利，第 k 次首次出现“是” \quad\\ \quad 负二项分布、quad&\quad 几何分布的和 \quad\\ \quad 超几何分布、quad&\quad 不放回抽样的二项分布 \quad\\ \\ \hline \end{array} \]

概率密度函数

如果函数$p(x)$满足下列两个条件（对应了概率的三大公理）：

非负性： \[ p(x) \ge 0 \]
规范性（暗含了可加性），因为是连续的，所以通过积分相加： \[ \int_{-\infty}^{+\infty}p(x)\mathrm{d}x=1 \]

则称其为概率密度函数（Probability Density Function，简写为 PDF）。

期望

离散随机变量的期望定义为： \[ E(X)=\sum_{i=1}^{\infty}x_ip(x_i) \]

可以用类似的方法定义连续随机变量的期望，当然期望的意义是没有改变的： \[ E(X)=\int_{-\infty}^{+\infty}xp(x)\mathrm{d}x \] 关于期望的几个性质也是成立的：

复合：假设$g(X)$为连续随机变量$X$的某一函数，则： \[ E\left[g(X)\right]=\int_{-\infty}^{+\infty}g(x)p(x)\mathrm{d}x \]
常数：若 c 为常数，则： \[ E(c)=c \]
线性：数学期望满足：
- 齐次性，对于任意常数 a 有： \[ E(aX)=aE(X) \]
- 可加性，对于任意两个函数$g_1(X)、g_2(X)$有： \[ E\left[g_1(X)+g_2(X)\right]=E\left[g_1(X)\right]+E\left[g_2(X)\right] \]

方差

方差的定义依然是： \[ Var(X)=E\left[\Big(X-E(X)\Big)^2\right] \]

累积分布函数

连续随机变量$X$的概率密度函数为$p(x)$，则： \[ F(x)=P(X \le x)=\int_{-\infty}^{x}p(t)\mathrm{d}t \] 称为$X$的累积分布函数。

正态分布

如果连续随机变量$X$的概率密度函数为： \[ p(x)=\frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{(x-\mu)^2}{2\sigma^2}},\quad -\infty < x < +\infty \]

则称$X$服从正态分布（normal distribution），也称作高斯分布（Gaussian distribution），记作$X\sim N(\mu,\sigma^2)$，其累积分布函数为： \[ F(x)=\frac{1}{\sigma\sqrt{2\pi}}\int_{-\infty}^{x}e^{-\frac{(t-\mu)^2}{2\sigma^2}}\mathrm{d}t \]

我们称$\mu=0、\sigma=1$时的正态分布$N(0,1)$为标准正态分布。

期望与方差

正态分布$X\sim N(\mu,\sigma^2)$的期望和方差为： \[ E(X)=\mu,\quad Var(X)=\sigma^2 \]

指数分布

若随机变量$X$的概率密度函数为： \[ p(x)=\begin{cases} \lambda e^{-\lambda x}, & x \ge 0\\ 0,& x < 0 \end{cases} \]

其中$\lambda > 0$，称$X$服从指数分布，也可以记为： \[ X\sim Exp(\lambda) \]

累积分布函数为： \[ F(x)=\begin{cases} 1-e^{-\lambda x}, & x \ge 0\\ 0,& x < 0 \end{cases} \]

指数分布$X\sim Exp(\lambda)$的期望和方差为： \[ E(X)=\frac{1}{\lambda},\quad Var(X)=\frac{1}{\lambda^2} \]

总结

首先是一维离散随机变量的概率分布：

然后是一维连续随机变量的概率分布：

\[ \begin{array}{c|c} \hline \\ \quad 均匀分布、quad&\quad 古典派中的几何概型 \quad\\ \quad 正态分布、quad&\quad 二项分布的另外一种极限 \quad\\ \quad 指数分布、quad&\quad 泊松分布的间隔，连续的几何分布 \quad\\ \\ \hline \end{array} \]

多维随机变量及其分布

联合概率质量函数

如果二维随机向量$(X,Y)$所有可能的取值为$(x_i,y_j),i,j=1,2,\cdots$，这两个随机变量同时发生的概率可以用函数表示如下： \[ p_{ij}=P(X=x_i,Y=y_j)=P(X=x_i\ \color{red}{且}\ Y=y_j),\quad i,j=1,2,\cdots \]

且此函数满足如下性质（即概率的三大公理）：

非负性： \[ p_{ij}\ge 0 \]
规范性和可加性： \[ \sum_{i=1}^{\infty}\sum_{j=1}^{\infty}p_{ij}=1 \]

则称此函数为$(X,Y)$的联合概率质量函数（Joint Probability Mass Function），或者称为联合分布列，此定义可以推广到多维离散随机变量上去。

联合概率密度函数

对于某二维随机变量$(X,Y)$存在二元函数$p(x,y)$满足：

非负性： \[ p(x,y)\ge 0 \]
规范性和可加性（连续的都通过积分来相加）： \[ \int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}p(x,y)\mathrm{d}x\mathrm{d}y=1 \]

则称此函数为$(X,Y)$的联合概率密度函数（Joint Probability Density Function），此定义可以推广到多维连续随机变量上去。

联合累积分布函数

设$(X,Y)$是二维随机变量，对于任意实数$x、y$，可以定义一个二元函数来表示两个事件同时发生的概率： \[ F(x,y)=P\Big(\{X\le x\}\ \color{red}{且}\ \{Y\le y\}\Big)=P(X\le x, Y\le y) \]

称为二维随机变量$(X,Y)$的联合累积分布函数（Joint Cumulative Distribution Function），如果混合偏导存在的话，那么：

\[ \frac{\partial F(x,y)}{\partial x \partial y}=p(x,y) \]

得到$p(x,y)$就是此分布的概率密度函数。此定义和性质可以推广到多维随机变量。

多维均匀分布

设$D$为$R^n$中的一个有界区域，其度量（直线为长度，平面为面积，空间为体积等）为$S_D$，如果多维随机变量$(X_1,X_2,\cdots,X_n)$的联合概率密度函数为： \[ p(x_1,x_2,\cdots,x_n)= \begin{cases} \frac{1}{S_D},&(x_1,x_2,\cdots,x_n)\in D\\ 0,&其它 \end{cases} \] 则称$(X_1,X_2,\cdots,X_n)$服从$D$上的多维均匀分布，记作：

\[ (X_1,X_2,\cdots,X_n)\sim U(D) \]

边缘分布与随机变量的独立性

边缘概率质量函数

如果二维离散随机变量$(X,Y)$的联合概率质量函数为： \[ P(X=x_i,Y=y_j),i,j=1,2,\cdots \]

对$j$求和所得的函数：

\[ \sum_{j=1}^{\infty}P(X=x_i,Y=y_j)=P(X=x_i) \]

称为$X$的边缘概率质量函数（Marginal Probability Mass Function），或者称为边缘分布列。类似的对 i 求和所得的函数： \[ \sum_{i=1}^{\infty}P(X=x_i,Y=y_j)=P(Y=y_j) \]

称为$Y$的边缘概率质量函数。

边缘概率密度函数

如果二维连续随机变量$(X,Y)$的联合概率密度函数为$p(x,y)$，则： \[ p_X(x)=\int_{-\infty}^{+\infty}p(x,y)\mathrm{d}y \]

称为$X$的边缘概率密度函数（Marginal Probability Density Function）。类似的： \[ p_Y(y)=\int_{-\infty}^{+\infty}p(x,y)\mathrm{d}x \]

称为 Y 的边缘概率密度函数。

边缘累积分布函数

如果二维连续随机变量$(X,Y)$的联合累积分布函数为$F(x,y)$，如下可以得到$X$的累积分布函数： \[ F_X(x)=\lim_{y\to+\infty}F(x,y)=P(X\le x,Y < +\infty)=P(X\le x) \]

称为$X$的边缘累积分布函数（Marginal Cumulative Distribution Function）。可记作： \[ F_X(x)=F(x,+\infty) \]

同理可以得到 Y 的边缘累积分布函数： \[ F_Y(y)=F(+\infty, y) \]

条件分布

离散的条件分布

设$(X,Y)$是二维离散型随机变量，对于固定的$j$，若$P(Y=y_j)\ge 0$，则称： \[ P\left(X=x_{i} | Y=y_{j}\right)=\frac{P\left(X=x_{i}, Y=y_{j}\right)}{P\left(Y=y_{j}\right)}, i=1,2, \cdots \]

为$Y=y_j$条件下的随机变量$X$的条件概率质量函数。同样的对于固定的$i$，若$P(X=x_i)\ge 0$，则称： \[ P\left(Y=y_{j} | X=x_{i}\right)=\frac{P\left(X=x_{i}, Y=y_{j}\right)}{P\left(X=x_{i}\right)}, j=1,2, \cdots \]

为$X=x_i$条件下的随机变量$Y$的条件概率质量函数。

条件分布和条件概率没有什么区别，一样可以用于全概率公式、贝叶斯公式。

连续的条件分布

设二维连续型随机变量$(X,Y)$的概率密度函数为$p(x,y)$，若对于固定的$y$有边缘概率密度函数$p_Y(y) > 0$，则： \[ p_{X|Y}(x\ |\ y)=\frac{p(x,y)}{p_Y(y)} \] 为$Y=y$条件下的随机变量$X$的条件概率密度函数。对应的条件累积分布函数为： \[ F_{X|Y}(x\ |\ y)=\int_{-\infty}^{x}\frac{p(u,y)}{p_Y(y)}\mathrm{d}u \]

同样的道理，以$X=x$为条件有： \[ p_{Y|X}(y\ |\ x)=\frac{p(x,y)}{p_X(x)} \] F_{Y|X}(y | x)=_{-}^{y}u $$

连续的全概率和贝叶斯

全概率： \[ p_{Y}(y)=\int_{-\infty}^{+\infty} p(y | x) p_{X}(x) \mathrm{d} x \] p_{X}(x)={-}^{+} p(x | y) p{Y}(y) y $$
贝叶斯： \[ \begin{aligned} p(x | y) &=\frac{p(y | x) p_{X}(x)}{p_{Y}(y)} \\ &=\frac{p(y | x) p_{X}(x)}{\int_{-\infty}^{+\infty} p(y | x) p_{X}(x) \mathrm{d} x} \end{aligned} \]

多维随机变量函数的分布

随机变量的和

离散：设 X、Y 为两个相互独立的离散随机变量，取值范围为$0，1，2，\cdots$，则其和的概率质量函数为： \[ P(X+Y=k)=\sum_{i=0}^{k}P(X=i)P(Y=k-i) \] 这个概率等式称为离散场合下的卷积公式。
连续：设$(X,Y)$为二维连续型随机变量，概率密度函数为$p(x,y)$，则$Z=X+Y$仍为连续型随机变量，其概率密度为： \[ p_{X+Y}(z)=\int_{-\infty}^{+\infty}p(z-y,y)\mathrm{d}y=\int_{-\infty}^{+\infty}p(x,z-x)\mathrm{d}x \] 若$X、Y$为相互独立，其边缘密度函数分别为$p_X(x)$和$p_Y(y)$，则其和$Z=X+Y$的概率密度函数为： \[ p_Z(z)=\int_{-\infty}^{+\infty}p_X(z-y)p_Y(y)\mathrm{d}y=\int_{-\infty}^{+\infty}p_X(x)p_Y(z-x)\mathrm{d}x \] 上面两个概率等式称为连续场合下的卷积公式。

随机变量的数字特征

数学期望

数学期望的定义

离散随机变量的数学期望定义为： \[ E(X)=\sum_{i=1}^{\infty}x_ip(x_i) \]

连续随机变量的数学期望定义为： \[ E(X)=\int_{-\infty}^{+\infty}xp(x)\mathrm{d}x \]

函数的数学期望

一维随机变量：设$Y$是随机变量$X$的函数$Y=g(X)$(g 是连续函数）。
- 若$X$为离散随机变量，则（设下式中的级数绝对收敛）： \[ E(Y)=E\left[g(X)\right]=\sum_i g(x_i)p(x_i) \]
- 若$X$为连续随机变量，则（设下式中的积分绝对收敛）： \[ E(Y)=E\left[g(X)\right]=\int_{-\infty}^{+\infty}g(x)p(x)\mathrm{d}x \]
多维随机变量：设$Z$是随机变量$(X,Y)$的函数$Z=g(X,Y)$(g 是连续函数）。
- 若$(X,Y)$为离散随机变量，则（设下式中的级数绝对收敛）： \[ E(Z)=E\left[g(X,Y)\right]=\sum_j\sum_i g(x_i,y_j)p(x_i,y_j) \]
- 若$(X,Y)$为连续随机变量，则（设下式中的积分绝对收敛）： \[ E(Z)=E\left[g(X,Y)\right]=\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}g(x,y)p(x,y)\mathrm{d}x\mathrm{d}y \]

线性的数学期望

数学期望满足：

齐次性，对于任意常数 a 有： \[ E(aX)=aE(X) \]
可加性，对于任意两个函数$g_1(X)、g_2(X)$有： \[ E\left[g_1(X)+g_2(X)\right]=E\left[g_1(X)\right]+E\left[g_2(X)\right] \]

对于多维也成立： \[ E(X+Y)=E(X)+E(Y) \] E(X_1+X_2++X_n)=E(X_1)+E(X_2)++E(X_n) $$

施瓦茨不等式

对任意随机变量$X$与$Y$都有： \[ \Big[E(XY)\Big]^2 \le E(X^2)E(Y^2) \]

独立的数学期望

设$(X,Y)$为二维独立随机变量，则有： \[ E(XY)=E(X)E(Y) \] 这个结论可以推广到 n 维独立随机变量： \[ E\left(X_{1} X_{2} \cdots X_{n}\right)=E\left(X_{1}\right) E\left(X_{2}\right) \cdots E\left(X_{n}\right) \]

方差与标准差

方差与标准差的定义

方差定义为（因为直接通过数学期望定义的，所以没有区分离散和连续）： \[ Var(X)=E\left[\Big(X-E(X)\Big)^2\right] \]

为了写的简单一点，也常常令$E(X)=\mu$，那么上式可以改写为： \[ Var(X)=E\left[(X-\mu)^2\right] \]

之前也介绍过，由于方差里面含有平方，在实际应用中需要开平方才能保持单位一致，这就是标准差：

\[ \sigma(X)=\sqrt{Var(X)} \]

线性的方差

若$a、b$为常数，则： \[ Var(aX+b)=a^2Var(X) \]

独立的方差

设$(X,Y)$为二维独立随机变量，则有： \[ Var(X\pm Y)=Var(X)+Var(Y) \]

这个结论可以推广到 n 维独立随机变量：

\[ Var\left(X_{1}\pm X_{2}\pm \cdots\pm X_{n}\right)=Var\left(X_{1}\right) +Var\left(X_{2}\right)+\cdots+Var\left(X_{n}\right) \]

协方差

协方差的定义

设$(X,Y)$是一个二维随机变量，若$E\Big[(X-\mu_X)(Y-\mu_Y)\Big]$存在，则称此数学期望为$X$与$Y$的协方差（Covariance），记作： \[ Cov(X,Y)=E\Big[(X-\mu_X)(Y-\mu_Y)\Big] \]

特别地有$Cov(X,X)=Var(X)$。

很显然会有：

$Cov(X,Y) > 0$时，$X、Y$正相关，即两者有同时增加或者减少的倾向。
$Cov(X,Y) < 0$时，$X、Y$负相关，即两者有反向增加或者减少的倾向。
$Cov(X,Y) = 0$时，$X、Y$不相关，不过和独立还是有区别的，这点我们后面再论述。

协方差的性质

化简：可以通过下式来化简运算： \[ Cov(X,Y)=E(XY)-E(X)E(Y) \] 据此马上可以得到一个推论： \[ Cov(X,Y)=Cov(Y,X) \]
方差：对于任意的二维随机变量$(X,Y)$有： \[ Var(X+Y)=Var(X)+Var(Y)+2Cov(X,Y) \] Var(X-Y)=Var(X)+Var(Y)-2Cov(X,Y) \[ 所以当$(X,Y)$为二维不相关随机变量时，有： \] Var(XY)=Var(X)+Var(Y) $$
分配律： \[ Cov(X_1+X_2,Y)=Cov(X_1, Y)+Cov(X_2,Y) \]
数乘： \[ Cov(aX+c,bY+d)=abCov(X, Y) \]

独立与不相关

独立必不相关：根据刚才的性质： \[ Cov(X,Y)=E(XY)-E(X)E(Y) \] 如果 X、Y 独立，则有： \[ E(XY)=E(X)E(Y)\implies Cov(X,Y)=0 \] 所以： \[ 独立、implies 不相关 \]
不相关不能推出独立：不相关只能说明 X、Y 之间没有正相关规律，也没有负相关规律，但可能还有很多别的规律，所以： \[ 不相关、\mathrel{\rlap{\hskip .5em/}}\Longrightarrow\ 独立 \]

二维正态分布

如果二维随机变量$(X,Y)$的联合概率密度函数为： \[ \begin{aligned} p(x, y)= & \frac{1}{2 \pi \sigma_{1} \sigma_{2} \sqrt{1-\rho^{2}}} \exp \left\{-\frac{1}{2\left(1-\rho^{2}\right)}\left[\frac{\left(x-\mu_{1}\right)^{2}}{\sigma_{1}^{2}}\right.\right.\\ &-\frac{2 \rho\left(x-\mu_{1}\right)\left(y-\mu_{2}\right)}{\sigma_{1} \sigma_{2}}+\frac{\left(y-\mu_{2}\right)^{2}}{\sigma_{2}^{2}} ] \} \end{aligned} \]

则称$(X,Y)$服从二维正态分布，记作： \[ (X,Y)\sim N(\mu_1,\mu_2,\sigma_1^2,\sigma_2^2,\rho) \]

它含有五个参数$\mu_1，\mu_2，\sigma_1^2，\sigma_2^2$和$\rho$，取值范围分别为： \[ -\infty<\mu_{1}<\infty,-\infty<\mu_{2}<\infty, \sigma_{1}>0, \sigma_{2}>0,-1 \leqslant \rho \leqslant 1 \] 并且$\mu_1，\mu_2$分别是$X、Y$的期望；$\sigma_1^2，\sigma_2^2$分别是$X、Y$的方差；$\rho$是$X、Y$的相关系数。

大数定律及中心极限定理

大数定律

伯努利大数定律

整个概率论的得以存在的基础是，其所研究的随机现象虽然结果不确定，但又有规律可循。这个基础在概率论中被称为大数定律（Law of large numbers）。大数定律是一系列的定律，先来介绍伯努利大数定律：

设$n_A$是$n$次重复独立实验中事件$A$发生的次数，$p$是事件$A$在每次实验中发生的概率，则对于任意正数$\epsilon > 0$，有： \[ \lim_{n\to \infty}P\left(\left|\frac{n_\text{A}}{n}-p\right| < \epsilon \right) = 1 \]

或： \[ \lim_{n\to \infty}P\left(\left|\frac{n_\text{A}}{n}-p\right| \ge \epsilon \right) = 0 \]

这里需要注意不能直接用： \[ \lim_{n\to \infty}\frac{n_\text{H}}{n}=p \] 而必须在外面套上一个概率函数，$\frac{n_\text{H}}{n}$并不是一个数列，而是随机变量。因此它不具备进行极限运算的前提。

依概率收敛

因为$\frac{n_\text{H}}{n}$是随机变量，所以要表示它和$p$接近，只能表示为事件： \[ “频率 P_n 越来越接近概率 p”=\Big\{\left|\frac{n_\text{H}}{n}-p\right| < \epsilon\Big\} \] 然后套上概率函数$P$，对该函数求$n$趋于无穷时的极限： \[ \lim_{n\to \infty}P\left(\left|\frac{n_\text{H}}{n}-p\right| < \epsilon \right) = 1 \]

这个极限同样表达了“随着$n$的增大，频率$P_n$会越来越接近概率$p$”的意思，但是因为套上了概率函数，所以也称为$P_n$依概率收敛于$p$，记作： \[ \frac{n_\text{H}}{n}\xrightarrow{\quad P \quad}p,\quad n\to\infty \]

辛钦大数定律

伯努利大数定律局限于伯努利分布，下面介绍辛钦大数定律就没有这个限制，只是要求遵循相同的分布：设有随机变量： \[ X_1,X_2,\cdots,X_n \] 这些随机变量相互独立，服从同一分布，且具有相同的数学期望： \[ E(X_i)=\mu,\quad i=1,2,\cdots,n \] 令： \[ \overline{X}=\frac{X_1+X_2+\cdots+X_n}{n} \] 则对于任意$\epsilon > 0$有： \[ \lim_{n\to \infty}P\left(\left|\overline{X}-\mu\right| < \epsilon \right) = 1 \] 或： \[ \lim_{n\to \infty}P\left(\left|\overline{X}-\mu\right| \ge \epsilon \right) = 0 \] 也可以表述为： \[ \overline{X}\xrightarrow{\quad P \quad}\mu,\quad n\to\infty \]

切比雪夫大数定律

相同的分布也算比较严格的限制，下面介绍切比雪夫大数定律对于分布就更加宽松，只要各自的方差有共同上界即可：设有随机变量： \[ X_1,X_2,\cdots,X_n \] 这些随机变量两两不相关，若每个随机变量$X_i$的方差存在，且有共同的上界，即： \[ Var(X_i)\le c,\quad i=1,2,\cdots,n \] 令： \[ \overline{X}=\frac{X_1+X_2+\cdots+X_n}{n},\quad \mu=E(\overline{X}) \] 则对于任意$\epsilon > 0$有： \[ \lim_{n\to \infty}P\left(\left|\overline{X}-\mu\right| < \epsilon \right) = 1 \] 或： \[ \lim_{n\to \infty}P\left(\left|\overline{X}-\mu\right| \ge \epsilon \right) = 0 \] 也可以表述为： \[ \overline{X}\xrightarrow{\quad P \quad}\mu,\quad n\to\infty \]

总结

这里总共介绍了三个大数定律，主要区别如下： \[ \begin{array}{c|c} \hline \quad \quad &\quad 分布、quad&\quad 独立性、quad&\quad 方差、quad\\ \hline \\ \quad 伯努利大数、quad & \quad 伯努利分布、quad & \quad 独立、quad & \quad 无要求、quad\\ 辛钦大数 & 同分布 & 独立 & 无要求 \\ 切比雪夫大数 & 无要求 & 不相关 & 同上界、\ \\ \hline \end{array} \]

强大数定律

前面介绍的大数定律又称为弱大数定律（Weak Law of large numbers），有弱就自然就有强，下面就来介绍强大数定律（Strong Law of large numbers）：设有随机变量： \[ X_1,X_2,\cdots,X_n \] 这些随机变量相互独立，服从同一分布，且具有相同的数学期望： \[ E(X_i)=\mu,\quad i=1,2,\cdots,n \] 令： \[ \overline{X}=\frac{X_1+X_2+\cdots+X_n}{n} \] 则对于任意$\epsilon > 0$有： \[ P\left(\lim_{n\to \infty}\left|\overline{X}-\mu\right| < \epsilon \right) = 1 \] 或： \[ P\left(\lim_{n\to \infty}\left|\overline{X}-\mu\right| \ge \epsilon \right) = 0 \]

这个强大数定律和之前的辛钦大数定律非常接近：

弱大数定律（辛钦大数定律），极限符号在 P 函数外面： \[ \lim_{n\to \infty}P\left(\left|\overline{X}-\mu\right| < \epsilon \right) = 1 \]
强大数定律，极限符号在 P 函数里面： \[ P\left(\lim_{n\to \infty}\left|\overline{X}-\mu\right| < \epsilon \right) = 1 \] 仔细体会这两则之间的区别^ _ ^。

中心极限定理

棣莫弗-拉普拉斯定理

设随机变量$X\sim b(n,p)$，则对任意 x 有： \[ \lim_{n\to\infty}P\left(\frac{X-np}{\sqrt{np(1-p)}}\le x\right)=\Phi(x)=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^{x}e^{-\frac{t^2}{2}}\mathrm{d}t \]

林德伯格-莱维定理

设随机变量： \[ X_i,\quad i=1,2,\cdots,n \] 相互独立，服从同一分布，且有相同的数学期望和方差： \[ E(X_i)=\mu,\quad Var(X_i)=\sigma^2 \] 则随机变量： \[ Y=\frac{X_1+X_2+\cdots+X_n-n\mu}{\sigma\sqrt{n}} \] 对于任意实数$y$有： \[ \lim_{n\to\infty}F_Y(y)=\lim_{n\to\infty}P(Y\le y)=\Phi(y)=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^{y}e^{-\frac{t^2}{2}}\mathrm{d}t \]

参考文献

《马同学的概率论与数理统计》
感兴趣的可以购买他的课程，写的很好（强烈推荐）！！！