+## 概述
+
+本文介绍一些概率论的基础概念。
+
+为了简单起见,本文中提到的所有集合都默认是 **有限集** 。如想了解更一般的理论,请阅读任何一本大学概率论课本,或者期待本文的后续更新(如果有这回事的话)。
+
## 事件
### 单位事件、事件空间、随机事件
-在一次随机试验中可能发生的不能再细分的结果被称为单位事件,用 $E$ 表示。在随机试验中可能发生的所有单位事件的集合称为事件空间,用 $S$ 来表示。例如在一次掷骰子的随机试验中,如果用获得的点数来表示单位事件,那么一共可能出现 $6$ 个单位事件,则事件空间可以表示为 $S=\{1,2,3,4,5,6\}$ 。
+在一次随机试验 $E$ 中可能发生的不能再细分的结果被称为 **单位事件** 。在随机试验中可能发生的所有单位事件的集合称为 **事件空间** ,用 $S$ 来表示。
+
+也就是说,进行一次随机试验 $E$ ,其结果一定符合 $S$ 中的恰好一个元素,不可能是零个或多个。例如在一次掷骰子的随机试验中,如果用获得的点数来表示单位事件,那么一共可能出现 $6$ 个单位事件,则事件空间可以表示为 $S=\{1,2,3,4,5,6\}$ 。
-随机事件是事件空间 $S$ 的子集,它由事件空间 $S$ 中的单位元素构成,用大写字母 $A, B, C,\ldots$ 表示。例如在掷两个骰子的随机试验中,设随机事件 $A$ 为“获得的点数和大于 $10$ ”,则 $A$ 可以由下面 $3$ 个单位事件组成: $A = \{ (5,6),(6,5),(6,6)\}$ 。
+一个 **随机事件** 是事件空间 $S$ 的子集,它由事件空间 $S$ 中的单位元素构成,用大写字母 $A, B, C,\ldots$ 表示。例如在掷两个骰子的随机试验中,设随机事件 $A$ 为“获得的点数和大于 $10$ ”,则 $A$ 可以由下面 $3$ 个单位事件组成: $A = \{ (5,6),(6,5),(6,6)\}$ 。
### 事件的计算
-因为事件在一定程度上是以集合的含义定义的,因此可以把集合计算方法直接应用于事件的计算,也就是说,在计算过程中,可以把事件当作集合来对待。
+因为事件在一定程度上是以集合的含义定义的,因此可以把事件当作集合来对待。
- **和事件** :相当于 **并集** 。只需其中之一发生,就发生了。
+ **和事件** :相当于 **并集** 。若干个事件中只要其中之一发生,就算发生了它们的和事件。
- **积事件** :相当于 **交集** 。必须要全都发生,才计算概率。
+ **积事件** :相当于 **交集** 。若干个事件必须全部发生,才算发生了它们的积事件。
## 概率
#### 公理化定义
-设 $E$ 是随机试验, $S$ 是它的样本空间。对 $E$ 的每一个事件 $A$ 赋予一个实数,记为 $P(A)$ ,称为事件 $A$ 的概率,这里 $P(A)$ 是一个集合函数, $P(A)$ 满足下列条件:
+设 $E$ 是随机试验, $S$ 是它的样本空间(事件空间的同义词)。对 $E$ 的每一个事件 $A$ 赋予一个实数,记为 $P(A)$ ,称为事件 $A$ 的概率。这里 $P(A)$ 是一个从集合到实数的映射, $P(A)$ 满足以下公理:
- **非负性** :对于一个事件 $A$ ,有概率 $P(A)\in [0,1]$ 。
- **规范性** :事件空间的概率值为 $1$ , $P(S)=1$ .
-- **容斥性** :若 $P(A+B) = P(A)+P(B)$ ,则 $A$ 和 $B$ 互为独立事件。
+- **可加性** :若 $A\cap B=\varnothing$ ,则 $P(A\cup B) = P(A)+P(B)$ 。
+
+由 $(S,P)$ 构成的这样的一个系统称为一个 **概率空间** 。
### 计算
- **广义加法公式** : 对任意两个事件 $A,B$ , $P(A \cup B)=P(A)+P(B)-P(A\cap B)$
- **条件概率** : 记 $P(B|A)$ 表示在 $A$ 事件发生的前提下, $B$ 事件发生的概率,则 $P(B|A)=\dfrac{P(AB)}{P(A)}$ (其中 $P(AB)$ 为事件 $A$ 和事件 $B$ 同时发生的概率)。
- **乘法公式** : $P(AB)=P(A)\cdot P(B|A)=P(B)\cdot P(A|B)$
-- **全概率公式** :若事件 $A_1,A_2,\ldots,A_n$ 构成一个完备的事件且都有正概率,即 $\forall i,j, A_i\cap A_j=\varnothing$ 且 $\displaystyle \sum_{i=1}^n A_i=1$ ,有 $\displaystyle P(B)=\sum_{i=1}^n P(A_i)P(B|A_i)$ 。
+- **全概率公式** :若事件 $A_1,A_2,\ldots,A_n$ 构成一组完备的事件且都有正概率,即 $\forall i,j, A_i\cap A_j=\varnothing$ 且 $\displaystyle \sum_{i=1}^n A_i=1$ ,则有 $\displaystyle P(B)=\sum_{i=1}^n P(A_i)P(B|A_i)$ 。
- **贝叶斯定理** : $\displaystyle P(B_i|A)=\frac{P(B_i)P(A|B_i)}{\displaystyle \sum_{j=1}^n P(B_j)P(A|B_j)}$
+## 随机变量
+
+直观地说,一个随机变量,是一个取值由随机事件决定的变量。
+
+如果基于概率的公理化定义,那么一个随机变量——形式化地说——是一个从样本空间 $S$ 到实数集 $\mathbf{R}$ (或者 $\mathbf{R}$ 的某个子集)的映射 $X$ 。如果 $X(A)=\alpha$ ,你可以直观理解为:当随机实验 $E$ 取结果 $A$ 时,该随机变量取值 $\alpha$ 。
+
+由此可以看到,“随机变量 $X$ 取值 $\alpha$” (简记为 $X=\alpha$ )也对应着一个能实现该命题的单位事件集合,因此它也是一个事件,于是也有与之对应的概率 $P(X=\alpha)$ 。
+
+## 独立性
+
+直观地说,我们认为两个东西独立,当它们在某种意义上互不影响。例如,一个人出生的年月日和他的性别,这两件事是独立的;但一个人出生的年月日和他现在的头发总量,这两件事就不是独立的,因为一个人往往年纪越大头发越少。
+
+数学中的独立性与这种直观理解大体相似,但不尽相同。
+
+### 随机事件的独立性
+
+我们称两个事件 $A,B$ **独立** ,当 $P(A\cap B)=P(A)P(B)$ 。
+
+我们称若干个事件 $A_{1\ldots n}$ **互相独立** ,当对于其中任何一个子集,该子集中的事件同时发生的概率,等于其中每个事件发生概率的乘积。形式化地说:
+
+$$
+P(\bigcap\limits_{E\in T} E)=\prod_{E\in T} P(E), \forall T\subseteq \{A_1,A_2,\ldots,A_n\}
+$$
+
+由此可见,若干事件 **两两独立** 和 **互相独立** 是不同的概念。请注意这一点。
+
+### 随机变量的独立性
+
+以下用 $I(X)$ 表示随机变量 $X$ 的取值范围。即,如果把 $X$ 看作一个映射,则 $I(X)$ 就是其值域。
+
+我们称两个随机变量 $X,Y$ **独立** ,当 $P((X=\alpha)\cap(Y=\beta))=P(X=\alpha)P(Y=\beta),\forall \alpha\in I(X),\beta\in I(Y)$ ,即 $(X,Y)$ 取任意一组值的概率,等于 $X$ 和 $Y$ 分别取对应值的概率乘积。
+
+我们称若干个随机变量 $X_{1\ldots n}$ **互相独立** ,当 $(X_1,\ldots,X_n)$ 取任意一组值的概率,等于每个 $X_i$ 分别取对应值的概率乘积。形式化地说:
+
+$$
+P(\bigcap\limits_{i=1}^n X_i=F_i)=\prod\limits_{i=1}^n P(X_i=F_i),\forall F_{1\ldots n} \text{s.t.} F_i\in I(X_i)
+$$
+
+由此可见,若干随机变量 **两两独立** 和 **互相独立** 是不同的概念。请注意这一点。
+
## 期望
### 定义
-在一定区间内变量取值为有限个,或数值可以一一列举出来的变量称为离散型随机变量。一个离散性随机变量的数学期望是试验中每次可能的结果乘以其结果概率的总和。
+如果一个随机变量的取值个数有限(比如一个表示骰子示数的随机变量),或可能的取值可以一一列举出来(比如取值范围为全体正整数),则它称为 **离散型随机变量** 。
+
+形式化地说,一个随机变量被称为离散型随机变量,当它的值域大小 **有限** 或者为 **可列无穷大** 。
+
+一个离散性随机变量 $X$ 的 **数学期望** 是其每个取值乘以该取值对应概率的总和,记为 $E(X)$ 。
$$
-E(x)=\sum\limits_{\omega\in\Omega}X(\omega)Pr(\omega)
+E(X)=\sum\limits_{\alpha \in I(X)} \alpha\cdot P(X=\alpha)=\sum\limits_{\omega\in S}X(\omega)P(\omega)
$$
+其中 $I(X)$ 表示随机变量 $X$ 的值域, $S$ 表示 $X$ 所在概率空间的样本集合。
+
+请读者自行验证连等式中的第二个等号。
+
### 性质
-- **全期望公式** : $E(Y)=E[E(Y|X)]$ 。可由全概率公式证明。
-- **线性性质 1** : 对于任意两个随机变量 $X,Y$ ( **不要求相互独立** ),有 $E(X+Y)=E(X)+E(Y)$ 。利用这个性质,可以将一个变量拆分成若干个互相独立的变量,分别求这些变量的期望值,最后相加得到所求变量的值。
-- **线性性质 2** : 当两个随机变量 $X,Y$ 相互独立时,有 $E(XY)=E(X)E(Y)$ 。
+- **全期望公式** : $E(Y)=\sum\limits_{\alpha \in I(X)} P(X=\alpha)E(Y|(X=\alpha))$ ,其中 $X,Y$ 是随机变量,$E(Y|A)$ 是在 $A$ 成立的条件下 $Y$ 的期望(即“条件期望”)。可由全概率公式证明。
+- **期望的线性性** : 对于任意两个随机变量 $X,Y$ ( **不要求相互独立** ),有 $E(X+Y)=E(X)+E(Y)$ 。利用这个性质,可以将一个变量拆分成若干个互相独立的变量,分别求这些变量的期望值,最后相加得到所求变量的值。
+- **乘积的期望** : 当两个随机变量 $X,Y$ 相互独立时,有 $E(XY)=E(X)E(Y)$ 。
## 例题