随机变量及其分布复习笔记

随机变量及其分布复习笔记

随机变量

什么是随机变量

用来表示随机现象结果的变量就是随机变量,常用大写字母$X,Y,Z$表示,而随机变量所取的值常用小写字母 $x,y,z$表示。若用等号或不等号把$X$和$x$联系起来就能表示事件,比如“$X=x$”,“$Y\leq y$” , “$z_1< Z \leq z_2$”都是事件。

怎么用数学语言表示?

$Def:$定义在样本空间$\Omega$上的实值函数$X=X(\omega)$称为随机变量。在实数集上仅取有限个或可列个孤立点的随机变量成为离散型随机变量,可能取值在实数轴上的一个区间$(a,b)$的随机变量称为连续型随机变量,其中$a$可以是$-\infty$,$b$可以是$+\infty$。

可以看到,随机变量就是将样本空间上的每一个事件映射到一个实数的函数。

例如抛出$n(n\geq3)$枚硬币,设随机变量$X$为硬币正面朝上的次数,再设$\omega=$朝上的硬币次数为$3$次。则我们可以令$X(\omega)=3$。这是非常符合直觉的。

随机变量的分布函数

$Def$:设$X$是一个随机变量,对任意实数$x$,事件$X\leq x$的概率是$x$的函数,记为:$F(x)=P(X\leq x)$这个函数称为$X$的累积分布函数,简称分布函数。

分布函数的一些基本性质:
(1)$0\leq F(x)\leq 1$(因为$F(x)$是概率)
(2)$\lim\limits_{x\rightarrow -\infty} F(x)=0$(事件$X<-\infty$是不可能事件)
(3)$\lim\limits_{x\rightarrow +\infty} F(x)=1$(事件$X<+\infty$是必然事件)
(4)$F(x)$是非降函数,即对$\forall x_1<x_2$,有$F(x_1)\leq F(x_2)$。这是因为事件$X\leq x_2$包含$X\leq x_1$。
(5)$F(x)$右连续,即$\lim\limits_{x->x_0^+}F(x)=F(x_0)$
对(5)的极限成立做一个简要证明。
$Proof$:令$A_n={X \leq x_0 + \frac{1}{n}}$,则$\bigcap\limits_{n=1}^\infty A_n={X\leq x_0}$,则
$$\lim\limits_{x->x_0^+}F(x)=\lim\limits_{n\rightarrow \infty}F(x_0+\frac{1}{n})=\lim\limits_{n\rightarrow \infty}P(A_n)=P(\lim\limits_{n\rightarrow \infty}A_n)=P(\bigcap\limits_{n=1}^\infty A_n)=P(X\leq x_0)=F(x_0)$$

注记:上面的推到不严谨,其中第3,4个等号需要证明,感兴趣的读者可以翻阅实变函数中的集合论部分。
注记2:对于上面的(3)(4)(5),需要证明极限的存在性,其中(3)(4)的极限存在性可以类似于上面的证明给出,(5)的极限存在性可以用确界定理给出。(这几部分的证明都可以去翻阅实变函数的教材)
注记3:分布函数并不是左连续的,反例很容易给出。

离散型随机变量

分布列

$Def$:设$X$是离散随机变量,它的所有可能取值为$x_1,x_2,\cdots , x_n , \cdots$,假如$X$取$x_i$的概率为:$P(X=x_i)=p(x_i)$,且满足
(1)非负性:$p(x_i)\geq 0$
(2)正则性:$\sum\limits_{i=1}^\infty p(x_i)=1$
则称这组概率${p(x_i)}$为随机变量$X$的分布列,或$X$的概率分布。

若已知$X$的分布列,则可以很容易的写出$X$的分布函数:$F(x_0)=\sum\limits_{x_i\leq x} p(x_i)$

离散型随机变量的分布列还可以用如下表格来表示:

$X$ $x_1$ $x_2$ $\cdots$ $x_n$ $\cdots$
$P$ $p_1$ $p_2$ $\cdots$ $p_n$ $\cdots$

除了表格,其还可以用线条图或者概率分布直方图来表示一个随机变量。

伯努利概型中的一些分布

二项分布

$Def$:令$X$为$n$重伯努利试验中成功出现的次数,则$X$是一个随机变量。用$B_{n,k}$表示$n$重伯努利试验中成功出现$k$次,则有$B_{n,k}=$“$X=k$”,其中$X$的可能取值为$0,1,\cdots ,n$,它取这些值的概率为:$$P(X=k)=C_n^k\cdot p^k\cdot (1-p)^{(n-k)},k=0,1,\cdots ,n$$我们称这个概率分布为二项分布,记为$b(n,p)$。在概率论中“随机变量$X$的概率分布为二项分布$b(n,p)$”常被说成“随机变量$X$服从二项分布$b(n,p)$,记做$X\sim b(n,p)$

两点分布

$n=1$的二项分布$b(1,p)$就称为两点分布(也称伯努利分布或者0-1分布)。其概率分布为:
$$
P(X=k)=\begin{cases}
p & k=1 \\
(1-p) & k=0
\end{cases}
$$

几何分布

我们讨论在伯努利试验中首次出现成功出现在第$k$次的概率,记成功的概率为$p$。若想第$k$次试验首次出现成功,我们需要在前$k-1$次试验中均失败,并且恰好在第$k$次试验出现成功。记$$g(k,p)=(1-p)^{k-1}p ~~~~ k=1,2,\cdots$$
我们称这个分布为几何分布

注记:这个分布的样本空间不是有限的。

注记2:几何分布具有无记忆性,即$$P(X = s+t|X\geq s)=\frac{P(x = s+t)}{P(X \geq s)}=\frac{(1-p)^{s+t-1}\cdot p}{(1-p)^{s}} = (1-p)^{t-1} \cdot p $$
这说明假定前$s$次没有出现成功,那么再经过$t$次试验成功的概率和直接进行$t$次试验成功的概率是相同的。与此同时,离散型随机变量中,只有几何分布有无记忆性。

泊松分布

如果随机变量$X$有如下的概率分布:

$$P(X=k)=\frac{\lambda^k}{k!}e^{-\lambda}$$

就称$X$服从参数设$\lambda$的泊松分布。记做$X\sim P(\lambda)$

泊松分布的由来?

先看一个例子:
$eg$:某年龄段的保险者中,一年中每个人死亡的概率为$0.005$,现有$10000$个这类人参加保险,保险公司想知道在未来一年中有$40$个人死亡的概率

我们从二项分布可以知道$b(40;10000,0,005)=C_{10000}^{40}(0.005)^{40}(0.995)^{9960}$(我们用$b(k,n,p)$表示$n$重伯努利试验中$A$出现$k$次的概率)而直接计算这个数值相当困难,我们需要有更好的计算方法。

于是我们有泊松逼近定理:

$Th$:在独立试验中,以$p_n$代表事件$A$在试验中出现的概率。它与试验总数$n$有关,如果$np_n\rightarrow\lambda$,则当$n\rightarrow \infty$是,

$$b(k;n,p_n)\rightarrow\frac{\lambda^k}{k!}e^{-\lambda}$$

$Proof$:记$\lambda_n=np_n$,则
$b(k;n,p_n)=C_n^kp_n^k(1-p)^{n-k}=\frac{n(n-1)\cdots(n-k+1)}{k!}(\frac{\lambda_n}{n})^k(1-\frac{\lambda_n}{n})^{n-k} $
$=\frac{\lambda_n^k}{k!}(1-\frac{1}{n})\cdots (1-\frac{k-1}{n})(1-\frac{\lambda_n}{n})^{n-k}$

对于固定的$k$有
$$\lim\limits_{n\rightarrow\infty}\lambda_n^k=\lambda^k,~~ \lim\limits_{n\rightarrow\infty}(1-\frac{\lambda_n}{n}^{n-k})=e^{-\lambda}$$

$$\lim\limits_{n\rightarrow\infty}(1-\frac{1}{n})\cdots (1-\frac{k-1}{n})=1$$

因此$$\lim\limits_{n\rightarrow\infty}b(k;n,p_n)=\frac{\lambda^k}{k!}e^{-\lambda}$$

在应用中,当$p$相当小(一般当$p\leq0.1$时)我们用如下的近似公式:$$b(k;n,p)\approx\frac{(np)^k}{k!}e^{-np}$$

这就解决了上面二项分布不容易算的问题。

泊松分布发明不止是用来逼近二项分布的,我们还有如下的泊松过程:

考虑来到某交换装置的电话呼叫数,假定它具有下面三个性质:
(1)平稳性:在$[t_0,t_0+t)$中来到的呼叫数只与时间间隔长度$t$有关而与时间起点$t_0$无关。
(2)独立增量性:在$[t_0,t_0+t)$内来到$k$个呼叫这一事件与$t_0$之前发生的事件独立。
(3)普通性:在充分晓得时间间隔中,最多来一个呼叫。若记$\psi(t)=1-P_0(t)-P_1(t)=\sum\limits_{i=2}^\infty P_i(t)$,则应有$\lim\limits_{t\rightarrow 0}\frac{\psi(t)}{t}=0$

在这个过程中,可以求得$P_k(t)=\frac{(\lambda t)^k}{k!}e^{-\lambda t}$,这正是泊松分布。

详细证明可以参考概率论教材。

超几何分布

假设有$N$个产品组成的总体,其中含有$M$个不合格品,若丛中随机不放回地抽取$n$个,则其中含有不合格品的个数$X$是一个离散随机变量。假如$n\leq M$,则$X$可以取$0,1,\cdots , n$;若$n>M$,则$X$可能取$0,1,\cdots M$。由古典概型可以计算得:
$$P(X=x)=\frac{C_M^xC_{N-M}^{n-x}}{C_N^n} ~~ x=0,1,\cdots r$$
其中$r=min(n,M)$。这个分布称为超几何分布,它有三个参数$N,M,n$,记为$h(n,N,M)$

连续型随机变量

概率密度函数

$Def$:设$p(x)$设定义在整个实数轴上的一个函数,假如它满足如下两个性质:
(1)非负性:$p(x)\geq 0$
(2)正则性:$\int_{-\infty}^{\infty}p(x)dx=1$
则称$p(x)$是概率密度函数,或密度函数。若随机变量$X$取值的统计规律性可用某个概率密度函数$p(x)$描述,则称$p(x)$为$X$的概率分布,记为$X\sim p(x)$

有了概率密度函数之后,随机变量$X$的分布函数就可以写成如下形式:

$$F(x)=\int_{-\infty}^x p(x)dx$$

注记1:概率密度函数不是概率,即$P(X=x)\neq p(x)$,事实上,对于$\forall x$,$$P(X=x)=\lim_{\Delta x \rightarrow 0}P(x+\Delta x)-P(x) = \lim_{\Delta x \rightarrow 0} \int_x^{x+\Delta x}p(x)dx = 0$$但是我们在$(x,x+\Delta x)$的概率密度可以用$\int_{x}^{x+\Delta x}p(x)dx$来求。类似的,$P(a\leq X \leq b)=\int_{a}^{b}p(x)dx$

注记2:我们将概率为零的事件称为零概率事件,但是零概率小事件和不可能事件是有差距的:不可能事件一定是零概率事件,但是零概率事件不一定是不可能事件。同样的,必然事件发生的概率为1,但是发生概率为1的事件不一定是必然事件,我们一般称概率为1的事件为几乎必然发生的事件。

均匀分布

$Def$:若$a,b(b>a)$为有限数,则由下列函数给定的分布称为均匀分布:
$$
p(x)=\begin{cases}
\frac{1}{b-a} & a\leq x \leq b\\
0 & otherwise
\end{cases}
$$

对应的分布函数为:
$$
F(x)=\begin{cases}
0 & x \leq a\\
\frac{x-a}{b-a} & a < x \leq b \\
1 & b \leq x
\end{cases}
$$

注记:我们仍需令其满足分布函数的右连续性,有些课本上将第二个条件写成$a\leq x \leq b$,其实这是不严谨的。

指数分布

分布密度函数为

$$
p(x)=\begin{cases}
\lambda e^{-\lambda x} & x \geq 0 \\
0 & x<0
\end{cases}
$$

分布函数为

$$
F(x)=\begin{cases}
1- e^{-\lambda x} & x \geq 0 \\
0 & x<0
\end{cases}
$$

其中$\lambda >0$,是参数,这种分布称为指数分布,简记为$Exp(\lambda)$

指数分布有重要的应用,我们常用它来做各种“寿命”的近似,例如电子元器件的寿命等。

指数分布还有类似于几何分布的无记忆性,设$X$服从指数分布,则对$\forall x>0,t>0$,
$$P\{X\geq s+t|X\geq s \} = \frac{P\{ X\geq s+t\}}{P\{ X\geq s\}} = \frac{e^{-\lambda(s+t)}}{e^{-\lambda s}} = e^{-\lambda t}$$

正态分布

密度函数为
$$p(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}} ~~~ -\infty < x < \infty$$
其中$\sigma > 0$,$\mu$和$\sigma$都为常数,相应的分布函数为
$$F(x)=\int_{-\infty}^x \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(y-\mu)^2}{2\sigma^2}} ~~~ -\infty < y < \infty$$

这种分布称为正态分布,简记为$N(\mu,\sigma ^2)$

特别的,当$\mu=0,\sigma=1$的时候,这个分布称为标准正态分布,记为$N(0,1)$,相应的密度函数和概率分布函数分解记为$\phi(x)$和$\Phi(x)$

注记:若$X \sim N(\mu,\sigma^2)$,则$U=\frac{X-\mu}{\sigma} \sim N(0,1)$。称这样的变换为$X$的标准化变换,称$U$为$X$的标准化随机变量。

注记2:设$X\sim N(\mu,\sigma^2)$,则
$$P(a<X<b)=\Phi(\frac{b-\mu}{\sigma})-\Phi(\frac{a-\mu}{\sigma})$$

注记3:设$X\sim N(0,1)$,则

$$
P(|X-\mu|<k\sigma)=\begin{cases}
0.6826 & k=1 \\
0.9544 & k=2 \\
0.9973 & k=3
\end{cases}
$$
我们可以看到落在$3$倍标准差外的样本设很少的,在数据处理的时候一般将其剔除。我们称其为$3\sigma$原则。