最近学日语有点上头了,见谅见谅~
话不多说,开始继续更新啦!
笑死,这篇专栏草稿早就写好了,但是一直没完成,一直拖到了这几天……
【资料图】
日语准备考个级来着,所以这边也就……懒了()
不管怎么说,进度还算顺利,数学期望已经更新完了~那么接下来呢,我们就要来研究其他对于随机变量而言比较重要的数字特征啦!
今天我们要来了解的是——
Chapter Two 随机变量及其分布
随机变量的方差与标准差
我们最初在小学阶段就接触过方差的概念,用以描述统计结果偏离平均值的程度。如果方差大,就说明结果不稳定,偏离平均值大;反之则小。而标准差最初是中学阶段才开始接触,当时我们对其的了解是“方差的算术平方根”,与方差的作用一样,描述统计结果的波动情况。
那么,现在,就我们目前的学习阶段而言,方差是否仍然具有这样的作用和特点呢?其求算方法和定义是否还与我们之前了解的相差无几呢?
答案是肯定的。我们定义:
若随机变量的数学期望存在,则称的数学期望:
为随机变量X的方差,记为:
(不同教材当中有不同的记法,以后我们采用第二种记法~)
并称方差的算术平方根为随机变量的标准差,记为。
接下来,我们按例要讨论一下方差和标准差的性质。这里要注意的是,在以下讨论当中,我们总是假设所需要的和提到的数学期望都是存在的。
首先,依据定义,我们知道方差的数值一定都是非负数。同时,利用数学期望的性质,我们能够推导出:
这是方差最常使用的计算公式,它表明,任何随机变量X的方差都是的数学期望减去X的数学期望的平方。
同时,基于定义,我们又能够得到:
(1)
(2)
最后,我们来介绍一个对于概率论而言十分重要的不等式——Chebyshev不等式。在之后的大数定律和中心极限定理部分,我们会深刻认识到它的重要作用。
我们上面提到了,方差是用来描述数据波动情况的数字特征。那么,我们自然想到,方差到底是如何具体体现它的这一功能的呢?
想要弄清楚这一点,我们就得考虑事件。这个事件的实际含义是,随机变量X偏离数学期望E(X)的偏差大于数值ε。我们称该事件为大偏差事件,简称大偏差。
按照我们的基本想法,所谓波动大,一个是ε大;换句话说,就是随机变量与数学期望的数值差的绝对值的下界要大。另一方面,如果我们想要衡量波动到底大到什么程度,就要看大偏差的概率。很显然,如果大偏差出现的概率很小,那么总体数据的波动情况也并不剧烈。
我们以离散型随机变量为例,考虑大偏差的概率与方差之间的联系。
按照定义,方差应该等于:
对于连续性随机变量,证明也类似。
这就是Chebyshev不等式。它的含义是,大偏差发生的概率的上界与随机变量的方差成正比,因此方差越大,大偏差出现的概率也越大。
基于Chebyshev不等式,我们可以说明以下事实:
若随机变量X的方差存在,则其值为0的充要条件为X几乎处处为某个常数a,即P(X=a)=1。
我们以离散型随机变量为例说明充分性,对于连续型随机变量而言利用Lebesgue定理就可以直接说明。
对于离散型随机变量X,其方差为:
因为其几乎处处为某个常数a,所以有:
(对于连续型随机变量而言,由于其定义域是一个不可数集,因此我们可以很自然地使用Lebesgue测度的语言去定义和叙述“几乎处处”这样的描述。但是,对于离散型随机变量而言,它的样本空间为一个可数集,受限于可数集的特殊性,我们很难定义一个良的测度,去描述什么是“几乎处处”。因此,这里我们只能给予一定的理解,给出我们认为的对于离散型随机变量的“几乎处处”的条件。)
至于必要性,从待证分析,若要几乎处处等于某一常数a(实际上就是数学期望E(X)),那么就应该有:
即要证明:
由Chebyshev不等式,我们得到:
这样,我们就证明了必要性,也就证明了结论。
理论上讲,这一节的内容到这里就该结束了……但是东西太少了感觉大家会看的不过瘾(有水专栏的嫌疑……),所以,我准备把后面的有关内容挪到这里来给大家介绍一下~之后我们再恢复正常的顺序和内容~
Chapter Two 随机变量及其分布
分布的其他特征数
k阶矩
设X为随机变量,k为正整数。如果以下数学期望:
都存在,则称为X的k阶原点矩;称为X的k阶中心矩。
通过这个定义,我们可以直接说,X的数学期望就是它的一阶原点矩,而其方差就是它的二阶中心矩。我们还能知道,X的一阶中心矩就是0。
对于矩,我们有一个基本性质:
如果随机变量X的k阶矩存在,那么它的所有低于k阶的矩都存在。
(命题1;只要考虑到即可。)
对于中心矩,我们通过直接的计算,利用数学期望的性质,能够得到:
这就是中心矩与原点矩之间的联系。
矩与数学期望、方差一样,都是随机变量的十分重要的数字特征。相较于我们接下来介绍的其他数字特征,矩的重要性更胜一筹,希望大家努力掌握!
分位数
很多时候,我们所面临的概率问题,最后多可能会归结为求解方程:
的最大值解。这个数字的意义是某种分布下的随机变量X的累计概率(也即分布函数)小于p时,X的最大取值,称为下(侧)p分位数。
这个数字特征的作用是,它可以用来准确描述累计概率为p时X的位置。从而,我们可以看出随机变量的实际分布趋势。
我们最先接触到也是最常接触到的一个分位数,就是中位数。按照我们对分位数的定义以及对中位数的理解,不难得到,中位数实际上就是下分位数。
我们在小学阶段就接触过了中位数的概念,与平均数的作用不同,它表征的是一组数据(或者是一个变量)的中间位置,从而能够告诉我们这组数据的水平是什么样的。
举个例子,如果我们说一个班级某次考试的平均成绩是90分,那么我们只能知道这个班级有一些高于90分的同学,还有一些低于90分。但是,如果我们说这个班级成绩的中位数是90分,那么我们就可以说,这个班级至少有一半的同学成绩高于90分。
这就是中位数的作用。其他分位数也是如此。
其他的系数应用场合较少,我们在此略过~
思考:
证明命题1;
试计算:
(1)设随机变量X的分布函数为:
求Var(X);
(2)设随机变量X的概率密度函数为:
求Var(3X+2);
(3)设随机变量X的分布函数为:
求E(X)和Var(X);
证明:
(1)对任意常数c≠E(X),有:
(2)设随机变量X在[a,b]上取值,则:
(3)设随机变量X取值为:
对应的概率分别为:
则:
(4)设g(x)为随机变量X取值集合上的非负不减函数,且E[g(X)]存在,则:
(5)设X为非负随机变量,a>0。若存在,则:
最後の最後に、ありがとうございました!
标签: