条件期望

王朝百科·作者佚名 2010-02-02

宽屏版字体: 小 | 中 | 大 | 超大

条件期望又称条件数学期望。

为了方便起见，我们讨论两个随机变量ξ 与η 的场合，假定它们具有密度函数p(x，y) ，并以p（y∣x）记已知ξ = x 的条件下，η 的条件密度函数，以p1(x) 记 ξ 的密度函数。

定义在ξ = x 的条件下， η的条件数学期望定义为

E{η∣ξ = x }=∫yf（y∣x）dy

§3.6条件分布函数与条件期望、回归与第二类回归

在前一章中，对离散型随机变量，我们曾经研究了在已知发生的条件下的分布问题，并称P(=x| =y)为条件分布开，类似的问题对连续型随机变量也存在。

因为连续型随机变量取单点值的概率为零，所以用分布函数P(x)=P(x)来代替离散型时的分布列P(=a),在这里也同样以P(<x| =y)来代替离散型时的P(=x| =y)，并且称P(=x| =y)为已知(=y)发生的条件下的条件分布函数,并记作F(x|y)。

现在的问题是，如果已知的联合分布函数F(x,y)或它的密度函数p(x,y)，如何来条件分布函数F(x|y)。由条件概率的定义读者会想到应该有

P(x|y)=P(<x| =y)=

但是，因为对连续型随机变量来说，P(<x,=y)=0,P(=y)=0，上述等式中的右端是，也就是数学分布中的“不定式”，这并没有解决问题。

在数学分析中已知也是的不定式，为解决这个矛盾，先考虑有限增量时的比值，然后再令，并定义

由此得到启发，我们采取同样的思想途径定义

P(x|y)=P(<x| =y)

= （3.86）

因为是连续型随机变量，若其密度函数为p(x,y)，则上式可以写成

P(x|y)=P(<x| =y)

= （3.87）

若太是连续函数，又，则有

P(x|y)=

= （3.88）

显然，这时P(x|y)关于x的导数存在，且有

P(x|y)=F(x|y) = （3.89）

我们称P(x|y)为在已知发生的条件下的条件概率密度。完全类似地可以定义F(x|y)及P(y|x)，读者还可以比较一下条件概率密度与离散型时的条件分布列：

P(x|y)=

它们之间是多么的相似!

例6.18（略）

条件分布函数F(y|x)或条件密度函数P(y|x)描写了随机变量在已知(=y)发生的条件下的统计规律，同样离散型情形一样，还可以求在(=y)发生的条件下的数学期望，也就是条件数学期望，于是有下述定义。

定义5.1如果随机变量在已知(=y)发生的条件下的条件密度函数为P(y|x)，若

则称

E( )= （3.90）

为在( =y)发生的条件下的数学期望，或简称为条件期望。

同离散型情形相同，连续型随机变量的条件期望也具有下述性质：

（1）若a≤ ≤b，则a≤E( )≤b；

（2）若是、两个常数，又E( )（i=1,2）存在，则有

E( )=E( )+E( )

进一步还可以把E( )看成是的函数，当时这个函数取值为E( )，记这个函数为E( )，它是一个随机变量，可以对它求数学期望，仍与离散型相同，有

（3）E(E)=E。

条件数学期望在近代概率论中有着基本重要的作用，在实际问题中也有很大用处。在两个互有影响的随机变量、中，如果已知其中一个随机变量的取值=y，要据此去估计或预测另一个随机变量的取值，这样的问题在实际应用中经常会碰到。人们称它为“预测问题”。由上述讨论可知，条件数学期望E( )是在已知(=y)发生的条件下，对的一个颇为“合理”的预测。

例6.18（略）

一般认为，人的身高和脚印长可当作一个二维正态分布变量来处理。下面我们给出脚印长的估计式：

E( )=

如果把画在平面的直角坐标系中，它是一条直线，这条直线在一定程度上描写了身高依赖于的关系，常常称为是回归直线。在一般情形下，由

E( ，y) （3.94）

或

{x，E( )} （3.94）

可以得到平面上的两条曲线，它们称为是回归曲线或简称为回归，

前面曾经指出，把E( )作为在已知(=y)发生的条件下，对的估计或预测，在直觉上是“合理”的，究竟它合理在什么地方？这个估计或预测具有那些“优良”的性质值得引起人们的注意呢？这是下面要进一步研究的问题。

我们已经知道E( )是的函数，现在不妨假定有别的的函数g( )可以作为对的估计或预测，我们当然要求这种估计或预测的误差| |要尽可能地小，但| |是随机变量，一般就要求它的平均值

E[ ]=min

但是绝对运算在数学上处理并不方便，回忆在数学分析中提到过的最小的二乘方法以及第二章中关于方差的讨论，读者能够想到，可以要求

E[ ] =min

如果的密度函数为p(x,y)，就有

E[ ] =

由方差的性质( 3.74)，当g(y)=E( )时，能使

达到最小，从而当g(y)=E( )时也使E[ ] 到最小。所以，在已知(=y)发生的条件下，用E( )作为对的估计或预测是最佳的，这时均方差E{[ ] |=y}达到最小，这里证明的是连续型的情形，对离散型也可以类似地证明这个结论。

现在我们已经知道用E( )作为对进行估计或预测具有很有的性质。在的任意函数中，它的平均方差为最小，但是在某些场合，譬如密度函数p(x,y)为未知，或者E( )过分复杂等原因，这时可以降低一些要求寻找另外的估计，这当中一个常用的估计是，只要求所得到的估计在的线性函数类L（）=a +b中能使均方差达到最小，也就是要确定a与b常数，使

=E[ ] =min

为此，只要令

上述方程组等价于

（3.95）

解此方程组可以求得

（3.96）

通常称上式为线性回归或第二类回归，并称(3.94)或给出的一般情况的回归为第一类回归。第二娄回归的性质比第一类回归要差一些，但是在求第二类回归时，不必知道联合密度函数而只要求知道、的期望、方差与协方差就够了，而且第二类回归得到的总是一个线性函数，因而第二类回归有便于应用的优点。还有一点应该指出的是，对于用得最广泛的正态分布来说，可以从例3.27知道，两类回归恰好是一致的。这一事实表明，就正态分布而言，最佳线性估计就是最佳估计。当然，这里“最佳”的意思是指均方差最小

由(3.96)式还可得到最佳线性估计的均方误差为

E[ ] =E[ ]

这个均方误差常常称为剩余方差。由上式可知，当与间的相关系数| |=1时，剩余方差为零。这时，可以用(3.96)式来准确估计，也就是说与之间存在着线性关系。于是我们又一次证明了相关系数是随机变量间线性相依程度的反映。