样本分布

样本的定义实际中很多不确定现象都可以用随机变量描述,而应用中的一个十分重要的问题是找到随机变量的分布或其数字特征。 例如:某进出口贸易公司进口了10万台微型计算器,按产品技术规定,使用寿命小于4000小时即为次品,且次品率大于1% 就不接受这批产品。如何得知这批产品的次品率呢?是否要测量每一台计算器呢?显然,这是不现实的,解决这个问题的好办法就是随机抽样,然后根据抽样检验得到的次品率来估计整批产品的次品率。也就是从10万台产品中按随机原则,抽取一部分(假如100件)产品组成一个样本,由样本(100件产品)次品率推断整批产品的次品率。
这里,我们把被观察对象的全体(本例中的10万台计算器)称作总体,把从总体中随机抽取的(被抽中的100台计算器)小群体称作样本,而样本中所包含的个体单位数目称为样本容量(100个)。
对于这批计算器,我们关心的是它的使用寿命(低于4000小时的比例有多少)的分布,设X表示“任一台计算器的使用寿命”,它是一个随机变量,我们把随机抽中的100件产品看作是100个随机变量X1,X2……,X100,每一个计算器的使用寿命都是一个随机变量,一旦测试完毕,测试的结果就是100个观测值x1,x2,……x100,统计抽样的任务就是根据测试结果x1,x2,……x100来估计总体X的分布情况。
我们作如下概括:设X是一个随机变量,X1,X2……,Xn是一组相互独立与X具有相同分布的随机变量,称X为总体,X1,X2……,Xn为来自总体的简单随机样本,简称样本,n为样本容量,称样本观察值为样本值,由于按随机原则取样,在试验之前,人们无法知道试验的结果,所以X1,X2……Xn,是一组随机变量,而在试验之后,得到一组X1,X2……,Xn的观察值x1,x2,……xn,,它们则是一组确定的数值。
样本统计量与样本分布总体实际上就是一个随机变量X,有一定的概率分布和分布的数字特征。由于总体分布的数字特征往往也就是概率分布函数中的参数(如正态分布的数学期望和方差就是密度函数中的参数μ和σ;二项分布的数学期望和方差就是参数np和npq等),所以根据样本信息估计总体数字特征就称为参数估计。在进行参数估计时,我们并不是直接用一个个的具体样本值来估计、推测总体参数,而是根据样本值得出的一些特定的量,来估计总体参数的。由样本得出的特定的量就称为统计量,用数学的术语说,统计量就是样本的函数,它只依赖于样本,不包含任何未知参数。根据样本X1,X2……,Xn,可以计算样本均值和样本方差。样本均值 和样本方差都是统计量,因为它们都是样本的函数,且不含未知的参数。样本统计量是随着样本不同而变化的量,由于样本是随机样本,所以样本统计量也是一个随机变量。显然,样本均值 随着抽取的样本不同而变化,是一个随机变量,既然是一个随机变量就有一定的概率分布,我们把样本统计量的分布称作抽样分布。
如上例,10万台微型计算机是我们研究的总体,随机抽取的100台组成一个样本,由于任意100台都可组成一个样本,所以被抽中的100台是一个随机样本,由样本计算的均值(方差、成数等)也是随机变量,这些由样本计算的特征值,称为样本统计量。
样本分布函数总体的分布函数称为总体分布函数.从总体中抽取容量为n的样本,得到n个样本观测值,设其中互不相同的观测值由小到大依次为, 则有频率分布表
定义样本分布函数
其中和式是对小于x的一切的频率求和,的图形如图1所示.
样本分布函数的性质
(1)

(2)
是非减函数;
(3)

(4)
在每个观测值处左连续,且在跳跃间断点处的跃度等于频率.