5 样本及抽样分布
前4章属于概率论的内容,随后的4章将是数理统计的内容。数理统计是具有广泛应用的一个数学分支。它以概率论为理论基础,根据试验或观察得到的数据来研究随机现象,对研究对象的客观规律性作出种种合理的估计和判断。
在概率论中,随机变量的分布都假设为已知,在这一前提下去研究它的性质、特点和规律性。例如,求出它的数字特征,讨论随机变量函数的分布,介绍各种常用分布等。在数理统计中,随机变量的分布可以是未知的,或者是分布已知但不完全。人们通过对所研究的随机变量进行重复独立的观察和试验,得到许多观察值,对这些数据进行分析,从而对所研究的随机变量的分布作出种种的推断。例如,全国人口普查,采取随机抽样的方式抽取样本,通过对样本的统计分析,对全国人口状况进行推断。
例5-1某工厂日产A型钢筋104根,为了解这批钢筋的强度情况,抽查其中的50根,得到钢筋强度的50个数据(此处研究的对象是**内所生产的104根钢筋的强度,它称为问题中的统计总体,抽查所得到的50个关于强度的数据称为总体的一个样本),我们有如下的问题:
(1)怎样根据样本的50个数据去估计总体的均值与方差?
(2)如果**标准规定A型钢筋的标准强度是a,如何根据该样本去判断这批钢筋的强度是合乎**标准,还是与a有显著的差异?
(3)50个数据各不相同,造成这种差异的原因是纯粹由生产中的随机因素造成的?还是由于生产过程中某些特定的因素造成的?
(4)若这批钢筋的强度与某种因素(如原材料的含锰量)有关,怎样由这50个数据去分析这批钢筋的强度与该因素的相关关系?
显然,该厂生产的A型钢筋,其强度是一个随机变量,记为X,此处研究的总体就是X的104个值的集合。
第1个问题是怎样由一组样本值去估计总体的均值和方差,这类问题称为参数估计问题。
……