第二章 量别数据的描述性分析
一、学习目的和要求、
了解统计数据的分布特征;熟练掌握各种集中趋势量数的含义和计算方法;熟练掌握各种离散趋势量数的含义和计算方法;了解偏态系数与峰度系数的含义和作用,了解箱索图和茎叶图对数据分布特征的展示作用。
熟练运用统计分析软件(SPSS)对统计数据进行描述性分析。
二、主要概念和内容
(一)统计描述指标的种类
统计描述指标的种类主要包括三大类,即数据的集中趋势指标;数据的离散趋势指标;数据的分布形态指标。
(二)数据的集中趋势指标
数据的集中趋势指标有均值、众数、中位数、分位数等。均值是经过对所有数据计算后得到的**位置值,使用广泛且对原数据的信息提取*充分,但易受**值的影响;中位数是将数据按顺序排列处在数据中点的变量值,不易受**值干扰,比均值稳健,但对原数据提取的信息不够充分;众数是数据中出现频数*多的数值,它与中位数具有共同的特点,即不易受**值干扰,但对原数据提取的信息也不充分,有些数据甚至不出现众数,众数一般在定性变量描述中用得较多。
(三)数据的离散趋势指标
数据的离散趋势指标有极差(全距)、四分位差、方差、标准差、变异系数。极差(全距)是*简单的也是*粗略的统计量;四分位差是对极差的一种修正;标准差是度量各个数值到均值距离的平均数,是离散指标中使用*多的测度值,其数值越大,表示数据分布越分散,数值越小,表示数据分布越集中;方差是标准差的平方,由于方差和原数据的量纲不同,所以其对数据的评价功能受到限制。在实际工作中,运用*普遍的是标准差,当两个总体的量纲相同、平均水平相同时,可以用标准差比较其数据的聚散程度;但由于标准差是有量纲的,故无法对两个计量单位不同的数列和总体平均不同的数列进行比较,因此,从标准差中剔除均值,得到的比值称为变异系数。
(四)数据的分布形态指标
数据的分布形态指标包括峰度系数和偏度系数。
(五)位次指标
变量数列可划分为相等的若干部分的指标,有四分位数、十分位数等。
(六)箱索图
箱索图是由三个四分位数、极大值、极小值五个主要的位次量数(指标)显示数据分布形态的统计图。
三、难点和**
描述数据的三大类指标是对数据分布形态的基本描述,是掌握数据分布特点的关键。其中,*重要的是集中趋势指标和离散趋势指标,应该明确认识不同集中趋势指标之间的关系、不同离散趋势指标之间的关系,以及这两类指标之间的关系。
……