第2章 描述性统计
目标给出探索、概括以及描述数据的图形法和数值法。
2.1 描述定性数据的图形法和数值法
假定你已经收集了一个感兴趣的数据集,如何弄清楚它的意义?也就是说,如何去整理、总结这个数据集,使得它比较容易理解、有意义?在这一章里,我们给出几种描述数据的基本统计工具,包含可以快速给出数据直观形象的图表和描述数据某种性质的数值量度。恰当的用法依赖于我们想要描述的数据类型(定量的或定性的)。
在描述定性观测值时,我们以这样一种方式来定义类:每个观测值能落入一类并且只能落入一类(或组)。然后给出落入每一类的观测值个数或相对于观测值总数的比例,用这种数值方法来描述数据集合。
定义2.1 对给定的类,类(或组)频数是指落入这个类中的观测值的个数。
定义2.2 对给定的类,类(或组)相对频率是指落入这个类中的观测值个数相对于观测值总数的比例
为了说明这两个概念。考虑一个调查核动力反应堆**和使用能源的危险的研究人员感兴趣的问题。研究人员发现自1977年以来,全世界有45起与能源有关导致多人死亡的事故,表2.1汇总了研究人员的调查结果。在这个应用中,感兴趣的定性变量是与能源有关的死亡事故的原因。由表2.1可以看到,45起事故数据分为6类(原因),汇总表给出了每类原因的频数和相对频率。很明显,煤气爆炸是*可能引起事故的原因,在45起事故中出现了28次(约占62%)。
……