第1章 多元分析概述
1.1 引言
科学研究是一个反复学习的过程。首先必须指定一些与某种社会现象或自然现象有关的解释作为目标,然后通过收集数据和分析数据对这些目标进行检验。对通过实验或观察收集来的数据进行分析之后,人们通常会对现象提出一个改进的解释。在这个反复学习的全过程中,往往有些变量会被增添到研究中去,有些则会被剔除。因此大多数现象的复杂性要求研究人员去收集许多不同变量的观测值。本书讨论能从这几类数据集中获取信息的各种统计方法。由于这些数据包含许多变量的同时测量值,所以这一类方法称为多元分析。
人们需要了解许多变量之间的关系,这就使多元分析必然成为一个困难问题。因为一方面人的头脑常常被一大堆数据弄得不知所措;另一方面,供推断用的多元统计方法的推导却比在一元情形下需要更多的数学知识。我们选择的做法是只提供基于代数概念的解释,避开需要用到多元微积分学的统计结果的推导。我们的目标是以一种清晰的方式,利用大量说明性的例子和*低限度的数学,向读者介绍几种有用的多元方法。不过某些数学上的复杂知识仍是需要的,也要求读者具有进行定量思考的愿望。
我们的主要侧**在于对那些不受控制或操纵的变量所提供的测量值进行分析,只是在第6和第7两章中,我们才处理少数几个实验设计方案,以产生人们主动操纵重要变量时才会出现的数据。尽管实验设计通常是一项科学研究中*重要的部分,但要在某学科中控制适当数据的生成通常是不可能的。(情况的确是这样,例如在商业、经济学、生态学、地质学及社会学中就是如此。)实验设计原理的详情可参考文献[6]和E7],幸运的是,这些文献的内容也适用于多元情形。
许多多元方法的基本依据是一种被称为多元正态分布的基本概率模型,这点以后将看得越来越清楚。另一些方法就性质而言属于特殊方法,其正确性要由逻辑或常识方面的论据来证明。无论多元方法的来源如何,都必须在计算机上实现。计算机技术的*新进展已产生出一些相当复杂的统计软件包,从而使实现步骤变得比较容易。
……