**章 多元统计分析概述
**节 引言
多元统计分析是运用数理统计方法来研究解决多指标问题的理论和方法。近40年来,随着计算机应用技术的发展和科研生产的迫切需要,多元统计分析技术被广泛应用于地质、气象、水文、医学、工业、农业和经济等许多领域,已经成为解决实际问题的有效方法。由于计算机处理技术发生着日新月异的变化,人们处理大规模复杂数据的能力日益增强,从大规模数据中提取有价值的信息能力日益提高,人们将会迅速进入大数据时代。大数据时代不仅会带来人类自然科学技术和人文社会科学的发展变革,还会给人们的生活和工作方式带来焕然一新的变化。大数据时代的到来,在给多元统计分析理论的发展和方法的应用带来了发展壮大机会的同时,也使其面临着重大的挑战。
多元统计分析起源于20世纪初,1928年Wishart发表论文《多元正态总体样本协差阵的**分布》,可以说是多元统计分析的开端。30年代R. A. Fisher、H. Hotelling、S.N.Roy、许宝騄等做了一系列的奠基性工作,使多元统计分析在理论上得到了迅速发展。40年代多元统计分析在心理、教育、生物等方面有不少的应用,但由于计算量大,其发展受到影响,甚至停滞了相当长的时间。50年代中期,随着电子计算机的出现和发展,多元统计分析���法在地质、气象、医学、社会学等方面得到广泛的应用。60年代通过应用和实践又完善和发展了理论,新的理论、新的方法不断涌现,又促使它的应用范围更加扩大。70年代初期,多元统计分析才在我国受到各个领域的极大关注,并在理论研究和应用上取得了很多显著成绩,有些研究工作已达到国际水平,并已形成一支科技队伍,活跃在各条战线上。80年代初期,数据在不同信息管理系统之间的共享使数据接口的标准化越来越得到强调,为数据的共享和交流提供了捷径,80年代后期,互联网概念的兴起、“普适计算”(ubiquitous computing)理论的实现以及传感器对信息自动采集、传递和计算成为现实,为数据爆炸式增长提供了平台,为多元统计理论和方法的应用开辟了新的领域。90年代,由于数据驱动,数据呈指数增长,企业界和学术界也不断对此现象及其意义进行探讨,为大数据概念的广泛传播提供了途径。进入21世纪以来,世界上许多**开始关注大数据的发展和应用,一些学者和专家发起了关于大数据研究和应用的深入探讨,如M.S.Vikor和C.Kenneth所著的《大数据时代》等,对大数据促进人们生活、工作与思维的变革奠定了基础。在此期间,多元统计与人工智能和数据库技术
相结合,通过互联网和物联网在经济、商业、金融、天文等行业得到更广泛的应用。
为了让读者更加系统地掌握多元统计分析的理论与方法,本书**介绍多元正态总体的参数估计和假设检验以及常用的统计方法。这些方法包括判别分析、聚类分析、主成分分析、因子分析、相应分析、典型相关分析、多维标度法以及多变量的可视化分析等。与此同时,利用在我国广泛流行的R语言来实现实证分析,做到在理论的学习中体
会应用、在应用的分析中加深理论。
第二节 大数据时代的多元统计分析
大数据是信息科技高速发展的产物,如果要利用多元统计分析的理论方法处理大数据问题,必须要全面深入理解大数据的概念,必须理解大数据产生的时代背景,然后根据大数据时代背景理解大数据概念。
一、大数据时代背景
M.Grobelink在《纽约时报》2012年2月的一篇专栏中称,“大数据时代”已经降临,在商业、经济及其他领域中,管理者决策越来越依靠数据分析,而不是依靠经验和直觉。
如果说19世纪以蒸汽机为主导的产业革命时代终结了传统的以手工劳动为主的生产方式,并从而推动了人类社会生产力的变革,那么20世纪以计算机为主导的技术革命则方便了人们的生活,并推动人类生活方式发生翻天覆地的变化。我们认为,随着计算机互联网、移动互联网、物联网、车联网的大众化和博客、论坛、微信等网络交流方式的日益红火,数据资料的增长正发生着“秒新分异”的变化,大数据时代已经到来毋庸置疑。据不完全统计,**之中,互联网产生的全部数据可以刻满1.68亿张高密度数字视频光盘(digital video disc,DVD)。国际数据公司(International Data Corporation,IDC)的研究结果表明,2008年全球产生的数据量为0.49ZB(1024EB=1ZB,1024PB=1EB,1024TB=1PB,1024GB=1TB),2009年的数据量为0.8ZB,2010年增长为1.2ZB,2011年的数据量高达1.82ZB,相当于全球每人产生200GB以上的数据,而到2012年,人类生产的所有印刷材料的数据量是200PB,全人类历史上所有语言资料积累的数据量大约是5EB。哈佛大学社会学教授加里 金说:“大数据是一场革命,庞大的数据资源使得各个领域开始了量化进程,无论是学术界、商业界还是政府,所有领域都将开始这种进程。”在大数据时代,因为等同于数据的知识随处可寻,对数据的处理和分析才显得难能可贵,所以在大数据时代,如何从纷繁芜杂的数据中提取有价值的知识是多元统计分析方法面对的首要问题。
二、大数据对多元统计分析的要求
在大数据时代,数据**人们的生活,引导商业变革和技术创新。从大数据的时代背景来看,可以把大数据作为研究对象,从数据本身和处理数据的技术两个思路理解大数据,这样理解大数据就有狭义和广义之分:狭义的大数据是指数据的结构形式和规模,是从数据的字面意义理解;广义的大数据不仅包括数据的结构形式和数据的规模,还包括处理数据的技术。
狭义角度的大数据,是指计量起始单位至少是PB、EB或ZB的数据规模,其不仅包括结构化数据,还包括半结构化数据和非结构化数据。我们应该从横向和纵向两个维度解读大数据:横向是指数据规模,从这个角度来说,大数据等同于海量数据,指大数据包含的数据规模巨大;纵向是指数据结构形式,从这个角度来说,大数据不仅包含结构化数据,更多的是指半结构化数据和非结构化数据,指大数据包含的数据形式多样。广义角度的大数据,不仅包含大数据结构形式和规模,还泛指大数据的处理技术。大数据的处理技术是指能够从不断更新增长、有用信息转瞬即逝的大数据中抓取有价值信息的能力。在大数据时代,传统针对小数据处理的技术可能不再适用。这样,就产生了专门针对大数据的处理技术,大数据的处理技术也衍生为大数据的代名词。不管从广义的角度,还是从狭义的角度,大数据的核心是数据,而数据是统计研究的对象,从大数据中寻找有价值的信息的关键在于对数据进行正确的统计分析。因此,鉴定“大数据”应该在现有数据处理技术水平的基础上引入统计学的思想。
从统计学科与计算机学科性质出发,可以这样来定义“大数据”:大数据指那些超过传统数据系统处理能力、超越经典统计思想研究范围、不借用网络无法用主流软件工具及技术进行单机分析的复杂数据的集合,对于这一数据集合,在一定的条件下和合理的时间内,可以通过现代计算机技术和创新统计方法,有目的地进行设计、获取、管理、分析,揭示隐藏在其中的有价值的模式和知识。
毫无疑问,由于计算机处理技术日新月异,人们能处理大规模复杂数据的能力日益增强,从大规模数据中提取有价值信息的能力日益提高,人们将会迅速进入大数据时代。大数据时代不仅会带来人类自然科学技术和人文社会科学的发展变革,同时也对数据的处理方法提出了更高的要求。
统计学是一门古老的学科,是处理数据的重要方法之一,已经有三百多年的历史,在自然科学和人文社会科学的发展中起到了举足轻重的作用;统计学又是一门生命力极其旺盛的学科,它海纳百川又博采众长,随着各门具体学科的发展不断壮大自己。毫不例外,大数据时代的到来,给统计学科带来了发展壮大机会的同时,也使得统计学科面临着重大的挑战。怎样深刻地认识和把握这一发展契机,怎样更好地理解和应对这一重大挑战,这就迫使我们在对多变量统计分析的理论和方法进行学习及研究的基础上,重新审视并提出适合现代数据分析的思想、理念与方法。
第三节 应用背景
统计方法是科学研究的一种重要工具,其应用颇为广泛。特别地,多元统计分析方法常常被应用于自然科学、社会科学等领域的问题中。为了进一步体现多元统计分析方法的应用,应该首先从宏观的角度认识统计学应用的背景,然后从微观的角度显示多元统计分析应用的广泛性。
一、统计学的生命力在于应用
(一)统计学产生于应用
从统计学的发展过程中可以看出统计学产生于应用,在应用过程中发展,它的生命力在于应用。
300多年前,威廉 配第(1623—1687)写的《政治算术》,从其研究方法看,被认为是一本统计学著作。政治算术学派的统计学家将统计方法应用于各自熟悉和感兴趣的研究领域,都还是把其应用对象当成肯定性事物之间的联系来进行研究的。他们确信,事物现象存在着简单明了的数量关系,需要用定性与定量的方法将这种关系(规律)揭示或描述,使人们能够更具体、真切地认识世界。
数理统计学派的奠基人凯特勒在统计学中引入了概率论,把它应用于自然界和社会的许多方面,从而为人们认识和说明不确定现象及其相互之间的联系开辟了一条道路。在自然科学和社会科学的许多领域,都留下凯特勒应用统计学研究的烙印。自从凯特勒把概率论引入应用中的统计学,人们对客观世界的认识及描述更全面、更接近于实际。他在广泛应用拉普拉斯等概率论中的正态曲线、误差法则、大数法则等成果的过程中,为统计学增添了数理统计方法,进而又扩展了统计学的应用范围。
在应用中对发展统计方法贡献显著的当推生物统计学派的戈尔登(1822—1921)、皮尔逊(1857—1936)和农业实验学派的孟德尔(1822—1884)、戈塞特(1876—1937)等。戈尔登六年中测量了近万人的身高、体重、呼吸力、拉力和压力、手击的速率、听力、视力、色觉及个人的其他资料。在探究这些数据内在联系的过程中提出了今天在自然科学和社会科学领域中广泛应用的“相关”思想。将大量数据加以综合描述和比较,从而能使他的遗传理论建立在比较**的基础上,为统计学引入了中位数、四分位数、分布、回归等极为重要的概念和方法。皮尔逊在检验他老师戈尔登的“祖先遗传法则”和自然选择中“淘汰”对器官的相关及变异的影响中,导入了复相关的概念和方法。在讨论生物退化、反祖、遗传、随机交配等问题中,展开了回归与相关的研究,并提出以χ2检验作为曲线配合适合度的一种量度思想。
农业实验学派的孟德尔和戈塞特同样是在实验回答各自应用领域中出现的新要求、新课题,发展了统计思想和统计分析方法。孟德尔及其后继者贝特森等创建的遗传实验手段,比通过记录生命外部联系曲折反映事物内在本质的描述统计更加深刻。他们运用推断的理论与实验的方法,通常只用小样本来处理。戈塞特的 t分布与小样本思想更是在由于“有些实验不能多次进行”,因此“必须根据极少数的事例(小样本)来判断实验结果的正确性”的情况下产生的。今天,这些统计思想和分析推断方法已经成为科学家不可缺少的基本研究工具。
近现代,统计学已经**广泛应用于昀**的运动形式——社会。其结果便是出现了一系列与其应用对象指导理论和其他相关学科交织在一起的边缘学科,如在社会经济方面的投入产出经济学、经济计量学、统计预测学、统计决策学等。在这些边缘学科中,统计学与其应用对象结合更紧密、更自然。这些学科的专家学者至少在两个或两个以上专业领域里有比较深厚的学术造诣。统计学的应用帮助他们在各自的应用领域中取得了辉煌的成就。
可见,统计学的发展一刻也离不开应用。它在应用中诞生,在应用中成熟、独立,在应用中扩充自身的方法内容,同时扩展了应用领域,又在应用中与其他学科紧密结合形成新的边缘学科。一部统计理论发展史同时又是一部应用统计发展史,正因如此,统计学的生命力在于应用。
(二)理论研究为统计学的应用奠定了基础
统计理论研究和应用研究从总体上说应该属于“源”和“流”的关系。如果理论不成熟,方法不完善,统计应用研究也很难达到较高的水平。因此,充分发挥统计学的生命力,必须建立在统计理论研究的