判别分析大致可以回答以下几个问题:
**,能否根据一系列观测指标变量有效区分不同的类别?比如说,研究者是否能根据中学生在计算能力、逻辑推理能力、空间能力测验上的得分来预测其数学能力处于何种水平。
第二,究竟有多少个显著的判别函数?比如说,对于区分**、良好、不合格三种数学能力的中学生,可能由两个判别函数来完成——一个判别函数判断出不合格与其他两类中学生的差异,另一个判别函数判断出**与其他两类中学生的差异。后续统计分析有可能发现两个判别函数均能有效鉴别所属类别,也可能只有一个判别函数显著。事实上,我们可以大致判断出*多需要几个判别函数,即观测指标数量(k)与类别数量减1(g-1)中较小值。本例中类别数量和观测指标数量都是3,因此*多需要3-1=2个判别函数。在判别分析中,**个判别函数往往能*大限度地区分出不同组别的差异,可以解释原来组间差异中*大的部分;然后从**判别函数未利用到的信息中建立第二个判别函数;依此类推,直至建立起所有可能的判别函数。每个函数由于都利用了前面函数中未利用的信息,因而与前面所有函数都相互独立,满足正交关系。通常来讲,只有**个或者前两个判别函数能够有效区分不同的组别,其他判别函数则可能因为无法提供足够的额外信息而被忽略。在得到显著的判别函数之后,我们还需要回答这些函数的意义究竟是什么,不同的群体到底处于判别函数的哪个位置,观测指标与判别函数的相关如何。
第三,使用哪种线性方程来对新的个案进行分组?就本例而言,研究者得到另外一个班级学生在计算能力、逻辑推理能力、空间能力测验上的得分。那么,如何预测原来班级学生的数学能力到底处于何种水平?这里用到的函数被我们称为“分类函数”(classification functions)。那么,基于我们使用的分类函数,分类正确的比例有多大?如果出现了分类错误,是哪些个案被分配到错误的类别?
第四,我们所选择的一系列观测指标与不同类别的关联程度有多大?观测指标变量的重要性如何?比如,**个判别函数将数学能力不合格的中学生与其他两类中学生区分开来。那么,这个判别函数能代表所有原始数据中组间总差异的多大比例?这个比例越高,则表明该判别函数对于判别不同组别的效果越好。