第1章 绪论
1.5 学习算法的评价
评价学习算法优劣*常用的标准有:预测精度(泛化能力)、学习与分类速度、可理解性。在精度方面,几乎所有的应用领域都希望预测精度越高越好,因此提高泛化能力是人们永远的追求。在速度方面,人们总是希望处理速度越快越好,尤其是大规模监督学习问题,学习或分类速度太慢的算法很难投入使用,加快处理速度也是人们永远的追求。分类器的可理解性是指,学习后得到的分类器的行为是否能够被用户理解。由于学习系统只是一种辅助手段,*终的决策还要由用户来做,因此,可理解性强的分类器一般更容易被用户接受。
在实际应用中,分类器很难在这三个方面都表现突出,例如,利用BP神经网络算法获得的分类器预测精度高,分类速度也很快,但其训练过程慢,而且可理解性也很差。因此,用户常常需要在这三个方面之间进行权衡,以便更好地满足应用需求。下面我们对分类器的常用评价方法进行���单介绍。
1.5.1 *短描述长度
*短描述长度准则(Minimum Description Length Principle,MDLP)是1983年由Rissanen首先提出的(Rissanen l983),并应用于字符串的随机复杂性研究(Rissanen1986)。Quinlan和Rivest将MDLP用于决策树的创建(Quinlah 1989)。……