第2章 信息检索模型
2.1 引言
任何检索策略都包含3个部分:文档表示、查询表示和匹配函数。文档表示反映文档在系统中的存储形式描述,可用一组关键词或标引词表示;查询表示反映对用户信息需求的描述;匹配函数用于将经过处理的文档表示和查询表示放入系统中进行匹配,以过滤输出结果。
信息检索系统首先要对文档集进行索引和归档,以支持信息检索。检索式代表用户的信息需求。检索系统分析用户查询与文档的表示,进行相���性匹配,排序返回查询结果。因此文档信息检索过程实际上涉及文档集的逻辑表示、用户查询表示、相似性匹配及其排序3个重要的处理。
通过对文档和查询的表示方式以及检索的实现方式分析,对信息检索任务进行数学抽象,就产生了相应的信息检索模型。信息检索模型主要从两个方面抽象地研究信息检索方法:一是确定在检索模型中如何表示构成检索系统的两个要素,即文档和检索式;二是确定在模型中如何定义和计算文档与检索式之间的关系。需要指出的是,信息检索模型的研究并不考虑对具体实现细节的数据存储、数据结构等的描述,而是对数学模型的构造。传统的信息检索模型(又称经典信息检索模型)包括布尔模型、向量空间模型和概率模型。检索模型的重要作用主要体现在以下几个方面:更**地描述出文档与文档、文档与查询问的相关关系,使之能比较和计算;安排更合理、更便于检索的文档存储形式;在此基础上设计出合理的检索方式;除信息检索外,还进行一些信息辅助分析工作。
随着信息检索研究的不断深入;在经典信息检索模型的基础上已发展出了许多信息检索模型。基于经典布尔模型的信息检索模型中,文档和查询用标引词集合来表示,都是建立在集合理论的基础之上,因此称该类模型为集合理论模型,包括模糊集合论模型、扩展布尔模型和粗糙集模型等。
……