1 信息检索概述
1.1 信息的概念与特征
信息的概念十分广泛,围绕信息而出现的信息资源、信息技术、信息系统、信息产业、信息化社会和社会信息化等相关术语不胜枚举。可见,信息的观点、概念和方法已经被政治、经济、科技、文化、生产等各个领域所接受和应用。那么,究竟什么是信息?至今仍无确切、统一的定义,站在不同的角度就有不同的理解或解释。
从自然界角度看,客观事物的普遍属性通常可用它的运动性、时空性、能量、反映性、质料、系统性等表示。其普遍性既是事物千差万别的表现,又是事物之间相互联系的内容。信息概念的引入旨在表明,信息既不是物质,也不是能量,而是依附于自然界客观事物而存在,也就是说,只要有物质存在,就有表征其属性的信息。例如,地球昼夜的变化是一种信息,它反映了地球绕太阳自转的运动特性和状态;山的高度是一种信息,它反映出山的空间特性;树干的年轮是一种信息,它反映了树木成长的时间特性——树龄;闪电是一种信息,它反映了云层中所含能量的特性;花的香味也是一种信息,它反映了花分子结构的化学特性等。因此,可以认为,信息的概念,实际上就是客观事物运动状态、时空特性、能量大小、质料、系统特征、相互联系方式等一切反映事物客观属性的总称。从这种意义上看,信息比客观事物的属性更具一般性与普遍性。
从人的主观认识角度看,信息是储存在人脑中的思想、观念、知识等形态。它既是每个具体人这一特殊事物属性的一种表征,又是外部客观事物属性在人脑中留下的印记,是物质反映属性的**形式。 信息检索作为一个学科的历史可以追溯到20世纪中期,其有代表性者如Granfield所确立的标引语言及检索系统评价方案,Salton提出的矢量空间模型与文献聚类技术,Roberson及Van Rijisbelrgen、Sparck Jones等人研制的概率模型,Smeaton在计算机语言学基础上的检索技术开发等的研究与试验,他们都对直至20世纪80年代末期文献检索领域的研究对象、原则和方法产生过重要影响。尽管其研究成果和设计思想基本上是在一个模拟文献检索作出的人工或虚拟环境中进行的,甚至还带有某种程度上的假说性,但却奠定了文献检索这门课程基于以“提问一检索”模式为核心的相关理论与方法的基础,传统的赋值标引,规范化的检索语言,线性的书目数据库结构,预定的检索策略,以回答检索提问为主的服务方式等构成了该模式的主要概念体系、方法和原则。
20世纪90年代以来,以Internet为核心连接起来的全球计算机网络使传统的以相对集中和规范为基准的文献数据库及其检索系统面临严峻的挑战。主要表现在:信息资源内容之广泛涉及各个学科领域乃至人类生活的方方面面;信息类型以动态、静态、音频及超声频等多姿多彩的方式再现;各类型、多种品牌的网络信息查询工具如雨后春笋般不断涌现;网络化与数字化技术将分布在世界各地主机上的信息资源数据库联为一体,为人们跨越时空、行业、地域快速、**传递信息提供了国际化的知识信息平台,极大地提高了用户获取信息的主动性、自主性。传统的以文献为主要检索对象的“提问一检索”模式已逐步被网络环境中“浏览一查询”模式取代。其*大特点是知识载体的多样性、复杂性;信息存储的动态性;查询工具与方法的智能化;搜索过程与结果的可视化;用户利用信息的高度个性化与主动性等。这些变化与特点不断丰富着信息检索的理论与方法内容。