第1章 绪论
1.1 信息检索简介
1.1.1 信息检索的概念和处理对象
什么是信息检索呢?概括地说,信息检索就是从非结构化的信息集合中找出与用户需求相关的信息。相应的,信息检索系统就是用来实现信息检索功能的计算机软件系统。
这里要强调的是,与数据库系统处理的结构化信息不同,信息检索系统处理的是“非结构化信息”。什么是“非结构化信息”呢?一篇新闻就是一条非结构化信息,新闻中会出现一些人名、地名、机构名等实体,以及这些实体之间的关系(比如某人是某地区某机关的负责人),还有与这些实体相关的事件(比如某人访问了某地)。但是这些人、事、物、关系和事件并不像关系数据库的二维表中存放的信息那样,被**地分割并严格地存放在合适的字段或��录中。这种在现实世界中自然存在的模糊而带有歧义且没有经过规格化的信息被称为“非结构化的”(unstructured)信息。
现实世界中存在着大量的非结构化信息,除文本外,还有图像、图形、语音、视频等多媒体信息。本书不讨论多媒体检索,而是专注于文本检索,因此本书中所涉及的检索对象默认为文本。文本又有各种各样的类型,如网页、邮件、博客、论坛上的帖子、聊天记录、短信等,不同类型的文本有不同的特点,比如论坛上的帖子往往非常口语化,存在大量的别称、省略语等现象,给检索带来很大的挑战。
……