第2章大数据搜索挖掘综述
本章将对大数据搜索与挖掘中的相关技术(特别是自然语言理解与处理中涉及的相关技术)进行综述,内容涵盖文本分析与挖掘、自然语言理解与处理、中文词法分析中的分词处理、未登录词及其识别、有意义串及其识别、词典组织与管理、文本分类、文本聚类、话题识别与跟踪、信息检索的基本原理、句子级检索与新信息检测等内容。
2.1常用的信息检索模型
当用户以一定的方式表示出其信息需求后,系统应根据用户的需求,在表示信息的数据(特别是非结构化的文本数据)中进行检索,获取与用户需求相关的结果集并按一定次序输出,对这个过程建模就产生了各种不同的信息检索模型。
一般地,一个信息检索模型要确定文档的表示方式、用户查询的表示方式及用户查询与文档间相关度的计算方法,包括文档表示、查询表示、匹配函数和结果输出等。其中,文档表示反映文档在系统中的存储形式,查询表示反映用户想要表达的信息需求,匹配函数用于把经过处理的文档表示和查询表示进行匹配计算并得到结果集,结果输出则是将检索结果集按照其和用户需求的相关性排序输出。信息检索模型是将文档、查询及其关系进行建模的框架,一般可由三元组F(D,Q,R(qi,dj))表示,其中D是文档逻辑视图,Q是用户信息需求的逻辑视图,R(qi,dj)是一个与查询qi∈Q和文档dj∈D有关的函数,以便决定结果集的输出顺序(孙建军等,2004;凌云,2003;徐宝文,2003;焦玉英等,2003;Baeza—Yatesetal.,1999)。
相关工作中,由Salton等提出的向量空间模型成功地应用于SMART系统中,Salton等(1983)在20世纪80年代末又提出了扩展布尔检索模型;Wong等(1985)建立的广义矢量模型考虑了词与词的相依性;Cooper和Bookstein利用集合论建立了信息检索的一般社会模型;Maron、Roberton和SparkJones于20世纪60~80年代先后建立了三个概率检索模型;Raedchi在模糊检索理论方面进行了研究。下面,对一些信息检索模型及常用的检索性能评价指标进行综述(高凯等,2010)。