章成志 分享 http://blog.sciencenet.cn/u/timy 宠辱不惊闲看庭前花开花落,去留无意漫观天外云展云舒

博文

基于知识空间的智能信息检索模型研究

已有 7950 次阅读 2008-2-24 11:47 |个人分类:信息检索

章成志  苏新宁

  要: 对当前信息检索系统存在的问题进行分析,明确智能信息检索迫切需要解决的问题;随后在对现有的智能信息检索模型比较分析的基础上,提出基于知识空间的智能信息检索模型——知识空间模型,描述了基于知识空间的智能信息检索模型的框架、体系结构及其中若干关键问题。

关键词: 智能信息检索;语义检索;知识空间模型

Intelligent Information Retrieval Model Based on Knowledge Space

Zhang Chengzhi, Su Xinning

Abstract:     The authors analysis the difficulty in the current information retrieval systems and expound the problem which are in need of solution urgently. They compare the current intelligent information retrieval (IIR) models and propose the novel IIR model, i.e. knowledge space- based model (KSM). They provide the frame and architecture of KSM-IIR. Some key issues of the model are proposed.

Key words:    Intelligent information retrieval, Semantic retrieval, Knowledge space-based model

 

1         

近年来,数字图书馆环境下的信息资源组织与整合研究开展得如火如荼,与这一情况相比,数字图书馆环境下的信息检索研究,特别是智能化、集成化信息检索研究,在理论和实践上,显得相对滞后,并未形成系统化的研究。虽然先后出现过“概念检索”、“知识检索”等相关的研究[1][2],但大多都是在一个较小专业领域,并且仅停留在词汇转换的层面进行的探索,与用户真正需要的高效智能检索服务还存在一定的差距。

本文就对当前信息检索系统存在的问题进行分析,指出智能信息检索迫切需要解决的问题;随后在对现有的智能信息检索模型比较分析的基础上,提出基于知识空间的智能信息检索模型——知识空间模型,描述了智能信息检索体系结构以及其中若干关键问题及解决方法。

2          当前信息检索系统存在的问题

现有的信息检索模型经历了布尔模型、向量模型和概率模型三种经典模型。作为这些理论指导下的实际应用——搜索引擎,则是用户获取信息的主要方式。受传统信息组织方式以及自然语言语义研究上存在的局限性等方面因素的影响,现有数字图书馆或搜索引擎所提供的信息检索服务大多是基于信息资源的单纯“推送”服务,多以信息载体而非信息内容的形式作为其服务内容,并没有将信息本身的效用和含义与用户信息利用过程相互动。从查询式表示、文档表示与用户交互三个方面来看,当前信息检索系统存在的问题及其产生原因分别说明如下。

2.1 查询式表示问题

目前信息检索模型主要有布尔模型、向量模型和概率模型三种经典模型和搜索引擎,这些检索模型的查询式一般都由词汇构成。由词汇构造查询式在数字图书馆信息检索中存在六个深层次的问题,即:查询式构造难问题,也称查询式的“忠实表达”问题;同义词问题,也称查询词的“表达差异”问题;语义孤立问题,也称“词汇孤岛”问题;多义词问题,也称查询词“语境缺失”问题;歧义词问题;词汇表达能力差异问题。

2.2 文档表示问题

与查询式表示存在的问题类似,文档表示中也存在同义词问题、语义孤立问题、词语表达能力差异问题。除此之外,文档表示中还存在如下几个问题:

特征抽取问题。通常的信息检索模型是将文本切分后的关键词作为特征,并且假设它们的出现概率是相互独立的。“某词在某个文献中使用的次数越多,它就越可能是指示主题内容的词。”这是一种浅薄的近似,不是理解,因而成为检索效率低的隐患[4]

文档分类问题。现有的信息检索系统,如搜索引擎大多使用单一分类体系,对每个用户,返回的分类结果都是一样,用户参与的成分较少。

文档形式化问题。虽然文档可形式化表示为词汇的词形、词性及一些语法结构,但这样还是割裂了文本中原有的逻辑语义关系。

文档权威度差异问题。大多数信息检索系统是按照查询词在文本中出现的频次来决定文档的相关程度,没有考虑文档的权威程度不同。

2.3 用户交互问题

信息检索的用户交互过程中存在的问题主要有:

个性化需求问题。用户的知识背景,兴趣爱好和专业领域不同,检索的结果应该也有不同,而通常的信息检索系统则没有考虑用户知识。自然语言检索问题。传统的关键词检索方式缺乏要的智能性,很难实现问答式信息检索。相关反馈问题。用户的浏览行为,如点击行为、信息查找、保存、收藏等行为都可以看作相关反馈的一个方面。通过相关反馈可以进行有效的扩检和缩检。
    针对当前信息检索系统存在的问题,可以看出实现智能信息检索必须具有查询式、文档与用户交互三方面的知识处理能力和理解能力。其关键问题,就是要寻求一种新的检索模型,把信息检索从传统的基于关键词层面提高到基于知识层面,并且强调用户在信息活动的主导性和创造性,将用户纳入到信息生命周期的整个过程中,强调用户以及用户之间的交流、协作、学习以及知识创新活动,使用户能够更自然、深入、有效地利用信息和知识来解决问题。

3          模型的引入——语义检索模型的比较分析

英国的情报学家Karen Spank Jones认为智能信息检索就是能够在已有知识的基础上进行推理,从而为用户的信息需求确定一个相关文献集合[5]。实际上,这样的理解是不透彻的,

因为信息检索用户真正需要的是信息,而不是相关文档,因此,对智能信息检索更为合理的解释为:模拟人类的认知功能和智能活动,如推理、学习等,有效地利用一切知识源,尽快找到满足用户需求的情报知识[6]。已经提出的智能信息检索模型有:概念检索、传统的知识检索、本体检索,由于这三个模型都体现了语义的具体应用,因此,将它们都划入语义检索的范畴。本文在分析比较这三种模型的基础上,提出了基于知识空间的智能信息检索模型。

    首先简要介绍一下概念检索、传统的知识检索、本体检索的相关概念和基本思想。

概念检索的是通过对文献的原文信息进行语义上的自然语言处理,析取各种概念信息,并由此形成一个知识库,然后根据对用户提问的理解检索知识库中的相关信息以提供直接的回答。具体地说,就是当使用某一检索提问词进行检索时系统基于对概念内涵的理解以及用户提交的关键词所表达的概念作为搜索依据,能同时对该词的同义词、近义词、上下位词同样进行检索,选出与此概念相关的页面,以达到扩大检索、避免漏检的目的。

知识检索是模拟扩展人类关于知识处理与利用的智能行为和认识思维方法。例如:抽象思维方法,包括逻辑推理、机器学习、概念的概括与划分、对象的分类与继承等;形象思维方法,如类比、联想等典型方法[7]

由于Ontology 具有的良好的概念层次结构和对逻辑推理的支持,因而本体在信息检索,特别是在基于知识的检索中得到了广泛的应用。具体应用方法为:对用户检索界面获取的查询请求,查询转换器按照Ontology 把查询请求转换成规定的格式,在Ontology 的帮助下从元数据库中匹配出符合条件的数据集合;检索的结果经过定制处理后,返回给用户。

    三种语义检索模型比较分析可参见表1可以看出,传统的基于语义的检索模型与系统仍然停留于查询式和文档的词汇处理层面上。没有充分考虑到用户知识、领域知识、文档知识以及检索策略知识等多种知识对检索系统性能的提升。智能信息检索就是要将传统的基于词汇层面提高到基于知识层面,并且强调多知识源的融合与利用,为用户提供所需要的、准确的、全方位的信息或知识。为此,笔者提出了基于知识空间的智能信息检索模型。

4          基于知识空间的智能信息检索模型

4.1  KSM-IIR模型形式化描述

    基于知识空间的智能检索模型(Knowledge Space Model –Intelligent Information Retrieval,简称KSM-IIR),就是系统化地考虑检索用户所处在的知识空间,其中包含用户知识、文档知识、通用知识、领域知识、专家知识等,这些知识既有显形可获得的,也有些是需要进行显性化的隐性知识。KSM-IIR中包含的这些知识类型详细说明如表2所示。

Ω表示知识空间,则Ω可形式化为五元组:Ω [UD {GSE}]。其中U表示用户知识,包括用户需求、背景知识、搜索行为,相关反馈信息,用户检索环境等。D表示文档知识,包括关于文档的表示、组织、权威度、信息提取等方面知识。{GSE}为中间知识,其中,G表示通用知识,包括通用本体知识,提供常识性知识,多语种互换知识。S表示领域知识,包括领域分类知识、元数据和专业概念知识、领域本体知识。E表示专家知识,包括信息组织和检索的基本策略知识,如信息门户、导航、浏览等。

KSM-IIR的形式化描述为:

[ΩR(DUsim(UD) ]

    其中R(D→USim(UD)表示用户信息需求满足函数,包括推理算法D→U和相关度评估算法Sim(UD)KSM-IIR模型就是在知识空间Ω的作用下,对用户的信息需求进行推理和信息相关度评估,最终为用户提供其所需要的信息。

Baeza-Yates提出的四元组信息检索形式化模型[8]相比,KSM-IIR模型将该模型的框架进一步进行了形式化和具体化,即:利用知识空间模型来对文档表示、用户查询等知识进行建模。与M. Agosti提出的两级概念结构模型[9]相比,KSM-IIR模型除了包含文档空间和查询空间外,还延伸出了用户空间和作者空间。

4.2  KSM-IIR模型框架描述

        KSM-IIR模型框架如图1所示。其中,用户知识由用户空间和查询空间组合而成,其中,用户文档、用户之间的关系构成了用户空间,查询式、查询式之间的语义关系构成了查询空间。查询空间是构建用户空间的重要依据。信息需求从形式上表现为用户空间向查询空间的转换,用户可通过用户空间和查询空间的的辅助,构造查询式,逐渐明确其信息需求



文档知识由文档空间和作者空间组合而成,其中,文档、文档间的超链接关系构成了文档空间,作者、作者间的关系构成了作者空间。文档空间是构建作者空间的重要依据。信息生成从形式上表现为作者空间向文档空间的转换。

如前所述,中间知识由通用知识、领域知识、专家知识构成。它们用于对用户知识、文

档知识进行表示、组织、推理。中间知识还对信息映射提供帮助,这里所说的信息映射是指:信息需求和信息产生的结果(即文档)之间相关度的计算。中间知识中的专家知识为相关度计算方法、结果排序方法、结果可视化方法等提供了具体的指导。

下面对KSM-IIR模型中的基本元素、关系、行为分别做详细描述。

1)基本元素

用户文档(User Profile):关于信息需求用户概貌的描述信息,包括用户的专业背景、

兴趣爱好、信息获取习惯等信息。用户文档的获取来源于用户显式定制或从用户所使用的查询式日志、查询会话等隐式获取方式。

查询式(Query):信息需求用户在搜索信息时,所使用的查询表达式。按照查询式的颗粒度不同,可以将其分为:词语(串)、句子、段落、篇章等。查询空间中的查询式是构建用户文档的重要依据。

文档(Document):信息载体,包括结构化、半结构化、非结构化等三种类型的文档。

作者文档(Author Profile):关于生成文档的行为者概貌的描述信息,包括作者的行业分类或研究领域、权威度等信息。文档空间中的文档与文档间的超链接信息是构建作者文档的重要依据。

2 基本关系

查询用户关系:信息需求者之间的关系。可用分类层次树或语义网络等方式来表示。这种关系可以利用分类技术或者聚类技术来实现。查询用户之间的关系构成了关于查询用户的社会关系网络,可将小世界模型原理应用到查询用户关系的分析当中。通过查询用户关系可以发现Web社区,进行信息的协同推荐服务。

查询式语义关系:查询式通过分类或聚类技术得到查询式的分类层次树[10]或语义网络。

通过查询式语义关系可以进行有效的查询推理、查询扩展或相关查询式推荐等服务。

文档超链接:文档空间内文档之间的超链接关系,通过超链接可以挖掘文档内部之间的关系,通过链接和被链接的数目来测度某一文档的权威度。通过计算文档间的语义相关度,可以为文档建隐式的超链接。通过文本分类或聚类技术可以将文本组织成一定的语义结构。

作者关系:文档的生产者之间的关系,包括引用和被引用关系、合作生产关系以及其他

在文档元数据上产生的语义关系等。通过作者关系,可以进行同类作者推荐、相似文档推荐等服务。

3)基本行为

用户提交查询式:用户空间里的信息需求用户将其所使用的查询式通过信息检索系统界面提交给信息检索系统。提交的查询式通过分类、聚类等技术,形成查询空间。

查询会话:查询空间与文档空间的若干连接过程中用户的信息选择行为,通常表现为信息需求用户在提交查询式、信息系统返回文档列表后的信息选择行为,如点击链接。

用户浏览或导航:用户空间通过浏览或导航方式进行信息获取的行为。该行为与M. Agosti提出的两级概念结构模型[9]中的浏览或导航行为一致。

文档生成:作者将其作品公开发布,并且信息检索系统能够对该文档进行索引。

信息推送:与Ad-hoc方式相反的信息获取行为,属于信息路由(Information Routing)范畴,即文档主动推荐到信息需求用户。

此外,KSM-IIR模型中除了包括这五种基本信息获取行为外,还包括其他的行为,本文不再一一描述。

下面对KSM-IIR模型的体系结构和其中的关键技术问题进行说明。

4.3 KSM-IIR体系结构

2KSM-IIR模型的体系结构图。主要包括文档空间中的信息整合与存储、查询空间与文档空间的信息映射,即信息检索、知识空间中的人机交互三个层次。在信息整合与存储部分,涉及到的关键技术为信息过滤、信息分类、信息提取以及信息索引。在信息检索层,主要包括查询式分析、查询式与索引的相似度计算、检索语义推理和相关度排序算法。在人机交互端,主要完成信息需求的获取与语义分析、用户文档配置、信息检索相关反馈以及查询式的重构。



4.4 KSM-IIR关键技术

KSM-IIR中涉及到的技术有知识空间中的信息过滤、信息分类、信息提取、信息索引、查询式分析、信息映射过程中的查询式与索引的相似度计算、检索语义推理和相关度排序算法、查询空间中的相关反馈以及查询式的重构等。本节对其中的关键技术问题进行简要说明。

1 信息提取技术

信息提取与文本挖掘在信息检索中具有重要作用。命名实体(NE)的识别、同义词

关系的自动识别、文本主题概念的提取、术语定义的提取、文本其他元数据的提取等是信息

提取的重要研究内容。信息提取完成后,为后续的文本挖掘,如文本摘要、文本篇章结构分

析、文本分类等提供了基础。经过信息提取与文本内容挖掘,可以为信息检索用户提供基于内容的、多层次、不同颗粒度的检索信息。

2)分类和聚类技术

在知识空间中,对用户知识空间中用户和查询需要进行有效的分类和聚类,才能建立用户空间和查询空间,对文档空间和作者空间进行有效的分类和聚类,才能建立文挡空间和作者空间。高效的分类和聚类技术可以充分利用知识空间的所有知识,从而提高信息检索效率。

目前分类技术已比较成熟,而聚类技术还存在很多需要解决的问题,如提高聚类算法的效率、聚类效果的有效评价等。

3)人机交互与可视化技术

    相关信息的有效检索直接受到两个因素的影响:用户任务和检索系统所采用的文档逻辑视图[8]。人机交互与可视化技术在信息检索过程中,为明确用户信息需求、有效选择信息起着极其重要的作用。目前人机交互与可视化技术的难点问题在于如何提高人机交互的效率和对文档内在抽象信息的可视化。

5          结束语

本文就对当前信息检索系统存在的问题进行分析,指出智能信息检索迫切需要解决的问题;在对现有的智能信息检索模型比较分析的基础上,提出基于知识空间的智能信息检索模型——知识空间模型,系统化地考虑检索用户所处在的知识空间,知识空间中包含用户知识、文档知识、通用知识、领域知识、专家知识等,描述了基于知识空间的智能信息检索模型的框架、体系结构及其中若干关键问题。

今后的深入研究工作有知识空间中各种知识的融合研究、模型中的某些隐性知识显性化、形式化的研究、查询式和文档的聚类算法研究、模型的测试与评价研究等。

参 考 文 献

[1]     李蕾,郭祥昊.基于语义网络的概念检索研究与实现.情报学报,2000,19(5):525-531.

[2]     施水才.信息检索技术应用的新方向:普及检索和知识检索.中国传媒科技, 2001(8):37-38.

[3]     Feng Chien, L, Tieh Pu, H. Important Issues on Chinese Information Retrieval. Computational Linguistics and Chinese Language Processing, 1996,1(1):205-221.

[4]     贾同兴.人工智能与情报检索.北京:北京图书馆出版社.1997.

[5]     Sparck Jones, K. Intelligent Retrieval. In: Jones, K. P., ed. Intelligent Information Retrieval: Proceedings of informatics 7, London: Aslib, 1983:136-142.

[6]     张玉峰.智能情报系统.武汉:武汉大学出版社,1991.

[7]     张玉峰,李敏,晏创业.论知识检索与信息检索.中国图书馆学报.2003,29(147):23-26.

[8]     Baeza Yates, R., Ribeiro Neto B. Modern Information Retrieval. New York : ACM Press,1999.

[9]     Agosti, M., Gradenigo, G. & Marchetti, P. A hypertext environment for interacting with large textual databases. Information Processing & Management,1992,28(3):371-387.

[10]  Shui-Lung Chuang, Lee-Feng Chien. Automatic Query Taxonomy Generation for Information Retrieval Applications. Online Information Review, 2003, 27(4):243-255.

注:本文发表于《现代图书情报技术》2006年第12期。




https://blog.sciencenet.cn/blog-36782-16237.html

上一篇:基于多层特征的字符串相似度计算模型
下一篇:面向信息检索的排除词识别研究
收藏 IP: .*| 热度|

0

发表评论 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-25 10:31

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部