一种基于最紧致片段的ietm技术信息片段检索装置及其检索方法
【技术领域】
[0001] 本发明属于交互式电子手册(IETM)技术和XML信息检索技术领域,具体涉及一种 从交互式电子手册中快速获取有效技术信息,适用于遵循我国军用GJB6600技术标准的交 互式电子手册,根据数据模块的模式约束(Schema)抽取数据模块的主干技术信息结构,基 于最紧致片段算法编码、检索,并利用相似度计算对检索结果进行过滤的基于最紧致片段 的IETM技术信息片段检索装置及其检索方法。
【背景技术】
[0002] 1.交互式电子技术手册
[0003] 20世纪80年代,美国军方率先提出交互式电子技术手册(Interactive ElectronicTechnicalManual,以下简称IETM)的概念。该技术是美国和欧洲许多发达国 家推行的全寿命周期保障(CALS)战略中的重要组成部分,是CALS的关键应用技术之一。 IETM利用文字、图表、音视频、三维动画等载体形式在电子设备上进行技术信息的交互式阅 读,主要用于指导装备或其他大型复杂产品的培训、使用、维修、保养等后勤保障工作。通过 应用IETM技术,可以有效降低装备的保障费用、提升工作效率、提高装备的可靠性和维修 性。
[0004] 2.交互式电子技术手册的GJB6600标准
[0005] 为了实现IETM的信息共享和数据互操作,相关标准和规范应运而生。目前国际 上有关IETM的标准很多,其中以美国军用标准和欧洲商业标准S1000D的研宄和应用最广 泛。但这些国际标准对我国装备制造业的实际情况缺乏适应性,因此我国研宄机构经过深 入研宄分析,以S1000D标准的思想为基础,提出了一套适合在我国推广应用的IETM技术标 准--GJB6600。
[0006]GJB6600对我国装备的分类、技术信息的构成进行了分析和研宄,从类型上将 技术信息划分为描述类、程序类、故障类等8个类型,并对各类数据模块进行了模式约束 (Schema)的描述。通过制定GJB6600标准,从功能构成、数据模型等方面规范了我国装备 IETM的编制要求,为IETM技术在我国的广泛应用提供了技术基础。
[0007] 3.交互式电子技术手册中的技术信息检索
[0008] IETM的核心作用是通过人机界面方式为用户提供技术信息的交互访问能力。功能 完备的检索功能可以使用户快速、准确的定位到相关技术信息,进而提高用户使用IETM进 行装备操作学习、故障维修的效率。在基于GJB6600标准研制的IETM中,技术信息被划分 为单元,以XML数据模块形式存在,大型复杂设备中往往含有数千个数据模块。
[0009]目前GJB6600中提供两种检索模式,一种是根据关键词对某一数据模块进行内部 信息检索;另一种是按照技术信息的类别进行检索,如按图片名称检索图片。根据以上两种 模式,IETM无法实现检索与某一关键字直接相关的各类不同信息片段,如含有某一关键字 的图片、表格和段落的集合。通过对用户进行需求调研,用户最关注的是如何在海量数据中 快速定位到有用的技术信息,因此提供基于关键字获取数据模块中有效信息片段的功能十 分必要。
[0010] 4、XML信息检索技术
[0011] XML是一种具有可扩展性的数据结构,具有自我描述能力和丰富的数据表示能力, 目前该技术广泛的应用在数据表示、交换、集成等过程中。XML的信息检索目前主要采用以 下三种查询模型:
[0012] A.基于简单关键词的查询方式,又称CO(ContentOnly,纯内容)查询。
[0013] 查询内容仅为用户想要查找的关键词,其查询过程类似传统的信息检索。基于关 键词的查询模型优点是便于使用,缺点是没有充分利用XML文档的半结构化信息,没有充 分利用XML数据本身的特点和优势。
[0014] B.严格结构匹配与关键词相结合的查询模型,简称SCAS(StrictContentand Structure)查询。
[0015] 查询内容包括用户想要查找的关键词和结构匹配条件。对于严格结构匹配与关键 词相结合的查询模型,要求查询结果必须严格满足结构路径和关键词的约束。其优点是用 户可以准确地定位信息,同时清晰地理解查询结果所具有的含义。该模式查询的缺点是用 户在查询XML数据之前,必须知道XML的准确模式信息(Schema结构)。
[0016] C.非严格结构匹配与关键词相结合的查询模型,简称VCAS(VagueContentand Structure)查询。
[0017] VCAS的查询方法与SCAS相似,但该模式在确定查询结果时不要求结果树与查询 树在结构上完全相同,而是允许存在一定偏差。VCAS是介于SCAS和C0之间的一种方式,其 优点是充分利用了XML数据的本质特点,同时考虑了结构信息和关键词信息,但又不要求 用户对结构做出精准描述。因此,较适合用户事前不清楚XML模式信息的情况。
[0018] 5?最紧致片段技术
[0019] 最近公共祖先LCA(LowestCommonAncestor)早期的定义是指在XML文档中包含 所有查询关键字节点的最近公共祖先节点,该节点的任意子节点都不再包含所有的关键字 节点。后期研宄者在LCA的基础上,提出了最紧致片段SmallestLCA(SLCA)概念来提高 XML关键字查询的性能和准确率,目前以SLCA为基础的各衍生技术在字符串处理和生物学 计算中应用十分广泛。
【发明内容】
[0020] 本发明的目的在于提供一种能够从符合GJB6600标准的交互式电子手册中快速 获取有效技术信息片段的基于最紧致片段的IETM技术信息片段检索装置。本发明的目的 还在于提供一种基于最紧致片段的IETM技术信息片段检索方法。
[0021] 本发明的目的是这样实现的:
[0022] 一种基于最紧致片段的IETM技术信息片段检索装置,包括发布器、检索器和存储 器三个部分:所述发布器接收符合GJB6600的交互式电子技术手册,通过特征提取模块提 取数据模块的主干内容结构并编码,然后存储在主干信息存贮模块中;所述检索器通过关 键词激励模块进行关键词的语义分析,根据关键词进行信息片段的嗅探、提取,应用相似度 过滤器对提取的各信息片段进行过滤,对技术信息片段进行检索;存储器的主干信息集存 贮结构存储符合GJB6600的模式约束特征、片段提取规则和主干信息的数据,以及各数据 存放的结构描述。
[0023] 所述片段发布器包括特征提取模块、编码模块和主干信息存储接口:
[0024] 所述的特征提取模块通过对GJB6600标准的分析,对段落、图形、表格、多媒体和 警示信息的Schema进行简化,将无实际显示意义的子元素和属性以及有显示意义但不参 与检索的元素和属性裁减掉,形成数据模块的特征规则,根据特征规则过滤选定装备IETM 的各数据模块,只将特征规则中的各类Schema元素及其内容作为主干信息结构抽取出来, 表示为XML结构树抽取数据模块的主干信息结构;
[0025] 所述的编码模块通过Dewey编码方式遵循宽度优先遍历的原则为主干信息结构 中的各节点编码;将每1个主干信息结构形成1个Dewey码;编码中存储各节点所属层级、 路径信息。
[0026] 所述片段检索器包括关键词激励模块、片段嗅探模块、片段提取模块、相似度过滤 模块和包装模块:
[0027] 所述的关键词激励模块按照先分句再分词的方式,采用双向最大匹配算法对用户 输入的关键词字符串进行分词/语义分析处理,即按正向最大匹配法和逆向最大匹配法都 切分一次,将关键词形成多个小粒度词串,供片段检索时使用;
[0028] 所述的片段嗅探模块在检索开始前将关键词词串与数据库中存储与数据模块类 型相关的词串对比,根据词串相似度将用户可能感兴趣的数据模块类型排序;
[0029] 片段提取模块根据片段类型,提取XML片段块的主干结构;
[0030] 相似度过滤模块采用按逐层匹配计算XML片段各节点路径段数的方式计算相似 度,将交互式电子技术手册中在不同的数据模块中重复出现的相同的图片、段落或表格过 滤掉;
[0031] 包装模块:基于CSS和XSLT对检索结果的各XML片段内容进行封装。
[0032] 所述存储器包括主干信息存贮模块、主干特征提取规则存贮模块和片段提取规则 存贮模块:
[0033] 所述的主干信息存模块对符合GJB6600的交互式电子技术手册中所有数据模 块的XML主干信息结构存贮;
[0034] 所述的主干特征提取规则存贮模块根据GJB6600技术标准,定义文字段落、图、表 格、音视频、动画模式约束中与被检索信息有关联的主干特征提取规则,对以上规则进行动 态存贮;
[0035] 所述的片段