专利名称::一种基于元数据的信息检索方法
技术领域:
:本发明属于信息管理应用领域,特别涉及一种基于元数据的信息检索方法。
背景技术:
:有关调查表明,目前企业数据每年以200%的速度增长,结构化的和非结构化的数据存放在企业计算机系统的各个角落;企业的员工每天平均花两个半小时在寻找资料。这样,企业内存在各种障碍,信息运用效率极低1、数据量太多,要取得有用信息,需要耗费大量的时间。2、数据分布在不同应用系统中,需要信息时忘记了存放在何处。需要转换多次才能找到。3、处理新的业务和新问题,不知道组织内部有哪些信息可以使用。4、采用新的信息管理系统,经常会改变员工的工作习惯,需要花费时间和精力去适应和学习。5、系统本身实施时间和成本也较高。Google和Yahoo、Baidu等互联网搜索引擎家喻户晓,大大促进了互联网浩瀚信息的有效使用。但针对于企业应用系统的智能搜索与互联网搜索有着巨大不同。企业搜索产品对核心技术的挑战性更高。它不仅要求搜索速度更快、结果更准确,可索引大量的文档和不同类型的媒体,同时也要求部署方便,可以与企业现有的信息系统、知识库或BI(商业智能)系统结合,并更加注重安全和隐私。目前,为了管理企业内部的大量数据,出现了一种数据仓库技术,但从数据仓库存放的海量数据中要找到信息不是容易的事情,因为缺乏语义搜索技术手段,很难被业务人员应用。
发明内容本发明目的在于解决现有技术不足,提供一种支持语义识别的基于元数据的信息检索方法。为实现上述目的,本发明提出在检索时包括以下步骤步骤l,将査询词句拆分为关键词;所述拆分方法为,对査询词句从前到后扫描,从词库中寻找最长匹配,找到后切开,对剩余部分继续寻找最长匹配,直到拆分完成;步骤2,根据元数据的er模型映射关系,对单个关键词进行元数据匹配分析,根据匹配结果提取元数据说明信息,生成关键词匹配信息记录;步骤3,综合所有关键词的关键词匹配信息记录,进行优化处理后将结果输出呈现。而且,所述词库包括业务术语表和通用词语表。而且,优先从业务术语表中寻找匹配。而且,步骤2中进行元数据匹配分析时,若与关键词匹配的元数据为代码表,通过主外键关系査找代码表对应外键表,并录入关键词匹配信息记录中。而且,步骤3中的优化处理包括比较两项关键词匹配信息记录分别对应的实体表是否存在主外键关系,如果是则生成新的记录。而且,对关键词匹配信息记录进行匹配程度评估。而且,步骤13实现的检索处理通过webservice方式提供给远程系统进行调用。而且,结果输出采用xml文件形式。本发明的技术方案提供了一种简便的信息检索方式,使用者只需输入关键字即可获得相关联的数据信息,而不需要关心数据存放在何处,提高了工作效率。而且本发明的技术方案支持中文检索,使用更加简便。图1是本发明原理示意图2是本发明实施例关键词匹配信息记录生成流程图3是本发明实施例关键词匹配列表记录组合叠加示意图。具体实施例方式本发明提供的检索方法针对的是业务人员从多种数据源中获得关联信息的需要,便于其熟悉和掌握数据仓库中的相关数据表的含义、指标统计规则及维表的对应关系。元数据最本质、最抽象的定义为dataaboutdata(关于数据的数据)。它是一种广泛存在的现象,在许多领域有其具体的定义和应用。在数据仓库领域中,元数据被定义为描述数据及其环境的数据。集中各个应用系统中的元数据,包括表结构信息、文件信息、程序信息等内容;并通过元数据的分析工具建立这些对象之间的关系形成er模型;即可构成满足业务人员需求的检索数据源基础。具体实施时,检索数据源中的元数据主要来自数据库表的信息,包括数据库实例、表名、中文信息、字段、字段对应码表等内容。集中各个应用系统中的元数据构造检索数据源,可以采用现有的数据库技术。本发明提供的信息检索方法包括以下步骤步骤l,将査询词句拆分为关键词;所述拆分方法为,对查询词句从前到后扫描,从词库中寻找最长匹配,找到后切开,对剩余部分继续寻找最长匹配,直到拆分完成;该步骤是支持语义查询的基础,可以支持直接输入中文字句,提出査询请求。词库包括业务术语表和通用词语表,业务术语表包含特定行业相应的业务术语,通用词语表是国家发布的词语表。优先从业务术语表中寻找匹配,更可能贴合业务人员的需求。例如将输入的査询语句"我是中华人民共和国公民"作为一个字符串S,前到后扫描,对扫描的每个字,从词库中寻找最长匹配,词库优先采用业务术语表。词库中有"中华人民共和国"、中华"、"公民"、"人民"、"共和国"......等词,当扫描到"中"字,那么从中字开始,向后分别取1,2,3,......个字("中V'中华","中华人","中华人民","中华人民共","中华人民共和","中华人民共和国V'中华人民共和国公")。词库中的最长匹配字符串是"中华人民共和国",那么就此切分开,扫描器推进到"公"字。步骤2,根据元数据的er模型映射关系,对单个关键词进行元数据匹配分析,根据匹配结果提取元数据说明信息,生成关键词匹配信息记录;例如关键词"积分换票",根据配置表数据可以得到是个积分兌换类型配置表的一个成员,再根据数据主外键关系可以查询到与积分兑换类型有关系的实体表,从而就可以定义到是要査询积分兌换记录中有关于积分换票的记录的查询。在海量数据管理时,构成检索数据源的元数据数量也会相当庞大,在关键词与元数据的匹配过程中,需要借助元数据的er模型。可以在检索数据源中设置数据字典表、代码表、业务术语表,对关键词进行粗略的语义匹配分析后,然后根据元数据的er模型进一步匹配。具体实施时,单个关键词进行元数据匹配分析的结果可能是多条关键词匹配信息记录,可以建立标准数据结构的关键词匹配列表,规范地存储关键词匹配信息记录。提供实施例中生成的一个关键词匹配列表供参考,表中的内容根据具体情况而填入关键词匹配类型实体表条件其它信息gprs表cdr—gprsGPRS清单表gprs指标GPRS每日流量http:〃丽.portal/kpi/gprs.jspgprs酉己置表acct—itemacct—item—ti贝长目相为gprs的巾《单基于元数据内容可以支撑更深入的关键词语意分析和更好数据库性能响应。为了提供更丰富的信息内容,还可以从元数据来源的应用系统中提取更多的相关信息。具体实施时可以生成sql查询脚本,实现信息调用。参见图2,本发明实施例关键词匹配信息记录生成流程为取l个关键词;首先按照数据字典表、代码表、业务术语表对关键词进行初步匹配分析;然后进行表名、字段名、代码表名、术语进行精细匹配,其中代码表名匹配时增加了通过数据主外键关系查找外键表的步骤;查询到匹配信息后登记,添加到该关键词的关键词匹配列表中。步骤3,综合所有关键词的关键词匹配信息记录,进行优化处理后将结果输出呈现,供査询操作人员选用。优化处理主要是为了检索结果的条理呈现,可以将具有对应关系的记录组合叠加。本发明还提出对关键词匹配信息记录进行匹配程度评估,可以根据匹配程度从高到低输出条目给查询操作人员。本发明实施例的匹配程度评估根据匹配类型和设定的权重计算,参见下表设定匹配类型权重表名匹配30字段名匹配20代码表匹配40术语匹配50根据关键词匹配列表的匹配类型和类型对应的权重对每条记录付权重值,即可得到匹配程度评估。参见图3的本发明实施例,关键词匹配列表记录组合叠加流程为首先从一个关键词对应的关键词匹配列表中取一记录;然后从另一个关键词对应的关键词匹配列表中取一记录,包括比较两项记录分别对应的实体表是否存在主外键关系,如果是则生成新的记录加入关键词匹配列表,并把匹配权重记录为这两个记录的权重之和,如果不存在则循环判断下一条记录直到记录为空;选取其它关键词进行循环操作,直到下一个关键词的记录为空。最后按匹配的权重生成xml数据并输出,输出结构包括如下内容〈xml〉<item〉〈seq〉序号〈/seq〉〈title〉标题〈title〉〈content〉内容描述〈/content〉〈fitrate〉匹配程度〈/fitrate〉〈fittype〉匹配类型〈/fittype〉〈sql〉查询脚本〈/sql>〈table〉査询表〈/table〉〈dimtable〉配置表〈/dimtable〉</item〉〈item〉〈/item〉</xml〉以上涉及的符号代码属于xml语言,本发明不予赘述。xml文件可以使用文本以结构化的方式来表示数据,本发明采用这种成熟技术输出査询词句对应的所有匹配记录,实施时可以表格形式向査询操作人员呈现,表格的每个条目为一项匹配记录。具体实施时,本发明提供的方法可以采用软件编程实现,以检索模块形式供应用系统调用,以达到灵活支持检索的目的。可以设置检索服务器,在服务器上加载检索模块,并发布为webservice方式。服务器可以是tomcate、iis或webspere等。检索模块通过webservice方式,可以提供给远程应用系统进行调用。远程系统通过调用idl或http协议调用,调用格式Htpp:〃服务器地址/发布的服务名/关键词l&关键词2…本发明支持中文査询,对业务人员没有知识背景要求,在数据仓库领域具有重大的应用意义。参见图1,本发明实施例的查询实现过程为查询操作人员输入中文査询词句;应用系统将查询语句送往检索服务器,经过中文分词、关键词与er模型映射处理,最后输出可能命中条目及其匹配程度;应用系统接收检索服务器的输出可选条目,向查询操作人员呈现,査询操作人员选择条目査看数据。权利要求1.一种基于元数据的信息检索方法,其特征在于检索时包括以下步骤步骤1,将查询词句拆分为关键词;所述拆分方法为,对查询词句从前到后扫描,从词库中寻找最长匹配,找到后切开,对剩余部分继续寻找最长匹配,直到拆分完成;步骤2,根据元数据的er模型映射关系,对单个关键词进行元数据匹配分析,根据匹配结果提取元数据说明信息,生成关键词匹配信息记录;步骤3,综合所有关键词的关键词匹配信息记录,进行优化处理后将结果输出呈现。2.如权利要求1所述信息检索方法,其特征在于所述词库包括业务术语表和通用词语表。3.如权利要求2所述信息检索方法,其特征在于优先从业务术语表中寻找匹配。4.如权利要求1所述信息检索方法,其特征在于步骤2中进行元数据匹配分析时,若与关键词匹配的元数据为代码表,通过主外键关系査找代码表对应外键表,并录入关键词匹配信息记录中。5.如权利要求4所述信息检索方法,其特征在于步骤3中的优化处理包括比较两项关键词匹配信息记录分别对应的实体表是否存在主外键关系,如果是则生成新的记录。6.如权利要求1或2或3或4或5所述从多个应用系统中检索信息的方法,其特征在于对关键词匹配信息记录进行匹配程度评估。7.如权利要求1或2或3或4或5或6所述从多个应用系统中检索信息的方法,其特征在于步骤l3实现的检索处理通过webservice方式提供给远程应用系统进行调用。8.如权利要求1或2或3或4或5或6所述从多个应用系统中检索信息的方法,其特征在于结果输出采用xml文件形式。全文摘要本发明涉及一种基于元数据的信息检索方法,本发明提出在检索时包括以下步骤步骤1,将查询词句拆分为关键词;所述拆分方法为,对查询词句从前到后扫描,从词库中寻找最长匹配,找到后切开,对剩余部分继续寻找最长匹配,直到拆分完成;步骤2,根据元数据的er模型映射关系,对单个关键词进行元数据匹配分析,根据匹配结果提取元数据说明信息,生成关键词匹配信息记录;步骤3,综合所有关键词的关键词匹配信息记录,进行优化处理后将结果输出呈现。采用本发明提供的信息检索方法可以方便地从多种数据源中获得关联信息,克服数据仓库技术的检索瓶颈。本发明支持中文检索,操作非常简单,特别适合在开发管理中应用,可以提高开发人员的开发效率。文档编号G06F17/30GK101196900SQ200710169049公开日2008年6月11日申请日期2007年12月27日优先权日2007年12月27日发明者王全胜,蒋文莉,静赵申请人:中国移动通信集团湖北有限公司