基于实体的文本数据与xml文档的匹配方法

文档序号：9911107阅读：442来源：国知局

基于实体的文本数据与xml文档的匹配方法
【技术领域】
[0001] 本发明涉及数据集成技术领域，特别涉及一种利用实体抽取技术，针对文本数据与可扩展标记语言(XML，EXtensible Markup Language)文档进行匹配以实现数据集成的方法。
【背景技术】
[0002] 在大数据的时代，很多企业采用大数据技术对各类数据进行集中统一分析，然而大数据技术的前提是高效的数据集成。要为企业提供全面的数据共享，就需要把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中。
[0003] 数据集成为各种异构数据提供统一的表示、存储和管理。数据集成屏蔽了异构数据之间的差异，通过异构数据集成系统统一操作。现有的异构数据集成的体系结构有三种：联邦数据库、中间件结构和数据仓库结构。其中联邦数据库结构和中间件结构需要预处理数据构建虚拟视图，因此属于虚拟视图（Virtual view)方法。数据仓库结构则直接将所有数据集中在一起，形成新的统一的数据源，称为物化的(Material ized)方法。
[0004] 数据集成中基础的操作之一是模式集成，而大多数基于模式匹配的需求来源于模式集成。模式匹配的任务是利用一些相关信息寻找分布在给定的两个模式中的元素之间的某种映射关系(语义对应关系）。由于模式匹配的复杂性，模式匹配需要使用各种技术来弥补信息的不足，如利用字典、名称相似性、公共模式结构、公共值分布、重用映射结果、约束、常识推理。迄今，各研究团体或组织已提出了许多匹配方法和原型系统。例如Cupid [1]， Similarity Flooding[2]，C0MA[3]，LSD[4]，Clio [5]等。
[0005] 异构数据的集成已经得到广泛的研究，不仅包括关系数据库间的模式匹配m ，还包括非结构化和结构化数据的匹配，例如XML数据间的匹配％9，％和文本与关系数据库间的匹配[11，12，13]等。
[0006] XML数据之间的匹配，主要应用在对大量的XML文档进行聚类、对异构数据源进行基于XML的匹配等方面。由于半结构化、可扩展的特殊性质，XML可以灵活表示各种类型数据。其实许多关系数据库模式的匹配算法，其模式也是采用XML作为中间表示。文献[9]采用一种基于模式匹配的方法进行XML模式的聚类。该文的XML模式之间的相似度计算使用了语法匹配器和结构匹配器。文献[10]则提出了一种XML模式匹配工具Hermes，匹配引擎使用了元素和结构匹配器，其采用RDF库保存匹配过程的信息。
[0007] 而文本与关系数据库间的匹配方面，文献[11]提出的SCORE系统，通过把和用户语境相关的附加文件和查询结果相关联以改善结构化数据检索效果。文献[12]提出的ER0CS 系统，将数据库视为一系列实体，识别出与给定文档最匹配的实体，其支持文档分段匹配不同实体。文献[13 ]提出的LIPTUS系统与ER0CS解决的问题类似，ER0CS是面向一般匹配情景的，LIPTUS则紧密结合实际需求，针对银行领域客户交流情景，通过客户ID或账号ID来建立文本和关系数据库间的关联关系。LIPTUS分析文本信息自动抽取ID标识，然后与客户信息绑定，实现用户行为分析和银行业务规划等需求。
[0008] 目前，尚无文献研究文本数据与XML文档间的匹配方法。实现非结构化的文本与半结构化的XML数据匹配有两个关键点：文本数据的信息抽取，及抽取出的信息与XML文档的匹配。文本的预处理我们采用命名实体抽取方式，文本数据的实体抽取是自然语言处理的一项重要技术，且应用的范围广泛，例如社交网络事件识别 [14]等。目前大多数命名实体抽取研究都基本集中在人名、组织名等几类上。实体抽取技术主要分为两类:基于规则和词典的方法 [15]和基于统计的方法[16，17]。单独使用某种方法往往存在不足，因此一般都使用混合方法 [18'19]。实体信息与XML数据的匹配近似XML上的关键字检索。对大XML文档的检索，用户只需要最小结果片段，即包含关键字的最低公共祖先(LCA，Lowest Common Ancestors)节点。在LCA问题上，基于Dewey编码的求解方法是XML关键字检索的常用方法，如XKSearch [2Q]。文献[20]针对最小结果片段提出了SLCA(Smallest Lowest Common Ancestor)的定义，即对XML树的查询，返回结果应为包含这些关键字的节点集，且节点集中的任两个节点间不存在祖孙关系。文献[21]提出了 XML关键字查询中"最紧凑片段"的概念，返回结果与其它文献的SLCA子树不同，其还要求仅包含感兴趣的节点。
[0009] 参考文献如下：
[0010] [1]Madhavan J,Bernstein PA,Rahm E.Generic Schema Matching with Cupid.VLDB Conference.2001:49-58.
[0011] [2]Melnik S，Molina_Garcia H,Rahm E.Similarity flooding:A versatile graph matching algorithm.ICDE Conference.2002.
[0012] [3]Do HH,Rahm E.C0MA:A System for Flexible Combination of Schema Matching Approaches[C].Proceedings of VLDB,2002,610-621.
[0013] [4]Doan AH，Domingos P,Levy A.Learning source descriptions for data integration.Proc. of the Workshop on the Web and Database.2000.
[0014] [5]Miller RJ,Hernandez MA,Haas LM,Yan L.The Clio Project:Managing Heterogeneity.SIGM0D Record.2001:30(1).
[0015] [6]Rahm E，Bernstein PA.A Survey of Approaches to Automatic Schema Matching[J].The VLDB Journal，2001，10(4):334-350·
[0016] [7]Du Xia〇-kun.Research on Schema matching Algorithm of Database[D] .Huazhong University of Science & Technology,2010.
[0017] [8]Cao Lan-ying,Yan Yi，et al.Automating XML document transformations based on schema matching[J].Computer Engineering and Applications,2012,48 (25):72-76.
[0018] [9]Alsayed A，Eike S，Gunter S.A schema matching-based approach to XML schema clustering[C].Proceedings of iiffAS,2008,131-136.
[0019] [10]Checiu L,Ionescu D.A new algorithm for mapping XML Schema to XMLSchema[C].Proceedings of IEEE ICCC-C0NTI,2010,625-630.
[0020] [ll]Roy P,Mohania M,Bamba B and Raman S.Towards automatic association of relevant unstructured content with structured query results[C].Proceedings of ACM CIKM，2005,405-412.
[0021] [12]Chakaravarthy V，Gupta H，et al.Efficiently Linking Text Documents with Relevant Structured Information[C].Proceedings of VLDB,2006,667-678.
[0022] [13]Bhide M,Gupta A,et al.LIPTUS: Associating Structured and Unstructured Information in a Banking Environment[C].Proceedings of SIGMOD， 2007,915-923.
[0023] [14]Hansu G，Mike G，Liang Z，et al.AnchorMF: towards effective event context identification[C].Proceedings of CIKM,2013,629-638.
[0024] [15]Liu Xian-min, Li Jian-zhong. Key-Based Method for Extracting Entities from XML Data[J].Journal of Computer Research and Development，2014， 51(1):64-75.
[0025] [16]Peng F，McCallum A.Information extraction from research papers using conditional random fields[J]. Information Processing and Management Journal，2006，42(4):963-979.
[0026] [17]Liu Kai, Zhou Xue-zhong,et al. Named Entity Extraction of Traditional Chinese Medicine Medical Records Based on Conditional Random Field[J].Computer Engineering,2014,40(9):312-316.
[0027] [18]Specia L，Motta E.A Hybrid Approach for Extracting Semantic Relations from Texts[C].Proceedings of 0LP,2006,57-64.
[0028] [19]Jiang Ren-hui，Wang Ting，et al.Named Entity Recognition for Micro-blog[J].Computer & Digital Engineering,2014,42(4):647-651.
[0029] [20]Xu Y,Papakonstantinou Y.Efficient keyword search for smallest LCAs in XML databases[C].Proceedings of ACM SIGM0D,2005,527-538.
[0030] [21]Kong L,Gilleron R,L

完整全部详细技术资料下载

当前第1页1 2 3 4

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：蔡喁;杨卫东;刘木强;
技术所有人：中国民用航空上海航空器适航审定中心;
我是此专利的发明人

上一篇：页面资源按需加载的方法及装置的制造方法
上一篇：一种视频索引设置方法和装置的制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。