基于实体的文本数据与xml文档的匹配方法

文档序号:9911107阅读:406来源:国知局
基于实体的文本数据与xml文档的匹配方法
【技术领域】
[0001] 本发明涉及数据集成技术领域,特别涉及一种利用实体抽取技术,针对文本数据 与可扩展标记语言(XML,EXtensible Markup Language)文档进行匹配以实现数据集成的 方法。
【背景技术】
[0002] 在大数据的时代,很多企业采用大数据技术对各类数据进行集中统一分析,然而 大数据技术的前提是高效的数据集成。要为企业提供全面的数据共享,就需要把不同来源、 格式、特点性质的数据在逻辑上或物理上有机地集中。
[0003] 数据集成为各种异构数据提供统一的表示、存储和管理。数据集成屏蔽了异构数 据之间的差异,通过异构数据集成系统统一操作。现有的异构数据集成的体系结构有三种: 联邦数据库、中间件结构和数据仓库结构。其中联邦数据库结构和中间件结构需要预处理 数据构建虚拟视图,因此属于虚拟视图(Virtual view)方法。数据仓库结构则直接将所有 数据集中在一起,形成新的统一的数据源,称为物化的(Material ized)方法。
[0004] 数据集成中基础的操作之一是模式集成,而大多数基于模式匹配的需求来源于模 式集成。模式匹配的任务是利用一些相关信息寻找分布在给定的两个模式中的元素之间的 某种映射关系(语义对应关系)。由于模式匹配的复杂性,模式匹配需要使用各种技术来弥 补信息的不足,如利用字典、名称相似性、公共模式结构、公共值分布、重用映射结果、约束、 常识推理。迄今,各研究团体或组织已提出了许多匹配方法和原型系统。例如Cupid [1], Similarity Flooding[2],C0MA[3],LSD[4],Clio [5]等。
[0005] 异构数据的集成已经得到广泛的研究,不仅包括关系数据库间的模式匹 配m ,还包括非结构化和结构化数据的匹配,例如XML数据间的匹配%9,%和文本 与关系数据库间的匹配[11,12,13]等。
[0006] XML数据之间的匹配,主要应用在对大量的XML文档进行聚类、对异构数据源进行 基于XML的匹配等方面。由于半结构化、可扩展的特殊性质,XML可以灵活表示各种类型数 据。其实许多关系数据库模式的匹配算法,其模式也是采用XML作为中间表示。文献[9]采用 一种基于模式匹配的方法进行XML模式的聚类。该文的XML模式之间的相似度计算使用了语 法匹配器和结构匹配器。文献[10]则提出了一种XML模式匹配工具Hermes,匹配引擎使用了 元素和结构匹配器,其采用RDF库保存匹配过程的信息。
[0007] 而文本与关系数据库间的匹配方面,文献[11]提出的SCORE系统,通过把和用户语 境相关的附加文件和查询结果相关联以改善结构化数据检索效果。文献[12]提出的ER0CS 系统,将数据库视为一系列实体,识别出与给定文档最匹配的实体,其支持文档分段匹配不 同实体。文献[13 ]提出的LIPTUS系统与ER0CS解决的问题类似,ER0CS是面向一般匹配情景 的,LIPTUS则紧密结合实际需求,针对银行领域客户交流情景,通过客户ID或账号ID来建立 文本和关系数据库间的关联关系。LIPTUS分析文本信息自动抽取ID标识,然后与客户信息 绑定,实现用户行为分析和银行业务规划等需求。
[0008] 目前,尚无文献研究文本数据与XML文档间的匹配方法。实现非结构化的文本与半 结构化的XML数据匹配有两个关键点:文本数据的信息抽取,及抽取出的信息与XML文档的 匹配。文本的预处理我们采用命名实体抽取方式,文本数据的实体抽取是自然语言处理的 一项重要技术,且应用的范围广泛,例如社交网络事件识别 [14]等。目前大多数命名实体抽 取研究都基本集中在人名、组织名等几类上。实体抽取技术主要分为两类:基于规则和词典 的方法 [15]和基于统计的方法[16,17]。单独使用某种方法往往存在不足,因此一般都使用混合 方法 [18'19]。实体信息与XML数据的匹配近似XML上的关键字检索。对大XML文档的检索,用户 只需要最小结果片段,即包含关键字的最低公共祖先(LCA,Lowest Common Ancestors)节 点。在LCA问题上,基于Dewey编码的求解方法是XML关键字检索的常用方法,如XKSearch [2Q]。文献[20]针对最小结果片段提出了SLCA(Smallest Lowest Common Ancestor)的定 义,即对XML树的查询,返回结果应为包含这些关键字的节点集,且节点集中的任两个节点 间不存在祖孙关系。文献[21]提出了 XML关键字查询中"最紧凑片段"的概念,返回结果与其 它文献的SLCA子树不同,其还要求仅包含感兴趣的节点。
[0009] 参考文献如下:
[0010] [1]Madhavan J,Bernstein PA,Rahm E.Generic Schema Matching with Cupid.VLDB Conference.2001:49-58.
[0011] [2]Melnik S,Molina_Garcia H,Rahm E.Similarity flooding:A versatile graph matching algorithm.ICDE Conference.2002.
[0012] [3]Do HH,Rahm E.C0MA:A System for Flexible Combination of Schema Matching Approaches[C].Proceedings of VLDB,2002,610-621.
[0013] [4]Doan AH,Domingos P,Levy A.Learning source descriptions for data integration.Proc. of the Workshop on the Web and Database.2000.
[0014] [5]Miller RJ,Hernandez MA,Haas LM,Yan L.The Clio Project:Managing Heterogeneity.SIGM0D Record.2001:30(1).
[0015] [6]Rahm E,Bernstein PA.A Survey of Approaches to Automatic Schema Matching[J].The VLDB Journal,2001,10(4):334-350·
[0016] [7]Du Xia〇-kun.Research on Schema matching Algorithm of Database[D] .Huazhong University of Science & Technology,2010.
[0017] [8]Cao Lan-ying,Yan Yi,et al.Automating XML document transformations based on schema matching[J].Computer Engineering and Applications,2012,48 (25):72-76.
[0018] [9]Alsayed A,Eike S,Gunter S.A schema matching-based approach to XML schema clustering[C].Proceedings of iiffAS,2008,131-136.
[0019] [10]Checiu L,Ionescu D.A new algorithm for mapping XML Schema to XMLSchema[C].Proceedings of IEEE ICCC-C0NTI,2010,625-630.
[0020] [ll]Roy P,Mohania M,Bamba B and Raman S.Towards automatic association of relevant unstructured content with structured query results[C].Proceedings of ACM CIKM,2005,405-412.
[0021] [12]Chakaravarthy V,Gupta H,et al.Efficiently Linking Text Documents with Relevant Structured Information[C].Proceedings of VLDB,2006,667-678.
[0022] [13]Bhide M,Gupta A,et al.LIPTUS: Associating Structured and Unstructured Information in a Banking Environment[C].Proceedings of SIGMOD, 2007,915-923.
[0023] [14]Hansu G,Mike G,Liang Z,et al.AnchorMF: towards effective event context identification[C].Proceedings of CIKM,2013,629-638.
[0024] [15]Liu Xian-min, Li Jian-zhong. Key-Based Method for Extracting Entities from XML Data[J].Journal of Computer Research and Development,2014, 51(1):64-75.
[0025] [16]Peng F,McCallum A.Information extraction from research papers using conditional random fields[J]. Information Processing and Management Journal,2006,42(4):963-979.
[0026] [17]Liu Kai, Zhou Xue-zhong,et al. Named Entity Extraction of Traditional Chinese Medicine Medical Records Based on Conditional Random Field[J].Computer Engineering,2014,40(9):312-316.
[0027] [18]Specia L,Motta E.A Hybrid Approach for Extracting Semantic Relations from Texts[C].Proceedings of 0LP,2006,57-64.
[0028] [19]Jiang Ren-hui,Wang Ting,et al.Named Entity Recognition for Micro-blog[J].Computer & Digital Engineering,2014,42(4):647-651.
[0029] [20]Xu Y,Papakonstantinou Y.Efficient keyword search for smallest LCAs in XML databases[C].Proceedings of ACM SIGM0D,2005,527-538.
[0030] [21]Kong L,Gilleron R,L
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1