专利名称:基于Web时态对象模型的过时网页信息自动发现方法
技术领域:
本发明属于数据质量的研究范畴,涉及时态web、网络信息质量评估、时态信息的语义理解与抽取、时态对象模型的建立与约束关系、时态信息的推理机制与代数运算系统等技术领域,特别提出了一种基于Web时态对象模型的过时网页信息自动发现方法。
背景技术:
时态Web :本项目属于时态Web研究范畴。近年来,时态Web日渐成为学者们关注的焦点。Web学术最权威的国际会议WWW在2011年专门设立了 “时态Web” Workshop——TWAW。Omar Alonso等分析了文档中时间信息的类型,时间的表述方式及形式化,时间的标注等内容,指出了时态网络的研究方向,包括时空信息挖掘、时态检索、时间相似度与实时搜索等[1]。Mikl6s Erd6lyi等提出了新的基于特征的时态链接相似度,给出了在大规模的图中高效计算的方法,用以探测网络的垃圾信息[2]。Marilena Oita等研究了网页进 化的规律,并对近年来捕捉网页随时间而变化轨迹的各种最优方法进行了对比[3]。Brian
D.Davison等人基于在不同时间点的多种网络快照组成的时态Web图,建立了网络冲浪模型来组合各个网络的刷新率[4]。Yun Chi等通过“社区分解”分析结构和时间动态变化发现社区[5]。李必信等定义了时间属性序列图的形式语法,给出基于时间Buchi自动机的形式操作语义,并用实时规约模式度量了时间属性序列图的表达力[6]。时态Web的相关成果为本项目的研究提供了理论基础。网页质量评估及时效性度量目前,在网站质量的评价方面,方滨兴等研究了利用网页质量评价的新维度——社会性标注——以改进网页检索性能;中科院钟华、黄涛等提出了一种网络资源敏感的性能诊断方法[8]。陈传夫等在采用层次分析法确定各级指标权重的过程中,构造了时效性指标的判断矩阵[9]。Brian D. Davison等人利用网页新鲜度来评估网页质量,并从页面本身及其链入页面两方面来度量网页的新鲜度[1°]。王海勋等将内容新鲜度的概念形式化,提出了用最少的网络流量保持并优化内容新鲜度的方法[11]。事实上,以上的测评指标均针对的是网站内容的整体质量和一般意义上的信息时效性,对于网页的时间一致性并未进行建模和度量。基于时间感知的Web网页信息检索系统以PageRank为代表的基于链接分析打分方法并未考虑网页的时效性,故在时间感知搜索中,其排序存在一定的偏差[12]。因此,对已有的检索模型的时间维度的扩展与深化成为必然。近年来,不断出现基于时间信息的检索系统的研究成果,Klaus Berberich等提出一种索引结构,能有效地对带有时间信息的文档进行高性能的检索支持。但该结构仅仅支持基于时间点的查询,不支持带有时间段信息的查询[13^BrianD. Davison研究了查询条件的不同时间特性,提出用自适应的机器学习框架来平衡和优化网页排序的新鲜度与相关性[14]。本项目将在现有工作的基础上,利用网页时间不一致度量,建立时间感知的Web网页信息检索模型。Web信息抽取在Web信息抽取方面,已有大量的研究工作。最近的研究包括ffeikum, Gerhard等人研究了基于知识理解的命名实体、它们的语义类,以及它们的相互关系[15]。Utku Irmak和Reiner Kraft研究了命名结构实体,提出了一种检测半结构实体的新三级引导框架,描述了电话,日期和时间实体[16]。Jannik Strotgen等构造了 TimeTrails系统,用以提取、查询、存储并挖掘文本中隐含的时空信息[17]。于戈等分析DeepWeb结果页面的特点,提出了基于DOM树的自动实体抽取策略[18]。本项目主要采用基于时态DOM模型的Web信息提取方法,有关时间的正则文法匹配,以及基于模式代数的方法_和时间概念本体方法,抽取网页多个时间维度。时态数据库时态数据库技术将时态信息引入到传统数据库,包括时态数据库模型、历史关系模型,历史关系代数、对象历史模型等[2°]。汤庸等运用时态逻辑和动态逻辑对时态数据库的时间轴进行了公理化建模,设计和实现了时态数据处理原理系统[21]。本项目将借鉴以上时态数据库理论与技术,将其拓展到网页信息时间不一致性建模及度量。
参考文献[I]Omar Alonso, Jannik Strongen, Ricardo Baeza-Yatesj Michael Gertz.Temporal Information Retrieval: Challenges and Opportunities. TWAW 2011:1-8.[2]Miklos Erdelyi,Andras A. Benczur. Temporal Analysis for Web SpamDetection:An Overview. TWAW 2011:17—24.[3]Marilena Oita,Pierre Senellart. Deriving Dynamics of Web Pages:ASurvey. TWAW 2011:25-32.[4] Na Dai, Brian D. Davison. Freshness Matters: In Flowers, Food, and WebAuthority. SIGIR2010:114-121.[5] Yun Chi, Shenghuo Zhu,Xiaodan Song,Jun’ichi Tatemura,Belle L. Tseng.Structural and temporal analysis of the blogosphere through communityfactorization. KDD 2007:163-172.[6]张鹏程,李必信,李雯睿.时间属性序列图语法和语义.软件学报,2010, Vol. 21 (11) :2752-2767.[7]刘凯鹏,方滨兴.一种基于社会性标注的网页排序算法.计算机学报,2010,Vol. 33 (6) : 1014-1023.[8]王伟,张文博,魏峻,钟华,黄涛.一种资源敏感的Web应用性能诊断方法 软件学报,2010,Vol. 21 (2) : 194-208.[9]陈传夫,唐琼,于媛,吴志强等.网络上科学信息的时效性测量.情报学报,2009,Vol. 28 (4) :610-617.[10]Na Dai, Brian D. Davison. Capturing Page Freshness for Web Search.SIGIR 2010:871-872.[II]Mohan Yang, Haixun Wang, Lipyeow Lim, Min Wang. Optimizing ContentFreshness of Relations Extracted From the Web Using Keyword Search. SIGMOD 2010 819-830.[12]Junghoo Cho, Sourashis Roy,Robert E. Adams. Page Quality:In Search ofan Unbiased Web Ranking. SIGMOD 2005:551-562.[13]Klaus Berberich, Srikanta J. Bedathur, Thomas Neumann, Gerhard ffeikum.A time machine for text search. SIGIR 2007:519-526.
[14]Na Dai, Milad Shokouhi, Brian D. Davison. Learning to Rank forFreshness and Relevance. SIGIR 2011:95-104.[15] Weikum, Gerhard and Theobald, Martin. From information toknowledge: harvesting entities and relationships from web sources.PODS2010:65-76.[16]Utku Irmak, Reiner Kraft. A scalable machine-learning approach forsemi-structured named entity recognition. Wffff 2010:461-470.[17]Jannik Strotgen, Michael Gertz, TimeTrails.A System for ExploringSpatioTemporal Information in Documents. VLDB 2010:1569-1572.[18]寇月,李冬,申德荣,于戈,聂铁铮 D-EEM: 一种基于DOM树的Deep Web实体抽取机制 计算机发展与研究,2010,Vol. 47(5) :858-865. [19]李石君,于俊清,欧伟杰.基于HTML模式代数的Web信息提取方法.计算机研究与发展,2006,Vol. 43 (9) : 1644-1650.[20]Fusheng Wang, Carlo Zaniolo, Xin Zhou:ArchIS:An XML-Based Approachto Transaction-Time Temporal Database Systems. The VLDB Journal, 2008, Vol. 17(6):1445 - 1463.[21]刘冬宁,汤庸.时态数据库时间轴的动态逻辑模型.软件学报,2010,Vol. 21 (4) :694-701.
发明内容
针对因web时态不一致性而导致的数据质量不高、而目前的相关技术对此类问题的处理较为薄弱的情况,本发明旨在建立Web时态对象模型,自动获取网页的时态信息抽取路径,学习时态信息抽取规则,根据Web数据时态一致性构建约束关系、推理机制和代数运算系统,自动发现Web过时信息,从而完成时态一致性的自动排检功能,并应用于对同类网站进行质量排序,对传统检索加入时态要素,进行时间感知的搜索。为完成以上目标,本发明提出一种基于Web时态对象模型的过时网页信息自动发现方法,包括以下步骤步骤1,对Web进行时态解析,该步骤进一步包括以下子步骤步骤I I,计算网页的时态敏感度;步骤I. 2,根据网站中时态敏感度大于预设阈值的网页,建立Web时态对象模型,所述Web时态对象模型中将网站描述成一棵五层非空树,网站主页是根结点,栏目及各级子栏目是中间结点,网页是叶子结点;每个结点表示为一个二元组(Ve,VT),其中,V。为内容向量,Vt为时态向量;步骤I. 3,利用Web时态对象模型对时态信息进行抽取;步骤2,Web时态一致性约束与推理,包括根据步骤I所得Web时态对象模型,建立结点间时态一致性约束关系,并依此进行推理,得到网页的Web时态一致性分析结果;步骤3,Web时态不一致分类与度量,包括根据步骤I所得Web时态对象模型及步骤2所得结点间时态一致性约束关系,对步骤2所得Web时态一致性分析结果中的Web时态不一致情况进行分类,并对不一致程度进行评分,得到网页的时态不一致度量值;
步骤4,Web时态不一致自动发现,包括根据步骤2所得Web时态一致性推理分析的结果和步骤3所得网页的时态不一致度量值判断发现Web时态不一致的过时网页。而且,所述步骤I. I中,网页的时态敏感性按下式计算
权利要求
1.一种基于Web时态对象模型的过时网页信息自动发现方法,其特征在于,包括以下步骤 步骤1,对Web进行时态解析,该步骤进ー步包括以下子步骤 步骤I. 1,计算网页的时态敏感度; 步骤I. 2,根据网站中时态敏感度大于预设阈值的网页,建立Web时态对象模型,所述Web时态对象模型中将网站描述成ー棵五层非空树,网站主页是根结点,栏目及各级子栏目是中间结点,网页是叶子结点;姆个结点表示为ー个ニ元组(V。, Vt),其中,V。为内容向量,Vt为时态向量; 步骤I. 3,利用Web时态对象模型对时态信息进行抽取; 步骤2,Web时态一致性约束与推理,包括根据步骤I所得Web时态对象模型,建立结点间时态一致性约束关系,并依此进行推理,得到网页的Web时态一致性分析结果; 步骤3,Web时态不一致分类与度量,包括根据步骤I所得Web时态对象模型及步骤2所得结点间时态一致性约束关系,对步骤2所得Web时态一致性分析结果中的Web时态不一致情况进行分类,并对不一致程度进行评分,得到网页的时态不一致度量值; 步骤4,Web时态不一致自动发现,包括根据步骤2所得Web时态一致性推理分析的结果和步骤3所得网页的时态不一致度量值判断发现Web时态不一致的过时网页。
2.如权利要求I所述基于Web时态对象模型的过时网页信息自动发现方法,其特征在于所述步骤I. I中,网页的时态敏感性按下式计算TSp = AF(Pv) + yF(Pu) + uF(tw) 其中,TSp为时间敏感度,Pv为用户访问模式,Pu为栏目更新模式,tw为文本的时间信息特征,X、Y、y为权重函数;
3.根据权利要求I或2所述基于Web时态对象模型的过时网页信息自动发现方法,其特征在于 所述内容向量Vc(w, e) = (Ctitle, Curt, Ctopi。,Ctrart),是一个关于网页w与其描述的事件e的4维向量,包括网页标题Ctitl6、网页链接Curl、网页主题Ct()pi。和网页文本Ct6xt ;所述时态向量 Vt (w,e) = (Toccur (w,e),Tpublish (w, e),Tforward (w, e),Texpire (w, e)),是一个关于网页w与其描述的事件e的4维向量,包括事件发生时间Ttxxm (w,e)、发表时间Tpubiish(w, e)、转载时间 TfOTwmd(w,e)和过期时间 Texpira (w, e); 其中wejf = .,wj,炉是网页集合=,互为事件集合;n为网页集合中的网页总数,m为事件集合中的事件总数。
4.根据权利要求I或2所述基于Web时态对象模型的过时网页信息自动发现方法,其特征在于所述Web时态对象模型中各结点间的约束关系,包括结点自身时态向量的各分量之间、父结点与子结点之间、兄弟结点之间、不同树的结点之间的约束关系。
5.根据权利要求I或2所述基于Web时态对象模型的过时网页信息自动发现方法,其特征在于对不一致程度进行评分时,网页按以下度量函数D(t)进行时态不一致度量, 't-T publish rp* fV rprp5 publish ~ exp >e IK>) —J expire puhlmh I + ln(l + f (Texpire / Toccur¥ieyt,t > Texptre expire 其中,T。。■为事件发生时间,为网页过期时间,Tpublish为网页发布时间,¥为权重,t为当前读取时间,且t>Tpublish ; 栏目的时态不一致度量,采用栏目所有网页的时态不一致度量的平均值; 站点的时态不一致度量,采用站点所有栏目的时态不一致度量的平均值。
全文摘要
本发明是基于Web时态对象模型的过时网页信息自动发现方法,属于数据质量的研究范畴,涉及时态Web、网络信息质量评估、时态信息的语义理解与抽取、时态信息的约束与推理、网页信息一致性自动排检等技术领域,主要针对因时态不一致而导致的web数据质量低下的现象,基于不同网页的不同时态敏感度,建立了Web时态对象模型,构造了网络数据时态一致性约束关系、推理机制和代数运算规则,自动排检并提示Web网页中的过时信息,为网络用户提供兼具时效性与相关性的信息。本方法可广泛应用于同类网站质量排序、时间感知的搜索排序等方面,在一定程度上提高Web信息质量。
文档编号G06F17/30GK102737125SQ20121019758
公开日2012年10月17日 申请日期2012年6月15日 优先权日2012年6月15日
发明者丁永刚, 余伟, 刘晶, 李石君, 杨莎, 王俊, 王峰, 甘琳 申请人:武汉大学