在网络上判断文章重要性的方法和系统、及滑动窗口的制作方法

文档序号:6609188阅读:203来源:国知局
专利名称:在网络上判断文章重要性的方法和系统、及滑动窗口的制作方法
技术领域
本发明涉及网络检索领域,特别是涉及一种在网络上判断文章重要性的方法和系统、及滑动窗口。
背景技术
在网络上利用关键词检索相关文章,是网络资源共享的重要方式之一。因网络资源非常丰富,一个检索关键词往往对应大量的文章,这就需要网络系统能够判断每篇文章的重要性,以便在检索结果中将相对重要的文章排在前面显示,将相对不重要的文章排在后面显示,使用户先阅读较重要的文章,节约用户时间。
目前通用的做法是根据文章中词汇的丰富程度来判断其重要性。如果一篇文章词汇丰富,说明它言之有物,属于重要文章;反之,如果文章通篇或者局部只是少数词汇重复出现,词汇贫乏,说明它言之无物,属于不重要文章。现有技术是基于词频统计的方法来判断文章的重要性。
参阅图1,为现有的在网络上判断文章重要性的方法流程图,具体步骤如下所述。
步骤S101、用空格将文章语句中相邻的词语分开。
例如分词前的文章今天看了一部电视剧,被剧中的一个男生给感动了,......
分词后的文章今天看了一部电视剧,被剧中的一个男生给感动了,......
步骤S102、统计每个词语的词频,即该词语在文章中出现的次数。
例如今天,5次;看,35次;了,100次;电视剧,10次.....
步骤S103、计算并判断上述词语出现的次数是否满足预设条件,如不满足,则认为该文章相对重要;如满足,则认为该文章相对不重要。
预设条件可为1)词语总数目小于5;2)出现最多的单个词的词频大于总词频的30%,或出现最多的5%词词频大于总词频的50%,或出现最多的20%词词频大于总词频的80%;3)平均词频超过5。
如,上述词语“文章”的平均词频超过5,则认为该文章相对不重要。
上述方法通过统计文章中各词语的词频来判断其重要性,但是词频反映的是文章全局的特性,不能反映出文章局部的特性。而局部词汇贫乏的文章多为实用性不强,不重要的文章。如果一篇整体词汇丰富,但局部词汇贫乏,现有的判断方法就容易将该类文章误判为重要文章。因此,现有的判断方法无法对整体词汇丰富但局部词汇贫乏的文章进行有效的判断,给用户使用带来不便。

发明内容
本发明所要解决的技术问题是提供一种在网络上判断文章重要性的方法,该方法能够对整体词汇丰富但局部词汇贫乏的文章进行有效的识别,方便用户使用。
本发明的另一个目的是提供一种在网络上判断文章重要性的系统,该系统能够对整体词汇丰富但局部词汇贫乏的文章进行有效的识别,方便用户使用。
本发明还提供一种滑动窗口,该滑动窗口用于在网络上遍历文章,能够有效地获取该文章中词汇丰富程度的相关参数。
本发明涉及一种在网络上判断文章重要性的方法,包括使用预先设置的滑动窗口以文章起始处为起点开始滑动,所述滑动窗口对滑过的词语进行不重复收集;所述滑动窗口收集的词语达到预设数量时,记录滑过词语的数量,并重新设置起点,继续滑动,直至滑过整篇文章;在所述滑动窗口记录的数量中获取数量值最大者,并依据获取的数量值大小判断文章的重要性。
优选的,还包括将文章中相邻的词语用空格间隔开。
优选的,按下述步骤,所述滑动窗口对滑过的词语进行不重复收集所述滑动窗口判断每一个滑过的词语是否与已收集的词语重复,如否,收集该词语。
优选的,按下述步骤,重新设置起点将所述滑动窗口最后收集的一个词语设置为起点;清空所述滑动窗口收集的词语。
优选的,按下述步骤,依据该数量的大小判断文章的重要性将获取的数值与预定值比较,如小于,则确定所述文章为重要文章。
优选的,按下述步骤,依据获取数值的大小判断文章的重要性将获取数量值作为所述文章重要性的权值,按权值大小确定所述文章的重要程度。
本发明还涉及一种在网络上判断文章重要性的系统,包括滑动窗口、最大数值获取单元和重要性判断单元,所述滑动窗口包括词语收集单元、词语记录单元、及启动单元所述启动单元,用于控制滑动窗口以文章起始处为起点开始滑动;所述词语收集单元,用于对滑过的词语进行不重复收集,当收集的词语达到预设数量时,发送启动信息到所述启动单元和所述词语记录单元;所述启动单元重新设置起点,并启动所述滑动窗口继续滑动,直至滑过整篇文章;所述词语记录单元,用于记录所述滑动窗口滑过词语的数量;所述最大值获取单元,用于在所述词语记录单元记录的数量中获取数量值最大者;所述重要性判断单元,用于依据获取数量值的大小判断文章的重要性。
优选的,还包括词语打散单元,用于将文章中相邻的词语用空格间隔开。
本发明还涉及一种滑动窗口,所述滑动窗口包括词语收集单元、词语记录单元、及启动单元所述启动单元,用于控制滑动窗口以文章起始处为起点开始滑动;所述词语收集单元,用于对滑过的词语进行不重复收集,当收集的词语达到预设数量时,发送启动信息到所述启动单元和所述词语记录单元;所述启动单元,重新设置起点,并启动所述滑动窗口继续滑动,直至滑过整篇文章;所述词语记录单元,用于记录所述滑动窗口滑过词语的数量。
优选的,所述滑动窗口还包括左边界和右边界,滑动时,所述右边界从起点开始右移,当所述词语收集单元收集的词语达到预设数量时,所述右边界停止移动,所述左边界右移,直至所述左右边界间包含一个词语。
与现有技术相比,本发明具有以下优点本发明使用预先设置的滑动窗口以文章起始处为起点开始滑动,滑动窗口对滑过的词语进行不重复收集,滑动窗口收集的词语达到预设数量时,记录滑过词语的数量,重新设置起点,继续滑动,滑动窗口重复该过程,直至滑过整篇文章;在滑动窗口记录的数量中获取数量值最大者,并依据该数量的大小判断文章的重要性。如果文章整体词汇丰富但局部词汇贫乏,局部存在大量词语重复的现象。本发明滑动窗口滑过该部分时,因滑动窗口对滑过的词语进行不重复收集,在收集的词语数量固定的条件下,滑动窗口滑过的词语数量相对其它部分较多,该次滑动中记录的滑过词语的数量相对较大,会成为判断文章重要性的依据。这样,本发明采用能够反映文章词汇最贫乏部分的相关数值,作为判断文章重要性的依据。
相对于现有技术简单统计文章中词语词频的方法,本发明可以对整体词汇丰富但局部词汇贫乏的文章进行有效的判断,方便用户使用。


图1为现有的在网络上判断文章重要性的方法流程图;图2为本发明第一实施例提供的在网络上判断文章重要性的方法流程图;图3为本发明第二实施例提供的在网络上判断文章重要性的方法流程图;图4为本发明第三实施例提供的在网络上判断文章重要性的方法流程图;图5为本发明第四实施例提供的在网络上判断文章重要性的系统示意图;图6为本发明第五实施例提供的在网络上判断文章重要性的系统示意图;图7为本发明第六实施例提供的滑动窗口的结构示意图。
具体实施例方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式
对本发明作进一步详细的说明。
本发明使用预先设置的滑动窗口以文章起始处为起点开始滑动,滑动窗口对滑过的词语进行不重复收集,滑动窗口收集的词语达到预设数量时,记录滑过词语的数量,重新设置起点,继续滑动,滑动窗口重复该过程,直至滑过整篇文章;在滑动窗口记录的数量中获取数量值最大者,并依据该数量的大小判断文章的重要性。
参照图2,为本发明第一实施例提供的在网络上判断文章重要性的方法流程图,具体步骤如下所述。
步骤S201、使用预先设置的滑动窗口以文章起始处为起点开始滑动。
设置一滑动窗口,该滑动窗口包括左边界、右边界和数据库,数据库不重复地存储左、右边界之间的各词语。数据库最多可包含预设数量的词语。预设数量优选为6。
使用该滑动窗口以文章起始处的第一个词语为起点,开始滑动。滑动时,滑动窗口的左边界不动,右边界向右滑动。
步骤S202、滑动窗口对滑过的词语进行不重复收集。
滑动窗口在滑动过程中,对滑过的词语进行不重复收集,即收集的词语相互不重复。滑动窗口将收集的词语存储到数据库。
步骤S203、滑动窗口收集的词语达到预设数量时,记录滑过词语的数量。
随着滑动窗口的滑动,滑动窗口收集的词语量不断增加,当滑动窗口收集的词语量达到预设数量时,记录滑动窗口从起点开始所滑过的词语总量。
步骤S204、重新设置起点,继续滑动,直至滑过整篇文章。
滑动窗口重新设置起点,清空所收集词语,继续滑动。重新设置的起点可以是滑动窗口所收集的最后一个词语,也可以是该词语的下一个词语或上一个词语,还可以是该词语的上几个词语。
当滑动窗口收集的词语再次达到最大值时,滑动窗口再次记录该次滑过的词语总量,并清空所收集的词语,再次重新设置起点,继续滑动,直至滑过整篇文章。
当滑动窗口收集的词语达到预设数量时,右边界停止移动,左边界再右移到作为起点的词语位置。
步骤S205、在滑动窗口记录的数量中获取数量值最大者。
当滑动窗口滑完整篇文章后,获取滑动窗口每次记录的滑过词语的数量,并在上述数量中提取数值最大的一个。
步骤S206、依据该数量值的大小判断文章的重要性。
将获取的数量值作为判断文章重要性的依据,数值大的,文章重要性就相对较低;数值小的,文章重要性就相对较高。
如果文章整体词汇丰富但局部词汇贫乏,局部存在大量词语重复的现象。本发明滑动窗口滑过该部分时,因滑动窗口对滑过的词语进行不重复收集,在收集的词语数量固定的条件下,滑动窗口滑过的词语数量相对其它部分较多,该次滑动中记录的滑过词语的数量相对较大,会成为判断文章重要性的依据。这样,本发明采用能够反映文章词汇最贫乏部分的相关数值,作为判断文章重要性的依据,可以对整体词汇丰富但局部词汇贫乏的文章进行有效的判断,方便用户使用。
本发明在滑动窗口开始滑动前,用空格将文章语句中相邻的词语间隔开,方便滑动窗口在滑动中识别词语。并且本发明还可以通过设置预定值的方式来判断文章的重要性。
参照图3,为本发明第二实施例提供的在网络上判断文章重要性的方法流程图,具体步骤如下所述。
步骤S301、将文章中相邻的词语用空格间隔开。
如,文章的开始一句话为“花也漂亮,草也茂盛,这里风光不错”,采用空格将相邻的词语分开后为“花也漂亮草也茂盛这里风光不错”。
步骤S302、使用预先设置的滑动窗口以文章起始处为起点开始滑动。
该滑动窗口包括左边界“”、右边界“”和数据库,数据库不重复地存储左、右边界之间的各词语。数据库最多可包含预设数量的词语。预设数量为6。
如,滑动窗口此时的位置为“花也漂亮草也茂盛这里风光不错”,开始滑动时,滑动窗口的右边界“”开始右移。
步骤S303、滑动窗口对滑过的词语进行不重复收集。
如,滑动窗口移动的位置为“也漂亮草也茂盛这里风光不错”时,判断词语“花”与数据库已收集的词语不重复,则收集词语“花”;滑动窗口移动的位置为“花也漂亮草也茂盛这里风光不错”时,判断词语“也”与数据库中已有的词语“也”重复,则不再收集词语“也”。
步骤S304、滑动窗口收集的词语达到预设数量时,记录滑过词语的数量。
如,滑动窗口移动的位置为“花也漂亮草也茂盛这里风光不错”时,滑动窗口收集的词语数为6,达到预设数值,则记录滑动窗口已滑过的词语数量,即“花、也、漂亮、草、也、茂盛、这里”等7个词语,记录数值7。
步骤S305、将滑动窗口最后收集的一个词语设置为起点,清空滑动窗口收集的词语,继续滑动,直至滑过整篇文章。
如,以词语“这里”为起点,滑动窗口的左边界移动到右边界处,右边界继续向右滑动,滑动窗口的位置为“花也漂亮草也茂盛这里风光不错”。
当滑动窗口收集的词语再次达到最大值时,滑动窗口再次记录该次滑过的词语总量,并清空所收集的词语,再次重新滑动,直至滑过整篇文章。
步骤S306、在滑动窗口记录的数量中获取数量值最大者。
当滑动窗口滑完整篇文章后,获取滑动窗口每次记录的滑过词语的数量,并在上述数量中提取数值最大的一个。
如,第一次记录的数量为7、第二次为8、第三次为12...,经比较,12最大,则将12作为词语数量的最大值。
步骤S307、比较该数量值与预定值,如小于,则确定文章为重要文章。
如,预定值为16,将12与16比较,12<16,该文章是相对重要的文章。
该实施例借助预定值的方式判断文章为重要文章或非重要文章,可直接对文章的重要性进行准确的判断,方便实用。
本发明可通过计算滑动窗口长度的方式记录滑过的词语数量,还可根据获取的词语数量的最大值对检索到的各文章进行排序,使各文章按其重要性顺序排列。滑动窗口的长度为滑动窗口左右边界之间所包含的词语量。
参照图4,为本发明第三实施例提供的在网络上判断文章重要性的方法流程图,具体步骤如下所述。
步骤S401、将文章中相邻的词语用空格间隔开。
如,文章的中部有一段为“今天好高兴啊,好高兴,真高兴,特别高兴”,采用空格将相邻的词语分开后为“今天好高兴啊好高兴,真高兴特别高兴”。
步骤S402、使用预先设置的滑动窗口以文章起始处为起点开始滑动。
该滑动窗口包括左边界“”、右边界“”和数据库,数据库不重复地存储左、右边界之间的各词语。数据库最多可包含预设数量的词语。预设数量为6。
如,滑动窗口此时的位置为“今天好高兴啊好高兴,真高兴特别高兴”。开始滑动时,滑动窗口的右边界“”开始右移。
此时,滑动窗口的长度为0,滑动窗口收集的词语为0。
步骤S403、滑动窗口对滑过的词语进行不重复收集,同时记录滑动窗口已滑过的词语的数量。
如,滑动窗口移动的位置为“今天好高兴啊好高兴,真高兴特别高兴”时,判断词语“今天”与数据库已收集的词语不重复,则收集词语“今天”;滑动窗口移动的位置为“今天好高兴啊好高兴,真高兴特别高兴”时,判断词语“好”与数据库中已有的词语“好”重复,则不再收集词语“好”。
此时,滑动窗口的长度为5,滑动窗口收集的词语为4。
步骤S404、滑动窗口收集的词语达到预设数量时,记录滑过词语的数量。
如,滑动窗口移动的位置为“今天好高兴啊好高兴,真高兴特别高兴”,此时,滑动窗口的长度为10,滑动窗口收集的词语为6。
步骤S405、将滑动窗口最后收集的一个词语设置为起点,清空滑动窗口收集的词语,继续滑动,直至滑过整篇文章。
如,滑动窗口的左边界移动到右边界处,右边界继续向右滑动,当滑动窗口收集的词语再次达到最大值时,滑动窗口再次记录该次滑过的词语总量,并清空所收集的词语,再次重新滑动,直至滑过整篇文章。
步骤S406、在滑动窗口记录的数量中获取数量值最大者。
当滑动窗口滑完整篇文章后,获取滑动窗口每次记录的滑过词语的数量,并在上述数量中提取数值最大的一个。
如,第一次记录的滑动窗口长度为10、第二次为11、第三次为18...,经比较,18最大,则将18作为词语数量的最大值。
步骤S407、将该数量值作为文章重要性的权值,按权值大小确定文章的重要程度。
如,将18作为该文章重要性的权值,与其它文章的权值进行比较,按权值大小进行排序。
该实施例通过按权值大小进行排序,可以将相对最重要的文章排列的最前面,其余按重要性依次排列,非常方便用户使用。并且该实施例不需对判断文章是否重要设置相关数值,可以更客观的反映该文章的重要性。
基于上述在网络上判断文章重要性的方法,本发明提供一种在网络上判断文章重要性的系统,该系统能够对整体词汇丰富但局部词汇贫乏的文章进行有效的识别,方便用户使用。
参照图5,为本发明第四实施例提供的在网络上判断文章重要性的系统示意图,包括滑动窗口51、最大数值获取单元52和重要性判断单元53,滑动窗口51包括词语收集单元511、词语记录单元512、及启动单元513。
启动单元513控制滑动窗口51以文章起始处为起点处开始滑动。
词语收集单元5111对滑过的词语进行不重复收集,当收集的词语达到预设数量时,发送启动信息到启动单元513和词语记录单元512。启动单元513以词语收集单元511重新设置起点,启动滑动窗口51,直至滑过整篇文章。预设数量优选为6。
词语记录单元512记录滑动窗口51滑过词语的数量。
最大值获取单元52在词语记录单元512记录的数量中获取数量值最大者,并将其发送到重要性判断单元53。
重要性判断单元53依据获取数值的大小判断文章的重要性。
为更好的便于词语收集单元511、词语记录单元512收集和记录词语,本发明可通过词语打散单元将文章中的词语打散。
参照图6,为本发明第五实施例提供的在网络上判断文章重要性的系统示意图,包括滑动窗口51、最大数值获取单元52、重要性判断单元53和词语打散单元54,滑动窗口51包括词语收集单元511、词语记录单元512、及启动单元513。
词语打散单元54将文章中相邻的词语用空格间隔开。
滑动窗口51、最大数值获取单元52、重要性判断单元53在本实施例中的作用和功能与图5所示实施例相同,不再赘述。
本发明是通过滑动窗口遍历整篇文章,能够有效地获取该文章中词汇丰富程度的相关参数。
参照图7,为本发明第六实施例提供的滑动窗口51的结构示意图,包括词语收集单元511、词语记录单元512、及启动单元513。
启动单元512控制滑动窗口51以文章起始处为起点开始滑动。
词语收集单元512对滑过的词语进行不重复收集,当收集的词语达到预设数量时,发送启动信息到启动单元513和词语记录单元512;启动单元513以词语收集单元511收集的最后一个词语为起点,重新启动滑动窗口51,直至滑过整篇文章。预设数量优选为6。
词语记录单元512记录滑动窗口51滑过词语的数量。
滑动窗口51还包括左边界和右边界,滑动时,右边界从起点开始右移,当词语收集单元512收集的词语达到预设数量时,右边界停止移动,左边界右移,直至左右边界间只包含一个词语。
以上对本发明所提供的一种在网络上判断文章重要性的方法、系统及滑动窗口,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式
及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
权利要求
1.一种在网络上判断文章重要性的方法,其特征在于,包括使用预先设置的滑动窗口以文章起始处为起点开始滑动,所述滑动窗口对滑过的词语进行不重复收集;所述滑动窗口收集的词语达到预设数量时,记录滑过词语的数量,并重新设置起点,继续滑动,直至滑过整篇文章;在所述滑动窗口记录的数量中获取数量值最大者,并依据获取的数量值大小判断文章的重要性。
2.如权利要求1所述的方法,其特征在于,还包括将文章中相邻的词语用空格间隔开。
3.如权利要求1所述的方法,其特征在于,按下述步骤,所述滑动窗口对滑过的词语进行不重复收集所述滑动窗口判断每一个滑过的词语是否与已收集的词语重复,如否,收集该词语。
4.如权利要求1所述的方法,其特征在于,按下述步骤,重新设置起点将所述滑动窗口最后收集的一个词语设置为起点;清空所述滑动窗口收集的词语。
5.如权利要求1至4任一项所述的方法,其特征在于,按下述步骤,依据该数量的大小判断文章的重要性将获取的数值与预定值比较,如小于,则确定所述文章为重要文章。
6.如权利要求1至4任一项所述的方法,其特征在于,按下述步骤,依据获取数值的大小判断文章的重要性将获取数量值作为所述文章重要性的权值,按权值大小确定所述文章的重要程度。
7.一种在网络上判断文章重要性的系统,其特征在于,包括滑动窗口、最大数值获取单元和重要性判断单元,所述滑动窗口包括词语收集单元、词语记录单元、及启动单元所述启动单元,用于控制滑动窗口以文章起始处为起点开始滑动;所述词语收集单元,用于对滑过的词语进行不重复收集,当收集的词语达到预设数量时,发送启动信息到所述启动单元和所述词语记录单元;所述启动单元重新设置起点,并启动所述滑动窗口继续滑动,直至滑过整篇文章;所述词语记录单元,用于记录所述滑动窗口滑过词语的数量;所述最大值获取单元,用于在所述词语记录单元记录的数量中获取数量值最大者;所述重要性判断单元,用于依据获取数量值的大小判断文章的重要性。
8.如权利要求7所述的系统,其特征在于,还包括词语打散单元,用于将文章中相邻的词语用空格间隔开。
9.一种滑动窗口,其特征在于,所述滑动窗口包括词语收集单元、词语记录单元、及启动单元所述启动单元,用于控制滑动窗口以文章起始处为起点开始滑动;所述词语收集单元,用于对滑过的词语进行不重复收集,当收集的词语达到预设数量时,发送启动信息到所述启动单元和所述词语记录单元;所述启动单元,重新设置起点,并启动所述滑动窗口继续滑动,直至滑过整篇文章;所述词语记录单元,用于记录所述滑动窗口滑过词语的数量。
10.如权利要求9所述的滑动窗口,其特征在于,所述滑动窗口还包括左边界和右边界,滑动时,所述右边界从起点开始右移,当所述词语收集单元收集的词语达到预设数量时,所述右边界停止移动,所述左边界右移,直至所述左右边界间包含一个词语。
全文摘要
本发明涉及一种在网络上判断文章重要性的方法,包括使用预先设置的滑动窗口以文章起始处为起点开始滑动,所述滑动窗口对滑过的词语进行不重复收集;所述滑动窗口收集的词语达到预设数量时,记录滑过词语的数量,并重新设置起点,继续滑动,直至滑过整篇文章;在所述滑动窗口记录的数量中获取数量值最大者,并依据获取的数量值大小判断文章的重要性。同时,本发明还涉及一种在网络上判断文章重要性的系统,及一种滑动窗口。本发明能够对整体词汇丰富但局部词汇贫乏的文章进行有效的识别,方便用户使用。
文档编号G06F17/30GK101071419SQ20071010529
公开日2007年11月14日 申请日期2007年5月31日 优先权日2007年5月31日
发明者董亮, 邵荣防 申请人:腾讯科技(深圳)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1