本发明属于司法信息检索
技术领域:
,特别是涉及一种基于用户行为特征的司法检索结果自动学习排序方法。
背景技术:
:现有司法领域的类案检索技术,通常是基于关键词的全文检索系统,而由于文书内容信息庞杂,用户通过这种全文检索系统,很难获取到所需的信息,并且准确率很低。本发明意在提供一种新的司法文书检索方法,以提高检索效率和检索的准确率,继而适应日益庞杂的司法文书检索需求。技术实现要素:本发明的目的在于提供一种基于用户行为特征的司法检索结果自动学习排序方法,通过分析用户检索的行为,从中提取出特征,实现检索引擎的检索结果自动优化,大幅提高检索效率,解决了现有的基于关键词的全文检索系统检索难度大、准确率底的问题。为解决上述技术问题,本发明是通过以下技术方案实现的:本发明为一种基于用户行为特征的司法检索结果自动学习排序方法,该方法包括如下步骤:(1)用户产生查询需求,并通过搜索引擎页面输入检索内容,提交查询;(2)搜索引擎产生检索结果并将其输出至搜索引擎页面,用户通过搜索引擎页面浏览检索结果;若用户不点击检索结果,则查询操作自动结束;若用户点击检索结果,则执行步骤(3);(3)搜索引擎实时记录用户的行为数据,继而搜索引擎根据行为数据提取出行为特征并将其传送至判决模型,再由判决模型根据行为特征判定搜索引擎当前页面内容是否有效,若判决模型判定当前页面内容无效,则放弃当前页面内容;若判决模型判定当前页面内容有效,则执行步骤(4);(4)搜索引擎记录用户检索内容并形成记录信息,继而搜索引擎根据记录信息提取出检索特征并将其传送至自适应模型;(5)搜索引擎训练自适应模型并结合当前用户在步骤(1)中输入的检索内容,对检索结果进行自动学习排序,然后将排序后的检索结果反馈至步骤(2)。进一步地,步骤(3)中所述判决模型判决搜索引擎当前页面内容是否有效的公式为:f判决结果=w1*f用户停留时间+w2*f评论内容+w3*f页面选取内容+w4*f页面点击内容+…其中,f判决结果取值为0和1,f判决结果取值为0时,则判决模型判定当前页面内容无效,f判决结果取值为1时,则判决模型判定当前页面内容有效;f用户停留时间为用户停留时间提取的特征;f评论内容为评论内容提取的特征;f页面选取内容为页面选取内容提取的特征;f页面点击内容为用户页面点击内容提取的特征,w1、w2、w3、w4为离线训练的权重。进一步地,步骤(5)中对检索结果进行自动学习排序的方法如下:在步骤(1)与步骤(2)之间,当用户在搜索引擎的检索框中输入检索内容并提交查询后,首先检索内容通过训练的自适应模型进行分类,从而查找检索记录中是否有相应的记录信息,如果没有相应的记录信息,则搜索引擎将该检索内容按照其在搜索引擎中的原始得分进行自动排序;如果有相应的记录信息,则搜索引擎对该检索内容的排序得分重新进行计算,检索内容排序得分重新计算的公式如下:fscore=fsearch+fself-adaption其中,fsearch为检索内容在搜索引擎中的原始得分,fself-adaption为检索内容根据自适应模型计算的得分,fscore为检索内容重新排序得分;搜索引擎对检索内容的排序得分重新计算后,按照检索内容当前最新得分输出检索结果,检索结果按照得分由多到少自动排序,并将排序后的检索结果反馈至步骤(2)。进一步地,步骤(1)中所述的检索内容包括用户输入内容、文书编号、文书主题词集。进一步地,步骤(2)中所述的行为数据包括用户停留时间、评论内容、页面内选取内容、页面内点击内容。进一步地,步骤(3)中所述的行为特征包括用户停留时间提取的特征、评论内容提取的特征、页面选取内容提取的特征和用户页面点击内容提取的特征;所述的记录信息包括用户输入检索内容、司法文书编号、司法文书主题词集。进一步地,步骤(4)中所述的检索特征包括用户输入内容的特征、文书编号的特征、文书主题词集的特征。本发明具有以下有益效果:本发明通过分析用户检索的行为,从中提取出用户的行为特征,继而根据行为特征判定搜素引擎当前页面内容是否有效,从而筛选出有效的检索内容,继而搜索引擎对有效的检索内容进行记录并训练自适应模型,另外根据自适应模型计算得出检索内容的得分,再结合搜索引擎中相应的检索内容得分对检索内容进行自动排序,从而有利于保证用户通过该检索方法优先获得较为合适的检索内容,且该自动学习排序方法随着用户的不断使用将自适应模型进行迭代运算和优化,这样就有利不断更新输出更加适合用户需求的检索结果,从而有利于实现检索引擎的检索结果自动优化,大幅提高检索效率和检索准确率。当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。附图说明为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本发明的一种基于用户行为特征的司法检索结果自动学习排序方法的总流程图;图2为本发明中检索内容重新排序的流程图。具体实施方式下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。请参阅图1所示,本发明为一种基于用户行为特征的司法检索结果自动学习排序方法,该方法包括如下步骤:(1)用户产生查询需求,并通过搜索引擎页面输入检索内容,提交查询;其中检索内容包括用户输入内容、文书编号、文书主题词集;(2)搜索引擎产生检索结果并将其输出至搜索引擎页面,用户通过搜索引擎页面浏览检索结果,检索结果包括司法文书名称及其编号;用户若点击检索结果中的某个司法文书,则执行下一步骤(3),用户若不点击检索结果,则查询操作自动结束;(3)搜索引擎实时记录用户的行为数据,该行为数据包括用户停留时间、评论内容、页面内选取内容、页面内点击内容;搜索引擎根据行为数据提取出相应的行为特征并将所述行为特征传送至判决模型,继而由判决模型根据行为特征判定搜索引擎当前页面内容是否有效,该判决模型的判决方法如下:f判决结果=w1*f用户停留时间+w2*f评论内容+w3*f页面选取内容+w4*f页面点击内容+…其中,f用户停留时间为用户停留时间提取的特征;f评论内容为评论内容提取的特征;f页面选取内容为页面选取内容提取的特征;f页面点击内容为用户页面点击内容提取的特征,w1、w2、w3、w4为离线训练的权重;其中,其中threshold是常数,根据数据统计而来;其中,这里需要对评论的内容进行情感识别,情感识别的结果分为正向和负向;其中,其中threshold是常数,根据数据统计而来;其中,其中threshold是常数,根据数据统计而来;当f判决结果取值为0时,即判定当前页面内容无效,则放弃当前页面内容;f判决结果取值为1时,即判定当前页面内容有效,则执行下一步骤(4),该记录信息包括用户输入检索内容、司法文书编号、司法文书主题词集;其中,行为特征包括用户停留时间提取的特征、评论内容提取的特征、页面选取内容提取的特征和用户页面点击内容提取的特征;(4)搜索引擎记录当前用户的检索内容并形成记录信息,继而搜索引擎根据记录信息提取检索特征并将其传送至自适应模型,检索特征包括用户输入内容的特征、文书编号的特征、文书主题词集的特征;(5)搜索引擎训练自适应模型并结合当前用户在步骤(1)中输入的检索内容,对检索结果进行自动学习排序,然后将排序后的检索结果反馈至步骤(2),其具体排序方法如下:在步骤(1)与步骤(2)之间,即当用户在搜索引擎的检索框中输入检索内容并提交查询后,如图1结合图2所示,首先检索内容通过训练的自适应模型进行分类,从而查找检索记录是否有相应的记录信息,如果没有相应的记录信息,则搜索引擎将该检索内容按照其在搜索引擎中的原始得分进行自动排序;如果有相应的记录信息,则需要对该检索内容在搜索引擎中的排序得分进行重新计算,检索内容排序得分重新计算的公式如下:fscore=fsearch+fself-adaption其中,fsearch为检索内容在搜索引擎中的原始得分,fself-adaption为检索内容根据自适应模型训练计算得出的得分,fscore为检索内容重新排序得分;检索内容的排序得分重新计算后,搜索引擎按照检索内容当前最新得分输出检索结果,检索结果按照得分由多到少自动排序,并将排序后的检索结果反馈至步骤(2)。其中,搜索引擎训练自适应模型的方法是:搜索引擎将经过判决模型判定为有效的检索内容进行集合、分类、罗列出来,自适应模型的结构包括用户输入内容、文书编号、文书主题词集,自适应模型的结构如下表所示:用户输入内容文书编号文书主题词集aaa000b432c5dae11e5bbd9000c29217b49关键词a、关键词b、…bbb000ba7615dae11e5bbd9000c29217b49关键词c、关键词d、…综上,搜索引擎为用于司法文书检索的搜索引擎;用户输入内容为用户在搜索引擎检索框中输入的内容;文书编号是用户点击浏览过且经过步骤(3)判决为具有有效检索内容的司法文书的文书编码;文书主题词集,也即与文书相关联的关键词的集合,是指通过自然语言理解技术生成的用于表征与文书编号相应的司法文书的一系列词,其中自然语言理解技术是现有技术。最后需要说明的是,以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属
技术领域:
技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。当前第1页12