参考文档的推荐方法及装置的制造方法
【技术领域】
[0001]本公开涉及信息检索技术,尤其涉及一种参考文档的推荐方法及装置。
【背景技术】
[0002]随着社会的快速发展,科学技术的不断进步,人们所能触及到的信息呈现几何式的增长,人们越来越需要借助信息搜索技术在海量的信息中挖掘出有效信息。
[0003]目前,用户在用office等办公软件,如word写论文、报告等文章前,通常需要进行参考文献的检索,检索过程一般是根据文章的主体思想,设定几个关键词语,并利用百度搜索、谷歌搜索等搜索引擎进行关键词语的检索,然后在搜索到的信息中查找是否有自己需要的有用信息。检索的效果好坏很大程度上取决于用户对检索技巧掌握,如关键词选择是否合适,从搜索到的海量信息中快速定位有价值信息的个人能力等种种因素。
[0004]公开内容
[0005]为克服相关技术中存在的问题,本公开提供一种参考文档的推荐方法及装置,所述技术方案如下:
[0006]根据本公开实施例的第一方面,提供一种参考文档的推荐方法,包括:
[0007]获取用户正在操作的目标文档的内容信息;
[0008]根据预设解析规则,对所述内容信息进行解析;
[0009]对解析后得到的关键信息进行筛选处理,以从所述关键信息中提取出检索词;
[0010]基于所述检索词进行检索,得到包含所述检索词的参考文档;
[0011]将所述参考文档进行显示。
[0012]可选的,所述预设解析规则包括:标志内容提取规则、分词规则;所述根据预设解析规则,对所述内容信息进行解析,包括:
[0013]根据所述标志内容提取规则,提取所述内容信息中的标志内容;所述标志内容包括以下至少一项:所述目标文档中指明的关键词、所述目标文档标题;
[0014]根据所述分词规则对提取所述标志内容后的内容信息进行分词处理,得到分词处理后的各个词语片断。
[0015]可选的,所述关键信息包括:所述标志内容、所述词语片断;相应的,所述对解析后得到的关键信息进行筛选处理,以从所述关键信息中提取出检索词包括:
[0016]将各个所述词语片断中的不相关词语删除;所述不相关词语包括以下一种或多种:连接词语、单字词语、称谓词语;
[0017]对删除处理后剩余的各个词语片断进行重复出现频度排序;
[0018]根据频度由大到小的顺序,从排序第一位的词语片断开始选出满足预设阈值个数的词语片断,并在所述选出的词语片断中去除与所述标志内容一致的词语片断,得到筛选后的词语片断;所述筛选后的词语片断与所述标志内容构成所述检索词。
[0019]可选的,所述基于所述检索词进行检索,得到包含所述检索词的参考文档,包括:
[0020]将所述检索词导入搜索库中进行检索,得到包含所述检索词的参考文档;所述搜索库包含以下一种或多种:本地存储介质、用户预设的云存储设备、公共搜索引擎资源。[0021 ]可选的,还包括:所述基于所述检索词进行检索之后,
[0022]根据预设评价规则,对检索得到的文档进行评价处理;所述评价规则包括以下一种或多种:被引用次数因子、文档好评率、文档质量程度。
[0023]相应的,所述得到包含检索词的参考文档包括:
[0024]根据所述评价处理结果对检索得到的所述参考文档进行优先级排序,以使所述参考文档具有优先级顺序。
[0025]可选的,还包括:所述对解析后得到的关键信息进行筛选处理,以从所述关键信息中提取出检索词之后,
[0026]根据所述检索词在所述目标文档中所处位置与用户当前输入字符位置之间的距离,或者根据所述检索词在所述目标文档中的权重值,对所述检索词进行优先级排序;
[0027]相应的,所述基于所述检索词进行检索,包括:
[0028]基于排序得到的所述检索词的优先级顺序进行检索。
[0029]可选的,所述方法还包括:
[0030]对所述目标文档进行语义理解分析,获取所述目标文档的主题属性;
[0031 ]相应的,所述得到与所述目标文档相似的参考文档之后,还包括:
[0032]根据所述主题属性对所述参考文档进行排序,将与所述主题属性匹配度高的参考文档进行优先显示。
[0033]可选的,所述将所述参考文档进行显示包括:
[0034]所述参考文档与所述目标文档位于同一显示窗口内,或者所述参考文档与所述目标文档位于不同显示窗口内。
[0035]可选的,所述参考文档与所述目标文档位于同一显示窗口内包括:
[0036]所述参考文档与所述目标文档分栏显示,所述参考文档位于所述显示窗口的任意一侧;或者,所述参考文档以浮窗形式覆盖显示于所述目标文档表面。
[0037]根据本公开实施例的第二方面,提供一种参考文档的推荐装置,包括:
[0038]获取模块,用于获取用户正在操作的目标文档的内容信息;
[0039]解析模块,用于根据预设解析规则,对所述内容信息进行解析;
[0040]筛选模块,用于对解析后得到的关键信息进行筛选处理,以从所述关键信息中提取出检索词;
[0041]检索模块,用于基于所述检索词进行检索,得到包含所述检索词的参考文档;
[0042]显示模块,用于将所述参考文档进行显示。
[0043]可选的,所述预设解析规则包括:标志内容提取规则、分词规则;相应的,所述解析丰吴块,包括:
[0044]提取子模块,用于根据所述标志内容提取规则,提取所述内容信息中的标志内容;所述标志内容包括以下至少一项:所述目标文档中指明的关键词、所述目标文档标题;
[0045]处理子模块,用于根据所述分词规则对所述提取子模块提取所述标志内容后的内容信息进行分词处理,得到分词处理后的各个词语片断。
[0046]可选的,所述关键信息包括:所述标志内容、所述词语片断;相应的,所述筛选模块,包括:
[0047]删除子模块,用于将各个所述词语片断中的不相关词语删除;所述不相关词语包括以下一种或多种:连接词语、单字词语、称谓词语;
[0048]排序子模块,用于对所述删除子模块删除处理后剩余的各个词语片断进行重复出现频度排序;
[0049]选择子模块,用于根据频度由大到小的顺序,从排序第一位的词语片断开始选出满足预设阈值个数的词语片断;
[0050]去重子模块,用于在所述选择子模块选出的词语片断中去除与所述标志内容一致的词语片断,得到筛选后的词语片断;所述筛选后的词语片断与所述标志内容构成所述检索词。
[0051 ]可选的,所述检索模块,包括:
[0052]导入子模块,用于将所述检索词导入搜索库;
[0053]第一检索子模块,用于对所述导入子模块导入后的所述检索词进行检索,得到包含所述检索词的参考文档;
[0054]所述搜索库包含以下一种或多种:本地存储介质、用户预设的云存储设备、公共搜索引擎资源。
[0055]可选的,所述装置还包括:
[0056]评价模块,用于根据预设评价规则,对检索得到的文档进行评价处理;所述评价规则包括以下一种或多种:被引用次数因子、文档好评率、文档质量程度;
[0057]相应的,所述参考文档为根据所述评价处理结果对检索得到的文档进行优先级排序后的文档。
[0058]可选的,所述装置还包括:
[0059]第一排序模块,用于根据所述检索词在所述目标文档中所处位置与用户当前输入字符位置之间的距离,或者根据所述检索词在所述目标文档中的权重值,对所述检索词进行优先级排序;
[0060]相应的,所述检索模块,包括:
[0061]第二检索子模块,用于基于所述第一排序模块排序得到的所述检索词的优先级顺序进彳丁检索。
[0062]可选的,所述装置还包括:
[0063]主题获取模块,用于对所述目标文档进行语义理解分析,获取所述目标文档的主题属性;
[0064]第二排序模块,用于根据所述主题获取模块获取到的所述主题属性对所述参考文档进行排序;
[0065]所述显示模块包括:
[0066]第一显示子模块,用于将与所述主题属性匹配度高的参考文档进行优先显示。
[0067]可选的,所述显示模块包括:
[0068]第二显示子模块,用于将所述参考文档与所述目标文档位于同一显示窗口内显示;
[0069]第三显示子模块,用于将所述参考文档与所述目标文档位于不同显示窗口内显不O
[0070]可选的,所述第二显示子模块包括:
[0071 ]分栏显示子模块,用于将所述参考文档与所述目标文档分栏显示;所述参考文档位于所述显示窗口的任意一侧;
[0072]浮窗显示子模块,用于将所述参考文档以浮窗形式覆盖显示于所述目标文档表面。
[0073]根据本公开实施例的第三方面,提供一种参考文档的推荐装置,包括:
[0074]处理器;
[0075]用于存储所述处理器的可执行指令的存储器;
[0076]其中,所述处理器用