挂载问题到主题的方法和系统的制作方法
【专利摘要】本发明提供了一种挂载问题到主题的方法,该方法包括以下步骤:接收所输入的检索词,基于所述检索词检索相应主题并根据所述主题到问题索引库中检索包含所述主题的问题列表;计算所述问题列表中每个问题的相关性值并基于所述相关性值对所述问题进行排序,设定一阈值,将所述相关性值大于所述阈值的问题返回;计算各个已返回问题的综合值并基于所述综合值对所返回问题进行排序,并按序取特定数量的已返回问题存入结果数据文件。相应地还提供了一种挂载问题到主题的系统。本发明提供的方法及系统可以提升用户对问题进行延伸的浏览体验。
【专利说明】挂载问题到主题的方法和系统
【技术领域】
[0001]本发明涉及数据的管理技术,尤其涉及挂载问题到主题的方法和系统。
【背景技术】
[0002]随着网络技术的发展,用户对网络的依赖越来越强,通常有不明白的问题都会求助于网络平台来获取答案。典型地,以我们常用的问答互动平台——百度知道为例,用户通常将相关问题的标题、内容甚至后续的追问提交在该平台上,以期获取满意的答案。进一步地,用户还可以对问题相对应的回答进行评价,以使得其他用户在搜索类似问题的答案时,可以通过查看评价数、日期等一目了然所要获取的信息。一般地,多个问题都挂载于同一个主题下,例如,问题“反恐精英OL要下载多久”、“反恐精英下载”、“反恐精英单击下载”等都挂载于主题“反恐精英:下载”下。
[0003]随着用户提交的问题越来越多,获取的答案越来越丰富,会出现挂载的问题,SP如何将质量最好或相关性最强或最能提升用户体验的问题挂载在相应主题下进行展示。
[0004]因此,希望可以提出一种解决上述问题的挂载问题到主题的方法和系统。
【发明内容】
[0005]本发明的目的是提供一种挂载问题到主题的方法和系统,可以提升用户的搜索、浏览体验。
[0006]根据本发明的一个方面,提供了一种挂载问题到主题的方法,该方法包括以下步骤:
[0007]接收所输入的检索词,基于所述检索词检索相应主题并根据所述主题到问题索引库中检索包含所述主题的问题列表;
[0008]计算所述问题列表中每个问题的相关性值并基于所述相关性值对所述问题进行排序,设定一阈值,将所述相关性值大于所述阈值的问题返回;
[0009]计算各个已返回问题的综合值并基于所述综合值对所返回问题进行排序,并按序取特定数量的已返回问题存入结果数据文件。
[0010]根据本发明的另一个方面,还提供了一种挂载问题到主题的系统,包括:
[0011]接收模块,用于接收所输入的检索词;
[0012]检索模块,基于所述检索词检索相应主题并根据所述主题到问题索引库中检索包含所述主题的问题列表;计算装置,用于计算所述问题列表中相应问题的相关性值及综合值;
[0013]排序模块,基于所述相关性值或综合值对相应问题进行排序;
[0014]返回模块,通过设定一阈值,将所述相关性值大于所述阈值的问题返回;
[0015]数据存储模块,用于将特定数量的已返回问题按序存入结果数据文件。
[0016]与现有技术相比,本发明具有以下优点:基于本发明提供的技术方案,可以为主题获取最合适(包括相关性和问题质量等因素)的挂载问题及相应回答,提升了用户对问题进行延伸的浏览体验。
【专利附图】
【附图说明】
[0017]通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
[0018]图1为根据本发明一个优选实施例的挂载问题到主题的方法流程图;
[0019]图2为根据本发明一个优选实施例的挂载问题到主题的页面示意图;
[0020]图3为根据本发明另一个优选实施例的挂载问题到主题的系统的示意性框图。
【具体实施方式】
[0021]下面结合附图对本发明作进一步详细描述。
[0022]根据本发明的一个方面,提供了一种挂载问题到主题的方法。
[0023]请参考图1,图1为根据本发明一个优选实施例的挂载问题到主题的方法流程图。
[0024]如图1所示,该方法包括以下步骤:
[0025]步骤S101,接收所输入的检索词,基于所述检索词检索相应主题并根据所述主题到问题索引库中检索包含所述主题的问题列表。
[0026]具体地,检索词可以为任何以字母、汉字或/和标点符号等元素组成的字、词、短语或句子,用于搜索挂载有至少一个以上问题的主题。
[0027]通常,多个类似的问题对应同一个主题,换言之,一个主题下通常挂载有至少一个以上的相关问题。请参考图2,图2为根据本发明一个优选实施例的挂载问题到主题的页面示意图。如图2所示,主题“反恐精英:下载”下挂载的问题有:“反恐精英OL要下载多久”、“反恐精英下载”、“反恐精英单击下载”、“反恐精英1.6下载”以及“求个反恐精英单机版下载! ”,这些问题按照一定的评价标准如相关度、用户好评数等因素进行排序并展示在页面中。
[0028]其中,每个主题通常由中心词和标签词(tag词)组成,以上文的主题“反恐精英:下载”为例,其中,中心词为“反恐精英”,标签词为“下载”。
[0029]输入检索词后,根据所述检索词所对应的主题中心词或/和标签词获取相应的主题并将其读取。例如,输入检索词“反恐”,根据“反恐”所对应的主题中心词为“反恐精英”,进一步根据所对应的中心词获得相关主题,如“反恐精英:下载”、“反恐精英:单机版”、“反恐精英、游戏”以及“反恐精英:官网”等,并对这些主题进行读取。进一步地,还可以将所输入的检索词进一步扩充,以使得搜索的结果更加集中,例如,将检索词“反恐”扩充到“反恐单机版”,则可能获得唯一的主题“反恐精英:单机版”。
[0030]检索得到所述主题后,基于所述主题到问题索引库中检索包含所述主题的问题列表。其中,问题通常包括标题、内容、回答、好评数、提出时间以及补充提问等相关信息,而问题索引库通常以问题的标题为索引而建立的问题数据库。本实施例中,根据所读取的主题至IJ问题索引库中进行检索。通常,可以根据主题与问题的标题、内容或/和补充提问等这些信息的相关度进行检索。优选地,根据主题与问题标题的相关度进行检索。
[0031]其中,所述问题列表主要列出各问题的标题,而问题的其他信息可以直接以标题为索引到问题索引库中获取。仍以上述主题“反恐精英:下载”为例,通过检索,得到包含所述主题内容的如下问题列表:
[0032]反恐精英OL要下载多久
[0033]反恐精英下载
[0034]反恐精英单击下载
[0035]反恐精英1.6下载
[0036]反恐精英联机下载
[0037]反恐精英1.8下载
[0038]反恐精英官方下载
[0039]在本实施例中,问题列表以标题的形式展现。在其他实施例中,问题列表还可以以内容、问题补充或答案等形式展现。
[0040]步骤S102,计算所述问题列表中每个问题的相关性值并基于所述相关性值对所述问题进行排序,设定一阈值,将所述相关性值大于所述阈值的问题返回。
[0041]具体地,同一个主题下挂载多个问题,但是不同问题与主题的相关性存在差异,而用户通常希望获取与主题相关性较高的问题,因此,需要确定每个问题与对应主题之间的相关性程度,并对问题按照相关性值进行排序,以确定每个问题是否展现在页面及所展现的位置。
[0042]本实施例中,以相关性值表示每个问题的标题与对应主题之间的相关程度,在其他实施例中,还可以以相关性值表示每个问题的其他信息与对应主题的相关程度。在计算各个问题的相关性值前,对主题及各个问题的标题进行分词,其中,可以对两者采用相同的分词方法,所述分词方法可以为基于字符串匹配的分词方法、基于理解的分词方法或/和基于统计的分词方法,在此不作限定。对各个问题的标题进行分词后,若标题的分词(即term)也出现在主题中,则记为命中,并米用TF-1DF (term frequency -1nverse documentfrequency)算法或仅米用IDF (inverse document frequency)算法对其中的各个分词进行统计。其中,相关性值(U可以采用下述公式进行计算:
[0043]
【权利要求】
1.一种挂载问题到主题的方法,该方法包括以下步骤: 接收所输入的检索词,基于所述检索词检索相应主题并根据所述主题到问题索引库中检索包含所述主题的问题列表;计算所述问题列表中每个问题的相关性值并基于所述相关性值对所述问题进行排序,设定一阈值,将所述相关性值大于所述阈值的问题返回; 计算各个已返回问题的综合值并基于所述综合值对所返回问题进行排序,并按序取特定数量的已返回问题存入结果数据文件。
2.根据权利要求1所述的方法,其中,所述问题索引库是以问题的标题为索引而建立的问题数据库。
3.根据权利要求1或2所述的方法,其中,所述计算每个问题的相关性值还包括:对主题及主题对应的各问题标题进行分词。
4.根据权利要求3所述的方法,其中,还包括:采用IDF算法对所述分词进行统计。
5.根据权利要求1或2所述的方法,其中,所述问题的综合值包括问题的相关性值、问题质量值和问题可读性值。
6.一种挂载问题到主题的系统,包括: 接收模块,用于接收所输入的检索词; 检索模块,基于所述检索词检索相应主题并根据所述主题到问题索引库中检索包含所述主题的问题列表; 计算装置,用于计算所述问题列表中相应问题的相关性值及综合值; 排序模块,基于所述相关性值或综合值对相应问题进行排序; 返回模块,通过设定一阈值,将所述相关性值大于所述阈值的问题返回; 数据存储模块,用于将特定数量的已返回问题按序存入结果数据文件。
7.根据权利要求6所述的系统,其中,所述问题索引库是以问题的标题为索引而建立的问题数据库。
8.根据权利要求5或6所述的系统,其中,所述计算装置还包括分词模块,用于对主题及主题对应的问题标题进行分词。
9.根据权利要求8所述的系统,其中,所述计算装置采用IDF算法对所述分词进行统计。
10.根据权利要求5或6所述的系统,其中,所述问题的综合值包括问题的相关性值、问题质量值和问题可读性值。
【文档编号】G06F17/30GK104077330SQ201310110075
【公开日】2014年10月1日 申请日期:2013年3月30日 优先权日:2013年3月30日
【发明者】谢双宾 申请人:百度在线网络技术(北京)有限公司