实体词热度计算方法及装置制造方法
【专利摘要】本发明公开了一种实体词热度计算方法及装置,上述方法包括:将实体词作为query,在搜索引擎中抓取搜索结果;解析抓取到的前10条搜索结果的title,过滤其中不包含上述实体词的title;对剩余title逐条进行分词并在各实体词类别下进行打分;根据得到的分数计算上述实体词在各实体词类别下的热度;上述装置包括抓取模块、挖掘模块及热度计算模块。本发明提高了实体词热度计算的速度和准确性。
【专利说明】实体词热度计算方法及装置
【技术领域】
[0001] 本发明设及计算机信息检索领域,尤其设及一种实体词热度计算方法及装置。
【背景技术】
[0002] 现在成熟的商业捜索引擎很多,该些捜索引擎通过长期的用户经验积累,为我们 提供了丰富的信息,合理的利用商业捜索引擎提供的结果数据进行分析处理,可W得到很 多有用的信息。
[0003] 实体词热度是指实体词在不同实体词类别下在当前阶段的受欢迎程度。在捜索引 擎处理中,实体词热度非常重要,直接影响query中词语下发检索工作。
[0004] 现在捜索引擎中实体词热度都是利用相关资源站所给到的得分计算得到的,由于 不同类型的资源类别打分体系相互独立,很难得到一个统一的标准来得到实体词在不同类 别下的热度。传统的实体词热度问题很大程度上依靠人的主观意志来判定,因而带来了浪 费人力、速度慢且人为因素影响太严重等问题。
【发明内容】
[0005] 本发明的目的是,提供一种实体词热度计算方法及装置,W提高实体词热度的计 算速度及准确性。
[0006] 本发明公开了一种实体词热度计算方法,上述方法包括:
[0007] 步骤A ;将实体词作为query,在捜索引擎中抓取捜索结果;
[000引步骤B ;解析抓取到的前10条捜索结果的title,过滤其中不包含上述实体词的 title ;
[0009] 步骤C ;对剩余title逐条进行分词并在各实体词类别下进行打分;
[0010] 步骤D ;根据得到的分数计算上述实体词在各实体词类别下的热度。
[0011] 优选地,上述步骤C通过如下方法对每个title在各实体词类别下进行打分:
[001引确定当前title中是否包含当前实体词类别的特征词,若是,则当前title在当前 实体词类别下的得分为11-m,其中,m为当前title的序号;否则,当前title在当前实体词 类别下的得分为0。
[0013] 优选地,上述步骤D具体包括:
[0014] 步骤D1 ;取每个实体词类别下的最高分为上述实体词在该实体词类别下的分数;
[0015] 步骤D2 ;判断上述分数的大小,若上述分数为0,则上述实体词在上述实体词类别 下的热度为0 ;若上述分数为1、2、3或4,则上述实体词在上述实体词类别下的热度为1 ;若 上述分数为5或6,则上述实体词在上述实体词类别下的热度为2 ;若上述分数为7或8,则 上述实体词在上述实体词类别下的热度为3 ;若上述分数为9或10,则上述实体词在上述实 体词类别下的热度为4。
[0016] 优选地,上述实体词类别的特征词通过如下步骤预先确定:
[0017] 步骤一:计算当前词在每个实体词类别下的卡方值;上述实体词类别包括:视频 类、音乐类、小说类、a卵类;
[001引步骤二:判断上述卡方值是否大于预设参数;若是,则将上述当前词作为相应实 体词类别的候选特征词;
[0019] 步骤计算每个候选特征词在相应实体词类别下模糊强度为低、中、高强度时的 隶属度;
[0020] 步骤四;根据最大隶属度原则,选出高强度时的隶属度为=个隶属度中的最大值 的候选特征词,上述候选特征词即为相应实体词类别的特征词。
[0021] 优选地,上述步骤一通过如下公式计算当前词在每个实体词类别下的卡方值:
[0022]
【权利要求】
1. 一种实体词热度计算方法,其特征在于,所述方法包括: 步骤A:将实体词作为query,在搜索引擎中抓取搜索结果; 步骤B:解析抓取到的前10条搜索结果的title,过滤其中不包含所述实体词的title; 步骤C:对剩余title逐条进行分词并在各实体词类别下进行打分; 步骤D:根据得到的分数计算所述实体词在各实体词类别下的热度。
2. 如权利要求1所述的实体词热度计算方法,其特征在于,所述步骤C通过如下方法对 每个title在各实体词类别下进行打分: 确定当前title中是否包含当前实体词类别的特征词,若是,则当前title在当前实体 词类别下的得分为11-m,其中,m为当前title的序号;否则,当前title在当前实体词类别 下的得分为〇。
3. 如权利要求1所述的实体词热度计算方法,其特征在于,所述步骤D具体包括: 步骤Dl:取每个实体词类别下的最高分为所述实体词在该实体词类别下的分数; 步骤D2 :判断所述分数的大小,若所述分数为0,则所述实体词在所述实体词类别下的 热度为〇 ;若所述分数为1、2、3或4,则所述实体词在所述实体词类别下的热度为1 ;若所述 分数为5或6,则所述实体词在所述实体词类别下的热度为2 ;若所述分数为7或8,则所述 实体词在所述实体词类别下的热度为3 ;若所述分数为9或10,则所述实体词在所述实体词 类别下的热度为4。
4. 如权利要求2所述的实体词热度计算方法,其特征在于,所述实体词类别的特征词 通过如下步骤预先确定: 步骤一:计算当前词在每个实体词类别下的卡方值;所述实体词类别包括:视频类、音 乐类、小说类、app类; 步骤二:判断所述卡方值是否大于预设参数;若是,则将所述当前词作为相应实体词 类别的候选特征词; 步骤三:计算每个候选特征词在相应实体词类别下模糊强度为低、中、高强度时的隶属 度; 步骤四:根据最大隶属度原则,选出高强度时的隶属度为三个隶属度中的最大值的候 选特征词,所述候选特征词即为相应实体词类别的特征词。
5. 如权利要求4所述的实体词热度计算方法,其特征在于,所述步骤一通过如下公式 计算当前词在每个实体词类别下的卡方值:
其中,w为当前词;c为当前实体词类别;N为统计语料集中句子的总数;Ii1SN中属于 当前类别c下并且包含w的句子的总数;112为N中不属于当前类别c并且包含w的句子总 数;113为N中属于当前类别c并且不包含w的句子总数;n4为N中不属于当前类别c并且 不包含w的句子总数。
6. 如权利要求4所述的实体词热度计算方法,其特征在于,所述步骤三具体包括以下 步骤: 步骤a:根据如下模糊强度为低强度的隶属度函数,计算当前候选特征词与相应实体 词类别在低强度下的隶属度;
步骤b:根据如下模糊强度为中强度的隶属度函数,计算当前候选特征词与相应实体 词类别在中强度下的隶属度;
步骤c:根据如下模糊强度为高强度的隶属度函数,计算当前候选特征词与相应实体 词类别在高强度下的隶属度;
其中,X为当前候选特征词在相应实体词类别下的卡方值;mi为常数,表示模糊强度为 低强度时的聚类中心;Hl2为常数,表示模糊强度为中强度时的聚类中心;Hl3为常数,表示模 糊强度为高强度时的聚类中心。
7. -种实体词热度计算装置,其特征在于,所述装置包括: 抓取模块,用于将实体词作为query,在搜索引擎中抓取搜索结果; 挖掘模块,用于解析抓取模块抓取到的前10条搜索结果的title,过滤其中不包含所 述实体词的title; 热度计算模块,用于对挖掘模块挖掘出的title进行分词并在各实体词类别下进行打 分;以及根据得到的分数计算所述实体词在各实体词类别下的热度。
8. 如权利要求7所述的实体词热度计算装置,其特征在于,所述装置还包括特征词模 块,用于计算当前词在每个实体词类别下的卡方值;判断所述卡方值是否大于预设参数; 并在所述卡方值大于预设参数时,将所述当前词作为相应实体词类别的候选特征词;以及 计算每个候选特征词在相应实体词类别下模糊强度为低、中、高强度时的隶属度;并根据最 大隶属度原则,选出高强度时的隶属度为三个隶属度中的最大值的候选特征词,将所述候 选特征词作为相应实体词类别的特征词并保存。
【文档编号】G06F17/30GK104504037SQ201410778155
【公开日】2015年4月8日 申请日期:2014年12月15日 优先权日:2014年12月15日
【发明者】赵艳青 申请人:深圳市宜搜科技发展有限公司