融合多视图和半监督学习的搜索引擎用户信息需求满意度评估方法
【技术领域】
[0001] 本发明设及互联网信息技术领域,尤其设及融合多视图和半监督学习的捜索引擎 用户信息需求满意度评估方法。
【背景技术】
[0002] 随着知识经济与信息化建设的高速发展,网络信息数据规模急速膨胀,海量信息 资源在丰富人们信息来源的同时,也给人们获取信息造成了困扰,而捜索引擎凭借日趋精 准化、人性化的信息检索服务成为用户访问万维网查找和获取资源信息的主要工具之一。 同时,捜索引擎需要不断地进行算法改进和系统优化来满足用户日益增长的信息需求和高 效方便获取信息资源的要求。因此,如何向用户提供优质的捜索服务,帮助用户快速准确地 定位所需的信息资源,从而吸引更多用户使用,一直是商用捜索引擎公司所关注的重点。
[0003] 传统的捜索引擎质量评价指标如前η位准确率(Precision at η,P@n)、平均准确 率(Mean Average Precision,MAP)、标准化折扣累计回报(normalize Discounted Cumulative Gain,nDCG)等需要使用大量的人工标注数据评价捜索引擎的性能,但是运种 人工标注需要消耗大量的人力和时间资源,难W大规模地实时开展。半监督学习能够使评 价方法自动对大量未标注数据进行利用W辅助少量标注数据学习,然而传统的半监督学习 方法大多是基于单视图的,即简单地把数据中所有的子属性集组合成一个单一的属性集, 忽略了每个子属性所拥有的独特的统计学上的性质,而且在训练数据极其稀少的情况下容 易陷入局部最优。
【发明内容】
[0004] 本发明为克服上述的不足之处,目的在于提供融合多视图和半监督学习的捜索引 擎用户信息需求满意度评估方法,该方法包括数据预处理、训练子视图满意度模型、对未标 注数据分配伪标签、训练基于多视图和半监督学习的用户满意度模型和评估等部分,本方 法可W在少量的标注数据的情况下,有效地评估捜索引擎用户信息需求满意度;可W通过 使用少量标注数据和大量未标注数据来提高用户满意度模型评估性能。
[0005] 本发明通过W下技术方案达到上述目的:融合多视图和半监督学习的捜索引擎用 户信息需求满意度评估方法,包括如下步骤:
[0006] (1)将捜索引擎日志数据分为行为视图数据与时间视图数据,其中捜索引擎日志 数据包括标注数据与未标注数据两类,并对行为视图数据与时间视图数据作预处理;
[0007] (2)对预处理后的数据训练得到基于行为视图的满意度模型与基于时间视图的满 意度模型;
[000引(3)利用基于行为视图的满意度模型与基于时间视图的满意度模型对未标注数据 分配伪标签;
[0009] (4)利用基于行为视图的满意度模型与基于时间视图的满意度模型,结合带有伪 标签的未标注数据训练基于多视图和半监督学习的用户满意度模型;
[0010] (5)通过基于多视图和半监督学习的用户满意度模型计算得到信息需求的生成概 率,输出概率最大的类作为输出的最终分类结果。
[0011] 作为优选,所述步骤(1)对视图数据与时间视图数据作预处理包括:对捜索引擎日 志数据内的标注数据所分出的行为视图数据与时间视图数据按照满意度标签分为满意行 为视图数据和不满意行为视图数据,满意时间视图数据和不满意时间视图数据两部分;对 捜索引擎日志数据内的未标注数据所分出的行为视图数据与时间视图数据处理得到评估 数据。
[0012] 作为优选,所述步骤(2)的基于行为视图的满意度模型包括基于行为视图的满意 模型与基于行为视图的不满意模型,训练基于行为视图的满意模型与训练基于行为视图的 不满意模型的方法类似,其中,训练基于行为视图的满意模型的方法步骤如下:
[0013] 1)W-个信息需求为单位读取经过标注数据预处理的满意行为视图数据;如果所 读数据是一个完整的信息需求,则进入步骤2);如果所读数据不是一个完整的信息需求,贝U 继续读取下一个数据;
[0014] 2)统计已读信息需求出现的行为的类型曰1及该类型行为出现的次数统计已 读信息需求出现的行为转移的类型(ai,aj)及该行为转移出现的次数
[0015] 3)利用最大似然估计计算两个行为曰1和aj之间的转移概率;用拉普拉斯平滑处理 由于数据稀疏而产生的零概率问题,处理公式如下:
[0016]
[0017] 其中,α>〇是平滑参数,I VI是用户在使用捜索引擎过程中可能出现的行为类型数 量;
[0018] 4)输出满意模型的用户行为转移概率矩阵。
[0019] 作为优选,所述步骤(2)的基于时间视图的满意度模型包括基于时间视图的满意 模型与基于时间视图的不满意模型,训练基于时间视图的满意模型与训练基于时间视图的 不满意模型的方法类似,其中,训练基于时间视图的满意模型的方法步骤如下:
[0020] (i)W-个信息需求为单位读取经过标注数据预处理的满意时间视图数据;如果 所读数据是一个完整的信息需求,则进入步骤(ii);如果所读数据不是一个完整的信息需 求,则继续读取下一个数据;
[0021 ] (i i)统计每个行为转移的停留时间;
[0022] (iii)利用Gamma分布对行为转移的停留时间建立概率模型:
[0023]
[0024] 其中,k是尺度参数,Θ是形状参数,X是一个行为转移,且X,k,Θ > 0;
[0025] (iv)输出每个行为转移的尺度参数和形状参数。
[0026] 作为优选,所述步骤(3)利用基于行为视图的满意度模型对未标注数据分配伪标 签的步骤如下:
[0027] (A)读取两个基于行为视图的用户满意度模型的行为转移概率矩阵;
[0028] (B)W -个信息需求为单位读取预处理后的未标注数据产生的行为视图数据;如 果所读数据是一个完整的信息需求,则进入步骤(C);如果所读数据不是一个完整的信息需 求,则继续读取下一个数据;
[0029] (C)对于一个包含η个行为的信息需求S = <ai,…,日1-1,日1,-',日。〉,结合行为转移概 率矩阵计算得到从模型中生成此信息需求S的概率为:
[0030]
[0031] 其中,Co表示不满意的类,Cl表示满意的类;
[0032] 计算得到最大似然估计为:
[0033]
[0034] 其中,P(C)表示类C的先验概率;
[0035] (D)计算并获取似然估计值最大的类作为当前信息需求的伪分类结果,同时给当 前信息需求分配伪标签,其中计算公式如下所示:
[0036]
[0037] 作为优选,所述步骤(3)利用基于时间视图的满意度模型对未标注数据分配伪标 签的方法与利用基于行为视图的满意度模型对未标注数据分配伪标签的方法类似。
[0038] 作为优选,所述步骤(4)训练基于多视图和半监督学习的用户满意度模型的步骤 如下:
[0039] (I)W-个信息需求为单位读取预处理后标注数据的行为视图数据;
[0040] (II)基于步骤(1)的行为视图数据训练基于行为视图的满意模型和不满意模型;
[0041] (III)利用基于行为视图的满意模型和不满意模型对预处理后的未标注数据分配 伪标签;并将带有伪标签的未标注数据与原始的标注数据整合成新标注数据集;
[0042] (IV)对得到的新标注数据集作标注数据预处理,并W-个信息需求为单位读取预 处理后标注数据集中的时间视图数据;
[0043] (V)基于步骤(IV)得到的时间视图数据训练基于时间视图的满意模型和不满意模 型;
[0044]