一种文本信息的匹配、业务对象的推送方法和装置的制造方法_3

文档序号:9432554阅读:来源:国知局
141]W电子商务的广告系统作为示例,假设有一个竞价词的集合B1,B1中包含3个竞 价词:"redmp3","blackmp3"和"ipodmp3player"。
[014引应用本申请实施例中,可W首先处理"redmp3"送个竞价词,它由2个单词"red" 和"mp3"组成,郝么建立倒排索引可W为:
[0143]red->redmp3
[0144]mp3->redmp3
[014引 即表示通过"red"或者"mp3"送两个单词都可W找到"redmp3"送个竞价词。
[0146] 同理,"blackmp3"处理完后,倒排索引可W变为:
[0147]red->redmp3
[0148]black->blackmp3
[0149]mp3->redmp3,blackmp3
[0150] 同理,"ipodmp3player"处理完后,倒排索引可W变为:
[0151]ipod->ipodmp3player
[0152] red->redmp3
[0153]black->blackmp3
[0154]player-〉ipodmp3player
[0155]mp3->redmp3,blackmp3,ipodmp3player
[0156] 当读入一个查询词"bluemp3player"后,先进行分词,而英文分词目前可W针 对空格(或者连续空格)进行分词,则在本示例中分词处理后的文本分词可W为"blue"、 "mp3"和"player"。
[0157] 然后,再拿"blue"、"mp3"和"player"分别在B1的倒排索引查找匹配的竞价词。
[015引 由于"blue"在倒排索引中没有命中,所W最终"mp3"和"player"和索引关联成 如下结构:
[0159]mp3->redmp3,blackmp3,ipodmp3player
[0160]player->ipodmp3player
[016。 所W查询词"bluemp3player"通过分词后的单词匹配最后关联到的竞价词集合 为:
[0162]bluemp3player->redmp3,blackmp3,ipodmp3player,ipodmp3player
[0163] 又例如,如果查询词是"women化ess",其分词处理之后的文本分词可W为 "women"和"化ess",郝么在B1生成的倒排索引中,每个文本分词都无法关联上任意一个竞 价词,贝U"women化ess"没有召回任何竞价词。
[0164] 子步骤S14,将所述文本分词所属的第一文本信息,与所述匹配的第二文本信息组 成扩展文本信息组合。
[0165] 在具体实现中,可扩展文本信息组合确定第一文本信息与第二文本信息的匹 配关系。
[0166] 在组成扩展文本信息组合之后,W竞价词作为第二文本信息的示例,扩展文本信 息组合可W如下:
[0167] <查询词1,竞价词2〉
[0168] <查询词2,竞价词5〉
[0169] ......
[0170] <查询词m,竞价词n>
[0171] 在本申请的一种优选实施例中,步骤202可W包括如下子步骤:
[0172] 子步骤S21,对所述第一文本信息进行分词处理,获得文本分词;
[0173] 子步骤S22,对所述第二文本信息建立倒排索引;
[0174] 子步骤S23,在所述倒排索引中查找与所述文本分词匹配的第二文本信息;
[0175] 子步骤S24,对所述文本分词匹配的第二文本信息进行去重处理;
[0176] 子步骤S25,将所述文本分词所属的第一文本信息,与所述去重处理之后的第二文 本信息组成扩展文本信息组合。
[0177] 在具体实现中,由于部分第二文本信息可能被重复召回,则此时需要进行去重处 理。
[0178] 例如,在上述示例中,B1中的"ipodmp3player"分别被单词"mp3"和"player" 各召回一次,需要去除重复,所W"bluemp3player"实际召回了"redmp3","blackmp3"和 "ipodmp3player"送H个竞价词。
[0179] 步骤203,从所述扩展文本信息组合中提取特征文本信息组合,所述特征文本信息 组合为类目匹配的第一文本信息和第二文本信息所组成的扩展文本信息组合;
[0180] 在具体实现中,所述第一文本信息和所述第二文本信息可W具有对应的类目;所 述第一文本信息对应的类目可W包括第一子类目和第一父类目,所述第二文本信息对应的 类目可W包括第二子类目和第二父类目;
[0181] 在本申请的一种优选实施例中,步骤203可W包括如下子步骤:
[0182] 子步骤S31,获取所述扩展文本信息中包含的第一文本信息对应的,置信度顺序排 序在前的一个或多个第一子类目;
[0183]子步骤S32,查找所述一个或多个第一子类目所属的,置信度顺序排序在前的一个 或多个第一父类目;
[0184] 子步骤S33,获取所述扩展文本信息中包含的第二文本信息对应的,置信度顺序排 序在前的一个或多个第二子类目;
[0185] 子步骤S34,查找所述一个或多个第二子类目所属的,置信度顺序排序在前的一个 或多个第二父类目;
[0186] 子步骤S35,提取所述第一子类目与所述第二子类目,和/或,所述第一子类目与 所述第二父类目,和/或,所述第一父类目与所述第二子类目匹配的扩展文本信息组合,作 为特征文本信息组合。
[0187] 本申请实施例中,可W预测第一文本信息(例如查询词)W及第一文本信息(例 如查询词)对应的每个候选第二文本信息(例如竞价词)的类目结果,过滤掉其中与第一 文本信息(例如查询词)类目不匹配的候选竞价词。
[018引在具体实现中,类目预测可W采用排序学习算法化2R)对第一文本信息(例如查 询词)候选的第一子类目进行排序,基于第一文本信息(例如查询词)在第一子类目下的 统计特征和RankSVM(排序向量空间模型)权重进行训练,计算第一文本信息(例如查询 词)在第一子类目类目的相关性得分。
[0189] 在类目预测时可W给出每个第一文本信息(例如查询词)置信度最高的N(N为正 整数,例如3)个第一子类目,此外再根据预设的父子类目关系树 < 子类目,父类目〉的映射 关系,找到上述N个第一子类目各自对应的M(M为正整数,例如3)个置信度最高的第一父 类目。
[0190] 同理,对第二文本信息(例如竞价词)可W获得X狂为正整数,例如3)个第二子 类目各自对应的Y灯为正整数,例如3)个第二父类目。
[0191] 然后分别计算第一文本信息(例如查询词)对应的第一父类目和第一子类目,和 第二文本信息(例如竞价词)对应的第二父类目第二子类目,查看两者是否有匹配的类目, 如果全部不匹配,则过滤第一文本信息和第二文本信息。另外,若子-子类目匹配、子-父 类目匹和父-子类目匹配,则保留第一文本信息和第二文本信息,但是,父-父类目匹配可 W认为是弱关系,仍需要进行过滤。
[0192] 则匹配原则可W如下表所示:
[0193]
阳194] 其中,"V"可W表示保留,"X"可W表示过滤。
[019引例如,第一文本信息"ipodmp3player"通过类目预id计算出置信度最高的S个子 类目分别是C1,C2,C3,而C1,C2,C3各自对应的父类目为PC1,PC2,PC3。
[0196] 同样,计算出被"ipodmp3player"召回的第二文本信息"bluemp3player"置信 度最高的H个子类目为D1,D2,D3,而D1,D2,D3各自对应的父类目为PD1,PD2,PD3。
[0197] 如果C1和D2,或者,C2和D3匹配,则可W称之为子-子类目匹配;如果C1和PD3, 或者,PC3和PD2匹配,则可W称之为子-父类目匹配;如果PC2和D3匹配,则可W称之为 父-子类目匹配;如果PC2和PD3匹配,则可W称之为父-父类目匹配。
[019引步骤204,计算所述特征文本信息组合所包含的第二文本信息的特征值;
[0199] 本申请实施例可W针对保留下来的第一文本信息(例如查询词)和第二文本信息 (例如竞价词)组成特征文本信息,计算第二文本信息(例如竞价词)的特征值。该特征值 可W为体现特征文本信息组合所包含的第二文本信息特征的数值,该特征值可W由本领域 技术人员根据实际的第二文本信息进行设定,例如,在电子商务的广告系统中,该特征值可 W为营收指标。
[0200] 在具体实现中,所述第二文本信息可W对应有业务对象,在不同的业务领域中可 w具有不同的业务对象,例如,在电子商务的广告系统中,业务对象可w为广告数据。
[0201] 在具体实现中,可W通过W下公式计算所述特征文本信息组合的特征值:
[020引RPM1 =ASN*CPC
[0203] 其中,RPM1为特征值,ASN为所述业务对象对应的用户深度,CPC为所述业务对象 对应的权重。
[0204] 用户深度可W用于体现业务对象的用户喜好程度,例如,在电子商务的广告系统 中,ASN可W为标识一个竞价词被多少个广告主购买的指标,可W由购买该竞价词的广告主 数量(比如前一天广告主数量)表示。
[0205] 权重可W由本领域技术人员根据实际的业务对象进行设定,例如,在电子商务的 广告系统中,CPC可W为广告数据的平均点击单价。
[0206]W电子商务的广告系统作为示例,真实的营收指标RPM1 =C0V*CTR2*CPC,其中, C0V为覆盖率,即进入广告系统且有展示的广告数据的流量/所有进入广告系统的流量, CTR2为点击率,即广告数据的有效点击量/广告数据的曝光量。
[0207] 在实际应用中,可WWRPM1 =ASN*CPC作为预估的营收指标,即用ASN*CPC拟合 的最大化来实现RPM1的最大化。因为在假设每个广告数据点击率不变的情况下,增加用户 深度ASN,即增加了搜索页上广告数据展示的数量,会导致CTR2的增加(网页上展示的广告 数据越多,获得点击的概率越大)。所W在ASN未饱和的情况下,通过提高ASN可W间接提 高CTR2。
[020引步骤205,将特征值顺序排序在前的一个或多个特征文本信息所包含的第一文本 信息和第二文本信息,设置为相互映射的第一文本信息和第二文本信息。
[0209] 本申请实施例中可W选择特征值最高一个或多个的第二文本信息及该第二文本 信息对应的第一文本信息作为最终的相互映射的文本信息对。
[0210] W电子商务的广告系统作为示例,相互映射的第一文本信息和第二文本信息的形 式可W如下:
[0211] <查询词1,竞价词2 = 180,竞价词122 = 150,......,竞价词30 = 72〉
[0212] ......
当前第3页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1