一种文本信息的匹配、业务对象的推送方法和装置的制造方法_2

文档序号:9432554阅读:来源:国知局
类目;
[0079] 第H查找子模块,用于查找所述一个或多个第二子类目所属的,置信度顺序排序 在前的一个或多个第二父类目;
[0080] 提取子模块,用于提取所述第一子类目与所述第二子类目,和/或,所述第一子类 目与所述第二父类目,和/或,所述第一父类目与所述第二子类目匹配的扩展文本信息组 合,作为特征文本信息组合。
[0081] 优选地,所述第二文本信息对应有业务对象;
[0082] 通过W下公式计算所述特征文本信息组合所包含的第二文本信息的特征值:
[0083] RPM1 = ASN*CPC
[0084] 其中,RPM1为特征值,ASN为所述业务对象对应的用户深度,CPC为所述业务对象 对应的权重。
[0085] 优选地,所述有限数量的第一文本信息包括在一定时间范围内获得的查询词,所 述有限数量的第二文本信息包括在一定时间内获得的竞价词。
[0086] 本申请实施例还公开了一种业务对象的推送装置,包括:
[0087] 文本信息接收单元,用于接收客户端侧提交的第一文本信息;
[0088] 文本信息确定单元,用于确定所述第一文本信息映射的第二文本信息;所述第二 文本信息对应有业务对象;
[0089] 业务对象推送单元,用于将所述业务对象推送至客户端侧;
[0090] 其中,所述第一文本信息与所述第二文本信息通过调用W下单元确定映射关系:
[0091] 文本信息获取单元,用于获取待匹配的第一文本信息和第二文本信息;所述第一 文本信息集合包括有限数量的第一文本信息,所述第二文本信息集合包括有限数量的第二 文本信息;
[0092] 文本信息匹配单元,用于按照预置的规则查询出与所述有限数量的第一文本信息 中的每一者相匹配的所述有限数量的第二文本信息中的一者或者多者。
[0093] 优选地,所述文本信息确定单元包括:
[0094] 在线计算模块,用于在线计算所述第一文本信息映射的第二文本信息。
[0095] 优选地,所述文本信息确定单元包括:
[0096] 字典查找模块,用于在预置的映射关系字典中查找所述第一文本信息映射的第二 文本信息;其中,所述映射关系字典为离线计算所述第一文本信息映射的第二文本信息所 生成的字典。
[0097] 与【背景技术】相比,本申请实施例包括W下优点:
[0098] 本申请实施例抛弃开放式的从第一文本信息直接寻找扩展词的扩展思路,转而投 向闭区间,查找有限数量的第一文本信息集合的每一者相匹配的有限数量的第二文本信息 中的一者或者多者,节省了不必要的匹配计算量,减少系统资源的浪费,提高了匹配计算的 效率。
[0099] 本申请实施例按照预置的组合规则将第一文本信息和第二文本信息组成扩展文 本信息组合,并从所述扩展文本信息组合中提取类目匹配的第一文本信息和第二文本信息 所组成的扩展文本信息组合,抛弃开放式的从第一文本信息直接寻找扩展词的扩展思路, 转而投向闭区间的从第一文本信息和第二文本信息的组合中保留第二文本信息的特征值 最优的一个或多个结果,既保证了召回第二文本信息,同时又避免召回了不必要的第二文 本信息,进一步节省了不必要的匹配计算量,减少系统资源的浪费,提高了匹配计算的效 率。
[0100] 本申请实施例W特征值作为选取第二文本信息的标准,提供了统一的评价尺度, 保证在该评价尺度下所选的第二文本信息是全局最优的。
【附图说明】
[0101] 图1是本申请的一种文本信息的匹配方法实施例的步骤流程图;
[0102] 图2是本申请的另一种文本信息的匹配方法实施例的步骤流程图;
[0103] 图3是本申请的一种业务对象的推送方法实施例的步骤流程图;
[0104] 图4是本申请的一种文本信息的匹配装置实施例的结构框图;W及
[0105] 图5是本申请的一种业务对象的推送装置实施例的结构框图。
【具体实施方式】
[0106] 为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实 施方式对本申请作进一步详细的说明。
[0107] 参照图1,示出了本申请的一种文本信息的匹配方法实施例的步骤流程图,所述方 法100具体可W包括如下步骤:
[010引步骤101,获取待匹配的第一文本信息集合和第二文本信息集合;所述第一文本 信息集合可W包括有限数量的第一文本信息,所述第二文本信息集合可W包括有限数量的 第二文本信息;
[0109] 步骤102,按照预置的规则查询出与所述有限数量的第一文本信息中的每一者相 匹配的所述有限数量的第二文本信息中的一者或者多者。
[0110] 在先的技术是一种开放式的匹配机制,将用户输入的查询词Q进行改写,将其扩 展到查询意图相同或相近的相近词Q',进而筛选出有效扩展词。而用户所输入的查询词是 未知的,可W造成无限数量的改写,而有效扩展词是有限的,造成了 <Q,Q'〉扩展对,无效扩 展词的计算量,大量浪费系统资源。
[0111] 本申请实施例抛弃开放式的从第一文本信息直接寻找扩展词的扩展思路,转而投 向闭区间,查找有限数量的第一文本信息中的每一者相匹配的有限数量的第二文本信息中 的一者或者多者,节省了不必要的匹配计算量,减少系统资源的浪费,提高了匹配计算的效 率。
[0112] 参照图2,示出了本申请的另一种文本信息的匹配方法实施例的步骤流程图,所述 方法200具体可W包括如下步骤:
[0113] 步骤201,获取待匹配的第一文本信息集合和第二文本信息集合;
[0114] 应用本申请实施例,可W预先采集第一文本信息集合和第二文本信息集合,并存 储在数据库中,在进行匹配时再从该数据库中提取第一文本信息集合和第二文本信息集 厶 口 〇
[0115]W电子商务巧lectronicCommerce,简称EC)的广告系统为示例,广告系统可W包 含存储广告主的广告数据和竞价词,W及提供用户搜索、展现相应广告数据的服务。
[0116] 则在本示例中,第一文本信息集合可W为用户提交的查询词(query)集合,即所 述有限数量的第一文本信息可W包括在一定时间范围内获得的查询词,该查询词可W为用 户在搜索框输入的请求查询与其关联的网络信息的词汇,例如,可W为最近1个月内用户 提交的查询词所组成的集合,W体现用户最近的兴趣倾向。
[0117] 第二文本信息集合可W为竞价词(bidword)集合,即所述有限数量的第二文本信 息集合可W包括在一定时间内获得的竞价词。竞价词可W为广告主为广告数据购买的词 汇,用户通过该竞价词词汇搜索到了广告主的广告数据(造成曝光)并造成点击,则广告系 统可W按照广告主购买该竞价词的计价扣取广告主账户的单次点击的广告费。
[0118] 而在实际应用中,查询词不一定是被广告主购买过的竞价词。因此,在电子商务的 广告系统中,通常将查询词Q改写为扩展词Q',而扩展词Q'必须是有广告数据绑定的竞价 词,否则无法达到解决广告数据曝光量少的目的。
[0119] 步骤202,按照预置的组合规则将所述第一文本信息和所述第二文本信息组成扩 展文本信息组合;
[0120] 在本申请实施例中,可W预置组合规则对第一文本信息和第二文本信息进行选择 性组合。
[0121] 在本申请的一种优选实施例中,步骤202可W包括如下子步骤:
[0122] 子步骤S11,对所述第一文本信息进行分词处理,获得文本分词;
[0123] 下面介绍一些常用的分词方法:
[0124] 1、基于字符串匹配的分词方法;是指按照一定的策略将待分析的汉字串与一个预 置的机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功(识别出一个 词)。实际使用的分词系统,都是把机械分词作为一种初分手段,还需通过利用各种其它的 语言信息来进一步提高切分的准确率。
[0125] 2、基于特征扫描或标志切分的分词方法;是指优先在待分析字符串中识别和切分 出一些带有明显特征的词,W送些词作为断点,可将原字符串分为较小的串再来进机械分 词,从而减少匹配的错误率;或者将分词和词类标注结合起来,利用丰富的词类信息对分词 决策提供帮助,并且在标注过程中又反过来对分词结果进行检验、调整,从而提高切分的准 确率。
[0126] 3、基于理解的分词方法;是指通过让计算机模拟人对句子的理解,达到识别词的 效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理 歧义现象。它通常包括H个部分:分词子系统、句法语义子系统、总控部分。在总控部分的 协调下,分词子系统可W获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即 它模拟了人对句子的理解过程。送种分词方法需要使用大量的语言知识和信息。
[0127] 4、基于统计的分词方法;是指,中文信息中由于字与字相邻共现的频率或概率能 够较好的反映成词的可信度,所W可W对语料中相邻共现的各个字的组合的频度进行统 计,计算它们的互现信息,W及计算两个汉字X、Y的相邻共现概率。互现信息可W体现汉字 之间结合关系的紧密程度。当紧密程度高于某一个阔值时,便可认为此字组可能构成了一 个词。送种方法只需对语料中的字组频度进行统计,不需要切分词典。
[0128] 在分词处理之后,W查询词作为第一文本信息的示例,其获得文本分词可W如 下:
[0129]<查询词1,文本分词1,文本分词2,......,文本分词n>
[0130] <查询词2,文本分词3,文本分词4,......,文本分词m>
[013。例如,当读入一个查询词"bluemp3player"后,进行分词,而英文分词目前可W针 对空格(或者连续空格)进行分词,则在分词处理后的文本分词可W为"blue"、"mp3"和 "player"。
[0132] 子步骤S12,对所述第二文本信息建立倒排索引;
[0133] 在实际应用中,倒排索引中的每一项可W包括一个属性值和具有该属性值的各记 录的地址。由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而称为倒排 索弓I(invertedindex)。
[0134] 带有倒排索引的文件称为倒排索引文件,简称倒排文件(inverted file),其索引 对象是文档或者文档集合(例如竞价词)中的单词等。
[0135] 在建立倒排索引之后,W竞价词作为第二文本信息的示例,倒排索引文件可W如 下:
[0136] <单词1,竞价词1,竞价词2,……,竞价词n>
[0137] <单词2,竞价词3,竞价词4,……,竞价词m>
[013引其中,单词可W为竞价词中所包含的词汇。
[0139] 子步骤S13,在所述倒排索引中查找与所述文本分词匹配的第二文本信息;
[0140] 在具体实现中,可W查找与文本分词匹配的属性值(例如单词),再依据该属性值 (例如单词)与记录的地址(例如竞价词)的映射关系,确定与文本信息匹配的第二文本信 息,即第一文本信息召回的第二文本信息。
[0
当前第2页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1