识别杂货铺的方法、装置及搜索店铺的方法、系统的制作方法

文档序号:6499156阅读:116来源:国知局
识别杂货铺的方法、装置及搜索店铺的方法、系统的制作方法
【专利摘要】本申请提供了一种识别杂货铺的方法及装置,以实现准确识别杂货铺的目的,避免因行业信息填写不准确或类目作弊导致的识别不准确的问题。其中一种识别杂货铺的方法包括:获取指定店铺的产品信息,并从所述产品信息中提取出所述指定店铺的核心产品词;统计所述指定店铺的核心产品词在所述指定店铺的产品信息中出现的频率,作为核心产品词对应的产品词频率;识别所述指定店铺的核心产品词所属的行业,并根据属于同一行业的核心产品词对应的产品词频率,计算所述行业在所述指定店铺中出现的频率,作为行业频率;根据所述行业频率计算所述指定店铺所属的各个行业的产品占比,并依据各个行业的产品占比判定所述指定店铺是否为杂货铺。
【专利说明】识别杂货铺的方法、装置及搜索店铺的方法、系统
【技术领域】
[0001]本申请涉及搜索技术,特别是涉及一种识别杂货铺的方法、装置及搜索店铺的方法、系统。
【背景技术】
[0002]目前电子商务网站(简称电商网站)提供了便利的产品信息以及供应商获取途径,但是这些电商网站提供的供应商实力良莠不齐,用户无法快速从海量的信息中找到有实力、专业性强的供应商。而这类专业性强的供应商往往经营领域比较集中,专注于做某个特定领域的产品,而不是从事多个领域、每个领域做的都不够专业的杂货铺。因此,需要将这些从事多个领域、不够专业的杂货铺从大量的店铺信息中识别出来,以提高搜索准确率。
[0003]电子商务网站发布的产品信息中包含产品所属的类目,现有的杂货铺识别方法是直接统计电子商务网站发布的类目信息,以类目代表行业,根据每个行业的占比识别出杂货铺。
[0004]但是,如果发布的产品信息没有填写准确的类目,或者进行类目作弊,例如:在发布的时候将店铺中涉及多个行业的产品类目全部设置为某个行业,上述识别方法将不能准确识别出杂货铺店铺。

【发明内容】

[0005]本申请提供了一种识别杂货铺的方法及装置,以实现准确识别杂货铺的目的,避免因行业信息填写不准确或类目作弊导致的识别不准确的问题。
[0006]相应的,本申请还提供了一种搜索店铺的方法及系统,在搜索的时候降低杂货铺的排序,从而提闻搜索准确率。
[0007]为了解决上述问题,本申请公开了一种识别杂货铺的方法,包括:
[0008]获取指定店铺的产品信息,并从所述产品信息中提取出所述指定店铺的核心产品词;
[0009]统计所述指定店铺的核心产品词在所述指定店铺的产品信息中出现的频率,作为核心产品词对应的产品词频率;
[0010]识别所述指定店铺的核心产品词所属的行业,并根据属于同一行业的核心产品词对应的产品词频率,计算所述行业在所述指定店铺中出现的频率,作为行业频率;
[0011]根据所述行业频率计算所述指定店铺所属的各个行业的产品占比,并依据各个行业的产品占比判定所述指定店铺是否为杂货铺。
[0012]可选地,所述从所述产品信息中提取出所述指定店铺的核心产品词,包括:
[0013]从所述产品信息中提取出标题,并对所述标题进行切词,得到切词结果;
[0014]将所述切词结果与核心产品词表进行匹配,匹配到的核心产品词作为所述指定店铺的核心产品词。
[0015]可选地,所述识别所述指定店铺的核心产品词所属的行业包括:[0016]统计核心产品词的行业点击率;
[0017]将所述核心产品词的行业点击率与各行业的行业阈值进行匹配,判断所述核心产品词的行业点击率是否达到行业阈值;
[0018]若所述核心产品词的行业点击率达到行业阈值,则判定该核心产品词属于该行业。
[0019]可选地,所述根据属于同一行业的核心产品词对应的产品词频率,计算所述行业在所述指定店铺中出现的频率,包括:
[0020]将所述属于同一行业的核心产品词对应的产品词频率进行加和,作为该行业在所述指定店铺中出现的频率。
[0021]可选地,所述根据所述行业频率计算所述指定店铺所属的各个行业的产品占比包括:
[0022]将所述行业的行业频率相加作为行业总频率;
[0023]将所述行业的行业频率与所述行业总频率相除,相除的商作为该行业的产品占比。
[0024]可选地,所述依据各个行业的产品占比判定所述指定店铺是否为杂货铺包括:
[0025]当指定店铺中有两个行业的产品占比超过阈值时,判定该店铺为杂货铺。
[0026]本申请还公开了一种搜索店铺的方法,包括:
[0027]接收搜索关键词;
[0028]查找与所述搜索关键词相匹配的店铺,得到候选店铺;
[0029]将所述候选店铺中识别为杂货铺的候选店铺排在未识别为杂货铺的候选店铺之后并输出;
[0030]所述杂货铺通过以下步骤识别:
[0031]将所述候选店铺作为指定店铺,获取指定店铺的产品信息,并从所述产品信息中提取出所述指定店铺的核心产品词;
[0032]统计所述指定店铺的核心产品词在所述指定店铺的产品信息中出现的频率,作为核心产品词对应的产品词频率;
[0033]识别所述指定店铺的核心产品词所属的行业,并根据属于同一行业的核心产品词对应的产品词频率,计算所述行业在所述指定店铺中出现的频率,作为行业频率;
[0034]根据所述行业频率计算所述指定店铺所属的各个行业的产品占比,并依据各个行业的产品占比判定所述指定店铺是否为杂货铺。
[0035]本申请还公开了一种识别杂货铺的装置,包括:
[0036]提取模块,用于获取指定店铺的产品信息,并从所述产品信息中提取出所述指定店铺的核心产品词;
[0037]产品词频率计算模块,用于统计所述指定店铺的核心产品词在所述指定店铺的产品信息中出现的频率,作为核心产品词对应的产品词频率;
[0038]行业频率计算模块,用于识别所述指定店铺的核心产品词所属的行业,并根据属于同一行业的核心产品词对应的产品词频率,计算所述行业在所述指定店铺中出现的频率,作为行业频率;
[0039]判定模块,用于根据所述行业频率计算所述指定店铺所属的各个行业的产品占t匕,并依据各个行业的产品占比判定所述指定店铺是否为杂货铺。
[0040]可选地,所述提取模块包括:
[0041]提取子模块,用于从所述产品信息中提取出标题,并对所述标题进行切词,得到切词结果;
[0042]匹配子模块,用于将所述切词结果与核心产品词表进行匹配,匹配到的核心产品词作为所述指定店铺的核心产品词。
[0043]可选地,所述行业频率计算模块包括:
[0044]行业识别子模块,用于统计核心产品词的行业点击率,并将所述核心产品词的行业点击率与各行业的行业阈值进行匹配,判断所述核心产品词的行业点击率是否达到行业阈值;若所述核心产品词的行业点击率达到行业阈值,则判定该核心产品词属于该行业;
[0045]计算子模块,用于将所述属于同一行业的核心产品词对应的产品词频率进行加和,作为该彳丁业在所述指定店铺中出现的频率。
[0046]可选地,所述判定模块包括:
[0047]产品占比计算子模块,用于将每个行业的行业频率相加作为行业总频率,并将每个行业的行业频率与所述行业总频率相除,相除的商作为该行业的产品占比;
[0048]判定子模块,用于当指定店铺中有两个行业的产品占比超过阈值时,判定该店铺为杂货铺。
[0049]本申请还公开了一种搜索店铺的系统,包括:
[0050]接收模块,用于接收搜索关键词;
[0051]查找模块,用于查找与所述搜索关键词相匹配的店铺,得到候选店铺;
[0052]排序模块,用于将所述候选店铺中识别为杂货铺的候选店铺排在未识别为杂货铺的候选店铺之后并输出;
[0053]所述杂货铺通过以下模块识别:
[0054]提取模块,用于将所述候选店铺作为指定店铺,获取指定店铺的产品信息,并从所述产品信息中提取出所述指定店铺的核心产品词;
[0055]产品词频率计算模块,用于统计所述指定店铺的核心产品词在所述指定店铺的产品信息中出现的频率,作为核心产品词对应的产品词频率;
[0056]行业频率计算模块,用于识别所述指定店铺的核心产品词所属的行业,并根据属于同一行业的核心产品词对应的产品词频率,计算所述行业在所述指定店铺中出现的频率,作为行业频率;
[0057]判定模块,用于根据所述行业频率计算所述指定店铺所属的各个行业的产品占t匕,并依据各个行业的产品占比判定所述指定店铺是否为杂货铺。
[0058]与现有技术相比,本申请包括以下优点:
[0059]本申请实施例提供的识别杂货铺的方法,首先从指定店铺的产品信息中提取出核心产品词,其次,统计核心产品词在指定店铺中的产品词频率,并基于用户的搜索点击行为挖掘出核心产品词对应的行业;最后,根据行业频率计算指定店铺所属的各个行业的产品占比,并依据各个行业的产品占比判定所述指定店铺是否为杂货铺。由于本申请实施例是根据从产品信息中提取到的核心产品词识别出产品分布,再根据产品分布识别出所属的行业,而不是直接使用用户填写的行业信息,因此可以避免卖家行业分布信息填写不准确或类目作弊导致的杂货铺识别不准确的问题,提高了识别杂货铺的准确率。
[0060]本申请实施例提供的搜索店铺的方法,可以在搜索的时候将这些从事多个领域,不够专业的杂货铺从大量的店铺中识别出来,并降低其排序,从而提高搜索的准确率。
[0061]当然,实施本申请的任一产品不一定需要同时达到以上所述的所有优点。
【专利附图】

【附图说明】
[0062]图1是本申请实施例所述一种识别杂货铺的方法的流程图;
[0063]图2是本申请实施例所述指定店铺的产品信息示意图;
[0064]图3是本申请实施例所述指定店铺的一条产品信息示意图;
[0065]图4是本申请实施例所述一种识别杂货铺的装置的结构框图;
[0066]图5是本申请实施例所述一种搜索店铺的方法的流程图;
[0067]图6是本申请实施例所述一种搜索店铺的系统的结构框图。
【具体实施方式】
[0068]为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和【具体实施方式】对本申请作进一步详细的说明。
[0069]杂货铺是指从事多个领域,每个领域做的都不够专业的店铺。本申请就是将这些从事多个领域,不够专业的杂货铺从大量的店铺中识别出来。
[0070]本申请是从卖家发布的产品信息的标题或其他商品描述信息中挖掘出核心产品词,并且基于用户的搜索点击行为挖掘出核心产品词对应的行业,最后统计行业的分布,根据行业分布识别出杂货铺。下面通过实施例进行详细说明。
[0071]参照图1,其示出了本申请实施例所述一种识别杂货铺的方法的流程图,本实施例具体可以包括以下步骤:
[0072]步骤100,获取指定店铺的产品信息,并从所述产品信息中提取出所述指定店铺的核心产品词;
[0073]指定店铺是指本次要识别的某个店铺,没有特别指定,可以理解为是泛指某个待识别的店铺。
[0074]如图2所示是一家指定店铺的产品信息示意图,店铺的每条产品信息通常包含标题、属性、类目、价格、图片、详情页面的描述信息等几个部分,产品信息是由店铺的卖家自行填写的。
[0075]下面以图3所示的该指定店铺的一条产品信息为例进行说明。在图3所示的产品信息中,“新中长款大码毛衣女装宽松休闲蝙蝠”是标题,Y25是价格。行业信息没有展现出来,是用户从类目体系中选择的,例如图3的产品信息用户会指定到“毛衣”类目,属于“女装”行业。类目是一整个体系:例如“服装”下面有“女装”、“男装”、“童装”等类目,而“女装”类目下面又有“连衣裙”、“毛衣”、“牛仔裤”、“T恤”、“羽绒服”、“皮衣”等类目。
[0076]本实施例中可以采用以下方式从所述产品信息中提取出所述指定店铺的核心产品词:
[0077]首先,从所述产品信息中提取出标题,并对所述标题进行切词,得到切词结果;[0078]所谓切词,是指将一个汉字序列切分成一个一个单独的词。例如,从图3所示的产品信息中提取出标题“新中长款大码毛衣女装宽松休闲蝙蝠然后对标题进行切词,结果为“新中长款、大码、毛衣、女装、宽松、休闲、蝙蝠”。
[0079]其次,将所述切词结果与核心产品词表进行匹配,匹配到的核心产品词作为所述指定店铺的核心产品词。
[0080]核心产品词表记录了能够标识产品的词,可以通过训练模型获得,也可以通过经验人工标注。例如,“连衣裙”、“起重机”、“玩具”等能够标识产品的词都位于核心产品词表中,而“女式连衣裙”中的“女式”为产品修饰词,并不在核心产品词表中。
[0081]将上述切词结果中的词与核心产品词表进行匹配,在核心产品词表中出现的词作为核心产品词。例如,上述切词结果中出现在核心产品词表中的词为“毛衣”,即图3所示的产品信息中,核心产品词为“毛衣”。
[0082]同理,可以从图2所示的指定店铺的产品信息中,取到核心产品词“毛衣”、“针织衫”、“蝙蝠衫”、“收纳盒”、“挂袋”。
[0083]需要说明的是,本申请也可以采用其他的核心产品词提取方式,本申请的保护范围不应限定于上述实施例。
[0084]步骤102,统计所述指定店铺的核心产品词在所述指定店铺的产品信息中出现的频率,作为核心产品词对应的产品词频率;
[0085]例如,在图2所示的指定店铺中,核心产品词“毛衣”出现了 4次,所以该核心产品词“毛衣”对应的产品词频率为4。同理,核心产品词“针织衫”对应的产品词频率为3,核心产品词“蝙蝠衫”对应的产品词频率为1,核心产品词“收纳盒”对应的产品词频率为3,核心产品词“挂袋”对应的产品词频率为I。如表1所示:
[0086]
【权利要求】
1.一种识别杂货铺的方法,其特征在于,包括: 获取指定店铺的产品信息,并从所述产品信息中提取出所述指定店铺的核心产品词;统计所述指定店铺的核心产品词在所述指定店铺的产品信息中出现的频率,作为核心产品词对应的产品词频率; 识别所述指定店铺的核心产品词所属的行业,并根据属于同一行业的核心产品词对应的产品词频率,计算所述行业在所述指定店铺中出现的频率,作为行业频率; 根据所述行业频率计算所述指定店铺所属的各个行业的产品占比,并依据各个行业的产品占比判定所述指定店铺是否为杂货铺。
2.根据权利要求1所述的方法,其特征在于,所述从所述产品信息中提取出所述指定店铺的核心产品词,包括: 从所述产品信息中提取出标题,并对所述标题进行切词,得到切词结果; 将所述切词结果与核心产品词表进行匹配,匹配到的核心产品词作为所述指定店铺的核心产品词。
3.根据权利要求1所述的方法,其特征在于,所述识别所述指定店铺的核心产品词所属的行业包括: 统计核心产品词的行业点击率; 将所述核心产品词的行业点击率与各行业的行业阈值进行匹配,判断所述核心产品词的行业点击率是否达到行业阈值; 若所述核心产品词的行业点击率达到行业阈值,则判定该核心产品词属于该行业。
4.根据权利要求1所述的方法,其特征在于,所述根据属于同一行业的核心产品词对应的产品词频率,计算所述行业在所述指定店铺中出现的频率,包括: 将所述属于同一行业的核心产品词对应的产品词频率进行加和,作为该行业在所述指定店铺中出现的频率。
5.根据权利要求1所述的方法,其特征在于,所述根据所述行业频率计算所述指定店铺所属的各个行业的产品占比包括: 将所述行业的行业频率相加作为行业总频率; 将所述行业的行业频率与所述行业总频率相除,相除的商作为该行业的产品占比。
6.根据权利要求1所述的方法,其特征在于,所述依据各个行业的产品占比判定所述指定店铺是否为杂货铺包括: 当指定店铺中有两个行业的产品占比超过阈值时,判定该店铺为杂货铺。
7.一种搜索店铺的方法,其特征在于,包括: 接收搜索关键词; 查找与所述搜索关键词相匹配的店铺,得到候选店铺; 将所述候选店铺中识别为杂货铺的候选店铺排在未识别为杂货铺的候选店铺之后并输出; 所述杂货铺通过以下步骤识别: 将所述候选店铺作为指定店铺,获取指定店铺的产品信息,并从所述产品信息中提取出所述指定店铺的核心产品词; 统计所述指定店铺的核心产品词在所述指定店铺的产品信息中出现的频率,作为核心产品词对应的产品词频率; 识别所述指定店铺的核心产品词所属的行业,并根据属于同一行业的核心产品词对应的产品词频率,计算所述行业在所述指定店铺中出现的频率,作为行业频率; 根据所述行业频率计算所述指定店铺所属的各个行业的产品占比,并依据各个行业的产品占比判定所述指定店铺是否为杂货铺。
8.一种识别杂货铺的装置,其特征在于,包括: 提取模块,用于获取指定店铺的产品信息,并从所述产品信息中提取出所述指定店铺的核心产品词; 产品词频率计算模块,用于统计所述指定店铺的核心产品词在所述指定店铺的产品信息中出现的频率,作为核心产品词对应的产品词频率; 行业频率计算模块,用于识别所述指定店铺的核心产品词所属的行业,并根据属于同一行业的核心产品词对应的产品词频率,计算所述行业在所述指定店铺中出现的频率,作为行业频率; 判定模块,用于根据所述行业频率计算所述指定店铺所属的各个行业的产品占比,并依据各个行业的产品占比判定所述指定店铺是否为杂货铺。
9.根据权利要求8所述的装置,其特征在于,所述提取模块包括: 提取子模块,用于从所述产品信息中提取出标题,并对所述标题进行切词,得到切词结果; 匹配子模块,用于将所述切词结果与核心产品词表进行匹配,匹配到的核心产品词作为所述指定店铺的核心产品词。
10.根据权利要求8所述的装置,其特征在于,所述行业频率计算模块包括: 行业识别子模块,用于统计核心产品词的行业点击率,并将所述核心产品词的行业点击率与各行业的行业阈值进行匹配,判断所述核心产品词的行业点击率是否达到行业阈值;若所述核心产品词的行业点击率达到行业阈值,则判定该核心产品词属于该行业; 计算子模块,用于将所述属于同一行业的核心产品词对应的产品词频率进行加和,作为该打业在所述指定店铺中出现的频率。
11.根据权利要求8所述的装置,其特征在于,所述判定模块包括: 产品占比计算子模块,用于将每个行业的行业频率相加作为行业总频率,并将每个行业的行业频率与所述行业总频率相除,相除的商作为该行业的产品占比; 判定子模块,用于当指定店铺中有两个行业的产品占比超过阈值时,判定该店铺为杂货铺。
12.一种搜索店铺的系统,其特征在于,包括: 接收模块,用于接收搜索关键词; 查找模块,用于查找与所述搜索关键词相匹配的店铺,得到候选店铺; 排序模块,用于将所述候选店铺中识别为杂货铺的候选店铺排在未识别为杂货铺的候选店铺之后并输出; 所述杂货铺通过以下模块识别: 提取模块,用于将所述候选店铺作为指定店铺,获取指定店铺的产品信息,并从所述产品信息中提取出所述指定店铺的核心产品词;产品词频率计算模块,用于统计所述指定店铺的核心产品词在所述指定店铺的产品信息中出现的频率,作为核心产品词对应的产品词频率; 行业频率计算模块,用于识别所述指定店铺的核心产品词所属的行业,并根据属于同一行业的核心产品词对应的产品词频率,计算所述行业在所述指定店铺中出现的频率,作为行业频率; 判定模块,用于根据所述行业频率计算所述指定店铺所属的各个行业的产品占比,并依据各个行业的产品占比判定所述指定店铺是否为杂货铺。
【文档编号】G06Q30/00GK103942693SQ201310019559
【公开日】2014年7月23日 申请日期:2013年1月18日 优先权日:2013年1月18日
【发明者】宋超, 冯景华, 张一楠, 陈超 申请人:阿里巴巴集团控股有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1