一种确定用户群体、信息查询及推荐的方法及系统的制作方法

文档序号:6354041阅读:275来源:国知局
专利名称:一种确定用户群体、信息查询及推荐的方法及系统的制作方法
技术领域
本发明涉及互联网信息查询领域,尤其涉及一种确定用户群体、信息查询及推荐的方法及系统。
背景技术
电子商务网站的用户类型是各种各样的,有企业用户也有个人用户,企业用户中又可分为原材料商、生产制造商、批发零售商、贸易商等。一般地企业用户的需求相对个人用户会更稳定更聚焦,而原材料商及生产制造商,相对于批发零售商及贸易商需求又更集中,如何识别用户需求的发散程度,如何确定用户属于哪一类用户群体,并根据用户群体需求类型提供商品/资讯信息查询及推荐,对提升推荐引擎系统的准确度及用户体验非常有意义。
现有的推荐系统一般基于用户的兴趣偏好或用户与商品/资讯的相关性来进行商品/资讯信息的推荐。现有的推荐系统算法对各类用户一般是不加区分的,对个人用户、企业用户采用的是同样的推荐算法。如基于用户兴趣偏好的推荐算法,都是根据用户对类目或叶子类目的访问行为量来确定用户感兴趣的类目或叶子类目类别,然后推荐该类目下的优质或新发商品/资讯。基于用户及商品/资讯相关性的推荐算法,首先找到相关的用户或商品,然后在用户浏览某商品时推荐相关度较高的其它商品,或者推荐相关度较高的其它用户当前关注的商品。
发明人在发明过程中,发现现有推荐系统的这些推荐算法对于不同的用户群体,采用的推荐算法都是一样的,采用的推荐算法都要在多个类目中进行查询,这样查询的商品数量较多,查询速度慢;
而且常规的商品推荐方法在应用到互联网行业进行海量数据(如数千万级的用户,上亿级的商品数据)的算法分析时,由于数据量庞大,运算过程复杂,对系统资源要求高,计算时间长,难以满足互联网行业快速响应信息查询的业务要求。发明内容
本申请实施例提供一种确定用户群体、信息查询及推荐的方法及系统,用于解决现有技术中常规的商品推荐方法在应用到互联网行业进行海量数据的算法分析时,由于数据量庞大,运算过程复杂,对系统资源要求高,计算时间长,难以满足互联网行业快速响应的业务要求问题。
本申请实施例一提供一种确定用户群体的方法,具体包括:
获得一用户在M个叶子类目上的行为记录信息;
对所述行为记录信息进行统计,分析得到所述用户对所述M个叶子类目的M个偏好度值Pi,其中所述M个叶子类目中每个叶子类目对应所述M个偏好度值Pi中的一个偏好度值Pi,所述M为大于等于I的整数;
基于所述M个偏好度值Pi,计算得到所述用户的需求偏好发散度值H ;
比较所述偏好发散度值H与第一阈值G,在所述偏好发散度值H小于或等于所述第一阈值G时,将所述用户列入需求聚焦类用户群体。
其中,所述偏好度值Pi具体为:所述用户访问每个叶子类目的行为记录占该用户访问的M个叶子类目的行为记录的比例值;
优选的,为了更准确的确定用户群体,在分析得到所述M个叶子类目的M个偏好度值Pi之后,还包括:
将小于第二阈值的偏好度值Pi对应的叶子类目进行过滤,得到剩下的大于等于第一阈值的偏好度值Pi对应的N个叶子类目;所述N小于等于M ;
基于所述N个偏好度值Pi,计算得到所述用户的需求偏好发散度H。
如上所述的方法,所述基于所述N个偏好度值Pi,计算得到所述用户的需求偏好发散度H,具体为:
通过信息熵公式
权利要求
1.一种确定用户群体的方法,其特征在于,具体包括: 获得一用户在M个叶子类目上的行为记录信息; 对所述行为记录信息进行统计,分析得到所述用户对所述M个叶子类目的M个偏好度值?1,其中所述M个叶子类目中每个叶子类目对应所述M个偏好度值Pi中一个偏好度值Pi,所述M为大于等于I的整数; 基于所述M个偏好度值Pi,计算得到所述用户的需求偏好发散度值H ; 比较所述偏好发散度值H与第一阈值G,在所述偏好发散度值H小于或等于所述第一阈值G时,将所述用户列入需求聚焦类用户群体。
2.如权利要求1所述的方法,其特征在于,所述偏好度值Pi具体为: 所述用户访问每个叶子类目的行为记录占该用户访问的M个叶子类目的行为记录的比例值。
3.如权利要求1所述的方法,其特征在于,在分析得到所述M个叶子类目的M个偏好度值Pi之后,还包括: 将小于第二阈值的偏好度值Pi对应的叶子类目进行过滤,得到剩下的大于等于第一阈值的偏好度值Pi对应的N个叶子类目;所述N小于等于M ; 基于所述N个偏好度值Pi,计算得到所述用户的需求偏好发散度H。
4.如权利要求3所述的方法,其特征在于,所述基于所述N个偏好度值Pi,计算得到所述用户的需求偏好发散度H,具体为: 通过信息熵公式
5.一种信息查询及推荐的方法,其特征在于,具体包括: 基于用户在M个叶子类目上的行为记录信息而获得的在每个叶子类目的偏好度值Pi以及信息熵公式,确定所述用户属于需求聚焦类用户群体; 查询所述需求聚焦类用户群体在聚类商品单元上的行为记录信息,分析得到所述用户需求偏好的聚类商品信息;其中,所述聚类商品单元具体用以存放将S个叶子类目下的商品信息进行聚类而得到的所述聚类商品信息;所述S为大于等于I的整数;将所述需求偏好的聚类商品信息推荐给所述用户。
6.如权利要求5所述的方法,其特征在于,所述信息熵公式为:
7.如权利要求5所述的方法,其特征在于,所述基于用户在M个叶子类目上的行为记录信息而获得的在每个叶子类目的偏好度值Pi,具体包括: 获得一用户在M个叶子类目上的行为记录信息; 对所述行为记录信息进行统计,分析得到所述用户对所述M个叶子类目的M个偏好度值Pi,其中所述M个叶子类目中每个叶子类目对应所述M个偏好度值Pi中一个偏好度值Pi ; 其中,所述M为大于等于I的整数;所述偏好度值Pi具体为:所述用户访问每个叶子类目的行为记录占该用户访问的M个叶子类目的行为记录的比例值。
8.如权利要求5所述的方法,其特征在于,所述基于所述偏好度值Pi和信息熵公式,确定所述用户属于需求聚焦类用户群体,具体包括: 通过信息熵公式计算得到所述用户的需求偏好发散度值H ; 比较所述偏好发散度值H与第一阈值G,在所述偏好发散度值H小于或等于所述第一阈值G时,将所述用户列入需求聚焦类用户群体。
9.如权利要求5所述的方法,其特征在于,所述将S个叶子类目下的商品信息进行聚类,具体包括: 对S个叶子类目中每个叶子类目下的商品标题及信息描述进行分词; 提取每个叶子类目下商品信息的关键词; 将每个叶子类目下含有所述关键词的商品信息进行聚类,得到L个聚类商品信息;其中,所述L和所述S为相同或不相同的整数。
10.如权利要求5所述的方法,其特征在于,所述查询所述需求聚焦类用户群体在聚类商品单元上的行为记录信息,分析得到所述用户需求偏好的聚类商品信息,具体包括: 获得所述需求聚焦类用户群体在所述L个聚类商品信息的行为记录信息; 对所述行为记录信息进行统计,得到对所述L个聚类商品信息中的每个聚类商品信息的访问量值Pa以及在特定时间段内访问每个聚类商品信息的频率Fa ; 将小于第一预定阈值K的频率值Fa以及小于第二阈值X的访问量值Pa对应的R个聚类商品信息进行过滤,得到L减R个聚类商品信息,作为所述用户需求偏好的聚类商品信肩、O
11.一种确定用户群体的系统,其特征在于,具体包括: 获得单元,用于获得一用户在M个叶子类目上的行为记录信息; 统计分析单元,用于对所述行为记录信息进行统计,分析得到所述用户对所述M个叶子类目的M个偏好度值Pi,其中所述M个叶子类目中每个叶子类目对应所述M个偏好度值Pi中一个偏好度值Pi,所述M为大于等于I的整数; 计算单元一,用于基于所述M个偏好度值Pi,计算得到所述用户的需求偏好发散度值H; 用户群体确定单元,用于比较所述偏好发散度值H与第一阈值G,在所述偏好发散度值H小于或等于所述第一阈值G时,将所述用户列入需求聚焦类用户群体。
12.如权利要求11所 述的系统,其特征在于,所述偏好度值Pi具体为: 所述用户访问每个叶子类目的行为记录占该用户访问的M个叶子类目的行为记录的比例值。
13.如权利要求11所述的系统,其特征在于,所述系统,还包括: 过滤单元,用于将小于第二阈值的偏好度值Pi对应的叶子类目进行过滤,得到剩下的大于等于第一阈值的偏好度值Pi对应的N个叶子类目;所述N小于等于M ; 计算单元二,用于基于所述N个偏好度值Pi,计算得到所述用户的需求偏好发散度H。
14.一种信息查询及推荐的系统,其特征在于,具体包括: 用户群体确定单元,用于基于用户在M个叶子类目上的行为记录信息而获得的在每个叶子类目的偏好度值Pi以及信息熵公式,确定所述用户属于需求聚焦类用户群体; 查询分析单元,用于查询所述需求聚焦类用户群体在聚类商品单元上的行为记录信息,分析得到所述用户需求偏好的聚类商品信息; 推荐单元,用于将所述需求偏好的聚类商品信息推荐给所述用户。
15.如权利要求14所述的系统,其特征在于,所述用户群体确定单元,具体包括: 获得单元一,用于获得一用户在M个叶子类目上的行为记录信息; 统计分析单元一,用于对所述行为记录信息进行统计,分析得到所述M个叶子类目的M个偏好度值Pi,其中所述M个叶子类目中每个叶子类目对应所述M个偏好度值Pi中一个偏好度值Pi ;其中,所述M为大于等于I的整数;所述偏好度值Pi具体为:所述用户访问每个叶子类目的行为记录占该用户访问的M个叶子类目的行为记录的比例值; 需求偏好发散度单元,用于通过信息熵公式
16.如权利要求14所述的系统,其特征在于,所述聚类商品单元,具体包括: 分词单元,用于对S个叶子类目中每个叶子类目下的商品标题及信息描述进行分词; 关键词提取单元,用于提取每个叶子类目下商品信息的关键词; 商品信息聚类单元,用于将每个叶子类目下含有所述关键词的商品信息进行聚类,得到L个聚类商品信息。
17.如权利要求14所述的系统,其特征在于,所述查询分析单元,具体包括: 获得单元二,用于获得所述需求聚焦类用户群体在所述L个聚类商品信息的行为记录信息;统计分析单元二,对所述行为记录信息进行统计,得到对所述L个聚类商品信息中的每个聚类商品信息的访问量值Pa以及在特定时间段内访问每个聚类商品信息的频率Fa ;过滤识别单元,将小于第一预定阈值K的频率值Fa以及小于第二阈值X的访问量值Pa对应的R个聚类商品信息进行过滤,得到L减R个聚类商品信息,作为所述用户需求偏好的聚类商品信息。``
全文摘要
本发明公开一种确定用户群体、信息查询及推荐的方法及系统,所述信息查询及推荐的方法具体包括基于用户在M个叶子类目上的行为记录信息而获得的在每个叶子类目的偏好度值pi以及信息熵公式,确定所述用户属于需求聚焦类用户群体;查询所述需求聚焦类用户群体在聚类商品单元上的行为记录信息,分析得到所述用户需求偏好的聚类商品信息;将所述需求偏好的聚类商品信息推荐给所述用户。解决了现有技术中由于数据量庞大,运算过程复杂,对系统资源要求高,计算时间长,难以满足互联网行业快速响应信息查询的业务要求。
文档编号G06F17/30GK103186539SQ20111044505
公开日2013年7月3日 申请日期2011年12月27日 优先权日2011年12月27日
发明者苏宁军, 顾海杰 申请人:阿里巴巴集团控股有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1