基于社交媒体的商品推荐系统的制作方法
【专利摘要】本发明公开了一种基于社交媒体的商品推荐系统,包括社交媒体数据抓取模块,电子商务数据抓取模块,信息抽取、融合、比较模块和商品推荐模块;社交媒体数据抓取模块用于社交媒体进行数据抓取;电子商务数据抓取模块用于电子商务网站进行数据抓取;信息抽取、融合、比较模块用于对抓取得到的数据进行分析、处理,对商品进行商品树的建立和映射,对社交媒体用户进行建模分析。商品推荐模块用于对待推荐用户进行商品查询,按照相关度、兴趣、朋友圈信息进行推荐。本发明针对社交媒体和电子商务结合营销的一个整合系统,通过社交媒体和电子商务,在没有客户主观行条件下实现商品推荐,用户的商品购物兴趣能够充分挖掘。
【专利说明】基于社交媒体的商品推荐系统
【技术领域】
[0001]本发明涉及网络商品应用领域,具体是一种基于社交媒体的商品推荐系统。
【背景技术】
[0002]随着Web2.0的发展和普及,社交网络越来越为广大互联网用户所接受。用户利用互联网进行社交活动,推广自己,表达情感,或者结交朋友。所有的在社交网络上的活动都展示了用户的兴趣和偏好。近年来,对于社交网络的流量变现逐渐成为互联网广告和推荐系统的前沿性问题。成功对用户推荐商品并有效转化为点击进而购买,可以形成类似搜索广告和门户网络的展示广告类似的互联网产业规模。因此,对社交媒体上的用户推荐商品是非常实际的问题。
[0003]然而,在社交网络上推荐商品是一件相对较难的问题。例如,用户发表的文字和图片内容或许和商品没有直接联系(用户喜欢发名山大川的图片,以及旅游的图片),如果给他推荐一些商品(如户外产品)至少不会令其反感,甚至有可能触发点击。因此,如何找到用户的兴趣,以及能够挖掘并使用商品之间的关系是本专利要解决的问题。。
[0004]现有技术一般基于朋友的协同推荐或者基于内容理解的相似度推荐。
[0005]基于朋友的协同推荐通常需要知道朋友的喜好,例如A共有20个朋友,其中有10人喜欢电影,则可以预测A也很有可能喜欢电影。这样做的好处是充分利用了社交网络的信息,而且基于朋友的喜好的推荐是比较准确的。然而,在很多社交网络上,并没有朋友购买或关注的商品的信息。因此,基于朋友的推荐很容易遇到“冷启动”的问题,即没有办法开始预测。基于朋友的推荐可以成为非常有用的信号,当且仅当社交网络上的商品推荐和关注形成一定的规模时才比较有效。
[0006]基于内容理解的推荐是指对社交网络用户发表的文章内容进行理解,进而预估其偏好。另外,社交网络上的标签信息可以用来描述用户的偏好。这些偏好可以用来匹配商品。例如,某用户具有标签“户外”,那么户外产品就成为了很好的备选推荐商品。这个方法虽然可以用来估计用户的偏好,但是不能很好的在细粒度上对用户进行描述。例如,推荐户外产品时,到底是行山,还是潜水;或者到底是很贵的滑雪服,还是相对较便宜的滑板。这些问题使用标签都较难进行判断。
[0007]例如,专利公布号CN102479366公开了一种商品推荐方法及系统,通过获取用户的行为数据确定用户的兴趣商品累吗,提升购物感受,但是,该申请必须依赖与用户的行为数据,即用户在网站的点击、搜索行为数据,在客户主观行为后的商品推荐,滞后于客户行为,用户的商品购物兴趣没有充分挖掘。
[0008]例如,专利公布号CN102592223公开了一种商品推荐方法和商品推荐系统,依据用户的浏览记录或用户属性获取样本训练数据,商品推荐仍旧滞后于客户行为。
[0009]目前,现有技术中还没有一种充分基于社交媒体信息的推荐系统,用户的商品购物没有充分挖掘。
【发明内容】
[0010]为解决现有技术问题,本发明提供了一种利用社交媒体上各种信息(内容、网络等),以及对商品进行有效理解,形成一个系统的商品推荐系统。
[0011]本发明的技术方案为:一种基于社交媒体的商品推荐系统,包括社交媒体数据抓取模块,电子商务数据抓取模块,信息抽取、融合、比较模块和商品推荐模块;
社交媒体数据抓取模块用于社交媒体进行数据抓取,通过并行计算算法进行多机抓取数据;
电子商务数据抓取模块用于电子商务网站进行数据抓取,通过并行计算算法进行多机抓取数据,通过DeepWeb查询扩展来进行全面的数据交互;
信息抽取、融合、比较模块用于对抓取得到的数据进行分析、处理,对商品进行商品树的建立和映射,对社交媒体用户进行建模分析。
[0012]商品推荐模块用于对待推荐用户进行商品查询,对得到的商品进行排序,按照相关度、兴趣、朋友圈信息进行推荐;
社交媒体数据抓取模块,电子商务数据抓取模块,商品推荐模块均与信息抽取、融合、比较模块相连接。
[0013]社交媒体数据抓取模块通过网络爬虫获取社交媒体上的数据,得到数据后,通过使用hadoop将多条URL抓取的任务分配给多台计算机,使得每台计算机的负载均衡的调度处理方法交给多部服务器所组成的分布式系统,通过HTML parser对网页进行分析、文本分析、链接分析和网页质量控制、去重,得到相应的网页内容,将网页内容结果分成结构化信息(朋友、群等链接信息)和非结构化信息(文本、图像等),分别存储到结构化信息数据库和非结构化信息数据库中。通过分布式系统,可以处理非常高吞吐量的信息。
[0014]结构化和非结构化的分类可以通过判断该内容是否可以存储到结构化数据库中(如SQL)来判断。通常文本和图像是非结构化数据,无法把其中的内容进行切分和分类。如一段新闻,虽然知道里面有人名、地名、公司名、时间等信息,但是如果不进行处理,无法自动的把这些信息导入到SQL中。
[0015]电子商务数据抓取模块通过机器学习查询生成器对于电子商务网站产生一系列正则表达式查询语句对电子商务网站进行查询,并把所有的信息抓取下来,通过DeepWeb查询扩展、网页分析器来进行网页内容的数据交互。通过机器学习算法学习不同网站的查询规则,使用关键词替换的方法遍历所有具有大概率的查询,通过知识库智能查询,商品属性抽取,真值发现,生成实体属性关系数据库,同时,也可以通过历史数据训练分类器进行。
[0016]信息抽取、融合、比较模块包括用户建模模块、商品建模模块、商品和用户映射建模模块,用户建模模块、商品建模模块与商品和用户映射建模模块相连接。
[0017]用户建模模块工作过程包括:
1-1)标签传播:对于社交网络用户,通过在社交网络上的标签(社交网络上的标签可以是用户自己标注的标签)组成的图进行随机游走得到标签传播的概率,从而扩展用户的标签;
1-2)内容判别:对用户发表的内容进行分析,使用话题模型、实体抽取得到可能的标签;同时,通过训练机器学习分类器对已有标签的用户进行学习,从而对没有标签的用户进行标签判断; 1-3)用户其他信息判别:对于用户发表的内容进行理解以及对其朋友圈进行分析,进而预估用户的年龄、工作性质、工作地点、收入信息,从而可以更好的理解用户的需求;对用户的年龄、工作性质、工作地点和收入信息进行预估时,对用户提取关键词和好友属性特征,使用机器学习方法,对已有标注信息进行学习得到分类器,对未知样本进行分类。
[0018]对朋友圈的分析是首先对每个用户估计一个年龄,这个年龄可以是他填写在社交网络上的年龄,也可以是我们通过初始化一个模型对他发表的内容进行回归所得到的年龄。进而在社交网络上进行类似于标签传播的过程,对该用户的朋友圈进行分析,得到朋友的年龄段统计,从行修改该用户的年龄估计。
[0019]商品建模模块运行过程包括,
2-1)属性值填充,通过网页抓取得到的商品属性可能不够全面,需要基于互联网搜索引擎进行搜索,从相应的摘要和广告内容中得到可能的属性值,并统计出现的概率,在互联网中进行查找、匹配、统计出现频率来进行真值发现;
2-2)商品树分类,在抓取商品同时得到商品分类树信息另外对没有分类树信息的商品进行分类,并分类到商品树的某一个节点上;
2-3)商品其他信息采集,对商品的其他信息进行收集,并存储到数据库中,通过对电子商务网站的结构进行分析,得到相应的评论和打分。
[0020]商品和用户映射建模模块将商品和用户建立映射对应,对用户在社交媒体上提到相关商品时发表的内容=以及电子商务网站上的图片、用户对商品和商家的评论去噪,建立映射模型,映射模型是对数据的直接特征抽取或者是通过机器学习的手段得到的特征表达,得到了映射模型后,比较商品和用户的相关性。
[0021]商品推荐模块包括用户端推荐模块和商品端推荐模块,用户端推荐模块用于给用户推荐商品,商品端推荐模块用于对该商品推荐用户,用户端推荐模块、商品端推荐模块均与,信息抽取、融合、比较模块相连接。
[0022]用户端推荐模块运行过程包括以下步骤:
3-1)通过用户和商品的相关性得到可能推荐的商品列表;
3-2)对用户的好友进行用户和商品的相关性的分析,并通过好友的商品列表对该用户进行投票;
3-3)通过分析用户画像对商品推荐进行进一步处理,细分推荐目标,用户画像包括年龄、收入和兴趣;用户画像是指用户建模模块的相关内容;
3-4)通过社交媒体的交互方式为该用户进行商品推荐,社交媒体的交互方式包括添加好友、引用好友、私、评论等。
[0023]商品推荐模块运行过程包括以下步骤:
4-1)通过商品和用户的相关性得到可能对该商品感兴趣的用户;
4-2)对用户的好友进行商品和用户的相关性分析,并通过好友的商品列表对该用户进行投票;
4-3)通过分析用户画像对商品推荐进行进一步处理,细分推荐目标,用户画像包括年龄、收入和兴趣;
4-4)通过社交媒体的交互方式为该用户进行商品推荐,社交媒体的交互方式包括添加好友、引用好友、私、评论等。[0024]本发明有益效果包括,本发明针对社交媒体和电子商务结合营销的一个整合系统,通过社交媒体和电子商务,在没有客户主观行条件下实现商品推荐,用户的商品购物兴趣能够充分挖掘。
[0025]进一步地,本系统有效的利用了社交媒体和电子商务的特点,由于目前各大社交媒体平台和电子商务平台都在积极推出支付联通业务,因此提供第三方的营销系统将为广大广告商(电商)提供有效地自动或半自动方式来进行商品营销、商家推广和高级用户变现提供了更多的途径。
【专利附图】
【附图说明】
[0026]图1为本发明的结构示意图;
图2为社交媒体数据抓取模块过程处理示意图;
图3为电子商务数据抓取模块处理过程示意图;
图4为信息抽取、融合、比较模块结构示意图。
【具体实施方式】
[0027]下面结合附图和具体的实施例对本发明技术方案作进一步的详细描述,以使本领域的技术人员可以更好的理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
[0028]如图1所示,一种基于社交媒体的商品推荐系统,包括社交媒体数据抓取模块,电子商务数据抓取模块,信息抽取、融合、比较模块和商品推荐模块;
社交媒体数据抓取模块用于社交媒体进行数据抓取,通过并行计算算法进行多机抓取数据;
电子商务数据抓取模块用于电子商务网站进行数据抓取,通过并行计算算法进行多机抓取数据,通过DeepWeb查询扩展来进行全面的数据交互;
信息抽取、融合、比较模块用于对抓取得到的数据进行分析、处理,对商品进行商品树的建立和映射,对社交媒体用户进行建模分析。
[0029]商品推荐模块用于对待推荐用户进行商品查询,对得到的商品进行排序,按照相关度、兴趣、朋友圈信息进行推荐;
社交媒体数据抓取模块,电子商务数据抓取模块,商品推荐模块均与信息抽取、融合、比较模块相连接。
[0030]如图2所示,社交媒体数据抓取模块通过网络爬虫(包括N个爬虫,爬虫1、爬虫2、
爬虫3......爬虫N)获取社交媒体上的数据,得到数据后,通过使用hadoop将多条URL抓取
的任务分配调度处理给多台计算机,使得每台计算机的负载均衡的调度处理方法交给多部服务器所组成的分布式系统,通过HTML parser对网页进行分析、文本分析、链接分析和网页质量控制、去重,得到相应的网页内容,将所述网页内容结果分成结构化信息(朋友、群等链接信息)和非结构化信息(文本、图像等),分别存储到结构化信息数据库和非结构化信息数据库中。
[0031]结构化和非结构化的分类可以通过判断该内容是否可以存储到结构化数据库中(如SQL)来判断。通常文本和图像是非结构化数据,无法把其中的内容进行切分和分类。如一段新闻,虽然知道里面有人名、地名、公司名、时间等信息,但是如果不进行处理,无法自动的把这些信息导入到SQL中。同时,结构化信息和非结构化信息也可以重复进行网页进行分析、文本分析、链接分析和网页质量控制、去重,得到精简的结构化信息和非结构化信
肩、O
[0032]如图3所示,电子商务数据抓取模块通过机器学习查询生成器对于电子商务网站产生一系列正则表达式查询语句对电子商务网站进行查询,并把所有的信息抓取下来,通过DeepWeb查询扩展、网页分析器来进行网页内容的数据交互。通过机器学习算法学习不同网站的查询规则,使用关键词替换的方法遍历所有具有大概率的查询,通过知识库智能查询,商品属性抽取,真值发现,生成实体属性关系数据库,同时,也可以通过历史数据训练分类器进行。
[0033]正则表达式查询语句例如,已知一条淘宝的查询是“男,轻便,40,跑步鞋,nike,内色”,通过知识库可以将其扩展,例如尺码、颜色、类型、品牌,则可以抓取到更多种类的鞋,在通过分析相关页面实现抓取。
[0034]如图4所示,信息抽取、融合、比较模块包括用户建模模块、商品建模模块、商品和用户映射建模模块,用户建模模块、商品建模模块与商品和用户映射建模模块相连接。
[0035]用户建模模块工作过程包括:
1-1)标签传播:对于社交网络用户,通过在社交网络上的标签(社交网络上的标签可以是用户自己标注的标签)组成的图进行随机游走得到标签传播的概率,随机游走的方式是通过用户组成的好友网络随机游走,从而扩展用户的标签;
1-2)内容判别:对用户发表的内容进行分析,使用话题模型、实体抽取得到可能的标签;同时,通过训练机器学习分类器对已有标签的用户进行学习,从而对没有标签的用户进行标签判断;题模型是指一类机器学习的方法,本实施例使用Latent DirichletAllocation,在实际操作过程中,可以不局限于使用这类方法,甚至可以使用文本聚类、或直接使用高频关键词来代表一个话题。
[0036]1-3)用户其他信息判别:对于用户发表的内容进行理解以及对其朋友圈进行分析,进而预估用户的年龄、工作性质、工作地点、收入信息,从而可以更好的理解用户的需求;对用户的年龄、工作性质、工作地点和收入信息进行预估时,对用户提取关键词和好友属性特征,使用机器学习方法,对已有标注信息进行学习得到分类器,对未知样本进行分类。
[0037]对朋友圈的分析是首先对每个用户估计一个年龄,这个年龄可以是他填写在社交网络上的年龄,也可以是我们通过初始化一个模型对他发表的内容进行回归所得到的年龄。进而在社交网络上进行类似于标签传播的过程,对该用户的朋友圈进行分析,得到朋友的年龄段统计,从行修改该用户的年龄估计。
[0038]商品建模模块运行过程包括,
2-1)属性值填充,通过网页抓取得到的商品属性可能不够全面,需要基于互联网搜索引擎进行搜索,从相应的摘要和广告内容中得到可能的属性值,并统计出现的概率,在互联网中进行查找、匹配、统计出现频率来进行真值发现。
[0039]2-2 )商品树分类,在抓取商品同时得到商品分类树信息另外对没有分类树信息的商品进行分类,并分类到商品树的某一个节点上; 2-3)商品其他信息收集,对商品的其他信息进行收集,并存储到数据库中,通过对电子商务网站的结构进行分析,得到相应的评论和打分。
[0040]商品和用户映射建模模块将商品和用户建立映射对应,对用户在社交媒体上提到相关商品时发表的内容=以及电子商务网站上的图片、用户对商品和商家的评论去噪,建立映射模型,映射模型是对数据的直接特征抽取或者是通过机器学习的手段得到的特征表达,得到了映射模型后,比较商品和用户的相关性。
[0041]商品推荐模块包括用户端推荐模块和商品端推荐模块。
[0042]用户端推荐模块运行过程包括以下步骤:
3-1)通过用户和商品的相关性得到可能推荐的商品列表;
3-2)对用户的好友进行用户和商品的相关性的分析,并通过好友的商品列表对该用户进行投票;
3-3)通过分析用户画像对商品推荐进行进一步处理,细分推荐目标,所述用户画像包括年龄、收入和兴趣;
3-4)通过社交媒体的交互方式为该用户进行商品推荐,所述社交媒体的交互方式包括添加好友、引用好友、私、评论等;
商品推荐模块运行过程包括以下步骤:
4-1)通过商品和用户的相关性得到可能对该商品感兴趣的用户;
4-2)对用户的好友进行商品和用户的相关性分析,并通过好友的商品列表对该用户进行投票;
4-3)通过分析用户画像对商品推荐进行进一步处理,细分推荐目标,所述用户画像包括年龄、收入和兴趣;
4-4)通过社交媒体的交互方式为该用户进行商品推荐,所述社交媒体的交互方式包括添加好友、引用好友、私、评论等。
[0043]以上仅是本发明的优选实施方式,应当指出:对于本【技术领域】的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
【权利要求】
1.一种基于社交媒体的商品推荐系统,其特征在于,包括社交媒体数据抓取模块,电子商务数据抓取模块,信息抽取、融合、比较模块和商品推荐模块; 社交媒体数据抓取模块用于社交媒体进行数据抓取,通过并行计算算法进行多机抓取数据; 电子商务数据抓取模块用于电子商务网站进行数据抓取,通过并行计算算法进行多机抓取数据,通过DeepWeb查询扩展来进行全面的数据交互; 信息抽取、融合、比较模块用于对抓取得到的数据进行分析、处理,对商品进行商品树的建立和映射,对社交媒体用户进行建模分析; 商品推荐模块用于对待推荐用户进行商品查询,对得到的商品进行排序,按照相关度、兴趣、朋友圈信息进行推荐; 社交媒体数据抓取模块,电子商务数据抓取模块,商品推荐模块均与信息抽取、融合、比较模块相连接。
2.根据权利要求1所述的基于社交媒体的商品推荐系统,其特征在于,所述社交媒体数据抓取模块通过网络爬虫获取社交媒体上的数据,得到数据后,通过使用hadoop将多条URL抓取的任务分配给多台计算机,使得每台计算机的负载均衡的调度处理方法交给多部服务器所组成的分布式系统,通过HTML parser对网页进行分析、文本分析、链接分析和网页质量控制、去重,得到相应的网页内容,将所述网页内容结果分成结构化信息和非结构化信息,分别存储到结构化信息数据库和非结构化信息数据库中。
3.根据权利要求1所述的基于社交媒体的商品推荐系统,其特征在于,所述电子商务数据抓取模块通过机器学习查询生成器对于电子商务网站产生一系列正则表达式查询语句对电子商务网站进行查询,并把所有的信息抓取下来,通过DeepWeb查询扩展、网页分析器来进行网页内容的数据交互;通过机器学习算法学习不同网站的查询规则,使用关键词替换的方法遍历所有具有大概率的查询,通过知识库智能查询,商品属性抽取,真值发现,生成实体属性关系数据库。
4.根据权利要求1所述的基于社交媒体的商品推荐系统,其特征在于,所述信息抽取、融合、比较模块包括用户建模模块、商品建模模块、商品和用户映射建模模块,用户建模模块、商品建模模块与商品和用户映射建模模块相连接。
5.根据权利要求4所述的基于社交媒体的商品推荐系统,其特征在于,所述用户建模模块工作过程包括: 1-1)标签传播:对于社交网络用户,通过在社交网络上的标签组成的图进行随机游走得到标签传播的概率,从而扩展用户的标签; 1-2)内容判别:对用户发表的内容进行分析,使用话题模型、实体抽取得到可能的标签;同时,通过训练机器学习分类器对已有标签的用户进行学习,从而对没有标签的用户进行标签判断; 1-3)用户其他信息判别:对于用户发表的内容进行理解以及对其朋友圈进行分析,进而预估用户的年龄 、工作性质、工作地点、收入信息,从而可以更好的理解用户的需求;对用户的年龄、工作性质、工作地点和收入信息进行预估时,对用户提取关键词和好友属性特征,使用机器学习方法,对已有标注信息进行学习得到分类器,对未知样本进行分类。
6.根据权利要求4所述的基于社交媒体的商品推荐系统,其特征在于,所述商品建模模块运行过程包括, 2-1)属性值填充,通过网页抓取得到的商品属性可能不够全面,需要基于互联网搜索引擎进行搜索,从相应的摘要和广告内容中得到可能的属性值,并统计出现的概率,在互联网中进行查找、匹配、统计出现频率来进行真值发现; 2-2)商品树分类,在抓取商品同时得到商品分类树信息另外对没有分类树信息的商品进行分类,并分类到商品树的某一个节点上; 2-3)商品其他信息采集,对商品的其他信息进行收集,并存储到数据库中,通过对电子商务网站的结构进行分析,得到相应的评论和打分。
7.根据权利要求4所述的基于社交媒体的商品推荐系统,其特征在于,所述商品和用户映射建模模块将商品和用户建立映射对应,对用户在社交媒体上提到相关商品时发表的内容以及电子商务网站上的图片、用户对商品和商家的评论去噪,建立映射模型,映射模型是对数据的直接特征抽取或者是通过机器学习的手段得到的特征表达,得到了映射模型后,比较商品和用户的相关性。
8.根据权利要求1所述的基于社交媒体的商品推荐系统,其特征在于,所述商品推荐模块包括用户端推荐模块和商品端推荐模块。
9.根据权利要求8所述的基于社交媒体的商品推荐系统,其特征在于,所述用户端推荐模块运行过程包括以下步骤: 3-1)通过用户和商品的相关性得到可能推荐的商品列表; 3-2)对用户的好友进行用户和商品的相关性的分析,并通过好友的商品列表对该用户进行投票; 3-3)通过分析用户画像对商品推荐进行进一步处理,细分推荐目标,所述用户画像包括年龄、收入和兴趣; 3-4)通过社交媒体的交互方式为该用户进行商品推荐,所述社交媒体的交互方式包括添加好友、引用好友、私、评论等。
10.根据权利要求8所述的基于社交媒体的商品推荐系统,其特征在于,所述商品推荐模块运行过程包括以下步骤: 4-1)通过商品和用户的相关性得到可能对该商品感兴趣的用户; 4-2)对用户的好友进行商品和用户的相关性分析,并通过好友的商品列表对该用户进行投票; 4-3)通过分析用户画像对商品推荐进行进一步处理,细分推荐目标,所述用户画像包括年龄、收入和兴趣; 4-4)通过社交媒体的交互方式为该用户进行商品推荐,所述社交媒体的交互方式包括添加好友、引用好友、私、评 论。
【文档编号】G06Q50/00GK103886074SQ201410110393
【公开日】2014年6月25日 申请日期:2014年3月24日 优先权日:2014年3月24日
【发明者】王飞, 宋阳秋, 秦谦 申请人:江苏名通信息科技有限公司