一种电子图书推荐的方法及系统的制作方法

文档序号:6442362阅读:238来源:国知局
专利名称:一种电子图书推荐的方法及系统的制作方法
技术领域
本发明涉及文本数据分析技术领域,具体设计一种基于用户社会网络特性的电子图书推荐方法及系统。
背景技术
现有技术中向用户推荐电子图书的方法有多种,以下进行简单说明:第一种方法是基于用户以往的阅读历史数据,推断用户的阅读偏好,再根据推断出的阅读偏好向用户推荐对应的电子图书。但在该种方法中,对于用户阅读偏好的推断存在一定不足,主要是:由于阅读平台所提供的图书的类别分布不均,且原创类图书较多,通常主要集中在言情、穿越、玄幻等类别;同时由于手机阅读用户的主要用户群是学生、外来务工人员和都市白领,而这一大部分用户访问图书通常集中在言情穿越玄幻等热门分类上,造成系统在对用户偏好进行判定时大部分用户的偏好被判定为热门分类。上述这种情况对于图书推荐造成很多障碍,例如根据系统判断,许多高端商务人士可能被判定为言情或穿越类的阅读偏好,对其进行相应的图书推荐容易引起反感和用户体验下降。第二种方法:由于仅根据历史数据推断用户的偏好会造成上述问题,因此,现有技术中出现了基于用户身份类型来推断用户的阅读偏好,进而进行相应的图书推荐的方法。但该方法存在如下不足:现有系统主要通过注册用户的年龄、性别、职业特点、产品品牌和手机类型对用户身份进行逆推,而这些基础数据信息在用户注册时由于隐私考虑和技术等种种原因导致数据存在诸多不准确的情况,从而导致用户身份类别判定的准确率非常低,进而造成对于用户偏好的推断存在很大的误差,影响了图书推荐的效果。可以看出,现有技术中电子图书推荐系统主要是基于用户偏好来进行相应的图书推荐,具体是根据用户访问的历史数据信息或用户身份类型确定用户偏好。但对于访问阅读平台系统较少的用户,可能没有足够的历史数据信息;以及当前系统由于种种限制对于用户身份的判定缺乏可靠的基础,用户类别判定的准确率较低。因而对于用户偏好的推断存在很大的误差。

发明内容
本发明所要解决的技术问题是提供一种电子图书推荐的方法及系统,基于用户在社交行为中的信息分析用户的阅读偏好,进而实现电子图书的推荐。为解决上述技术问题,本发明提供方案如下:一种电子图书推荐的方法,包括:获得待分析用户的关键词词频列表以及关联用户的关键词词频列表,所述关键词词频列表包括有关键词及其对应的词频,所述关键词及其对应的词频是根据用户对不同网站的访问频率,从该用户在不同网站上发布的文本数据中分析得到的,所述关联用户是与所述待分析用户之间存在预定关联关系的用户;基于待分析用户与关联用户之间的关联程度,确定关联用户的权重,并根据所述权重对多个关联用户的关键词词频列表进行合并,得到合并后的关键词词频列表;对所述待分析用户的关键词词频列表和所述合并后的关键词词频列表进行汇总,得到所述待分析用户的标签词频列表;根据所述标签词频列表中的关键词匹配电子图书库中的图书,确定待推荐电子书,并向所述待分析用户推荐。优选地,上述方法中,进一步按照以下方式,获得对应用户的关键词词频列表:提取用户在预先选择出的每个网站上发布的文本数据,基于用户在该网站上的文本数据,分析得到用户在该网站的关键词及其对应的词频,其中所述关键词为所述文本数据中满足预设条件的词;基于所述用户对不同网站的访问频率,对用户在不同网站上的关键词的词频进行加权求和,获得用户的关键词的词频,进而生成该用户的关键词词频列表,其中访问频率较闻的网站上的关键词在所述加权求和时具有较闻的权重。优选地,上述方法中,所述基于用户在该网站上的文本数据,分析得到用户在该网站的关键词及其对应的词频,包括:将每份所述文本数据转换为向量空间模型中的一个向量,所述向量中的每个分量表示为对应的词在所述文本数据中的权值;统计在所述文本数据中各个词的出现频率,得到各个词的词频;选取所述权值大于预设第一门限以及所述词频大于预设第二门限的词,作为所述用户在该网站上的关键词,以及统计该关键词在该网站的所有文本数据中的词频之和,得到所述用户在该网站上的该关键词的词频。优选地,上述方法中,所述基于待分析用户与关联用户之间的关联程度,确定关联用户的权重,并根据所述权重对多个关联用户的关键词词频列表进行合并,包括:对所述多个关联用户的关键词词频列表中的关键词求并集,得到合并后的关键词词频列表中的关键词;以及,基于待分析用户与关联用户之间的关联程度,确定所述待分析用户的多个关联用户的权重,其中与所述待分析用户关联程度较高的关联用户具有较高的权重;按照所述权重,对所述多个关联用户的关键词词频列表中关键词的词频进行加权求和,得到合并后的关键词词频列表中各个关键词的词频。优选地,上述方法中,所述对所述待分析用户的关键词词频列表和所述合并后的关键词词频列表进行汇总,得到所述待分析用户的标签词频列表,包括:对所述待分析用户的关键词词频列表和所述合并后的关键词词频列表中的关键词求并集,得到所述标签词频列表中的关键词;以及,按照预先设置的权重,对所述待分析用户的关键词词频列表和所述合并后的关键词词频列表中的关键词的词频进行加权求和,得到所述标签词频列表中的各个关键词的词频。优选地,上述方法中,所述根据所述标签词频列表中的关键词匹配电子图书库中的图书,确定待推荐电子书,并向所述待分析用户推荐,包括:从所述标签词频列表中提取词频大于预设第三门限的关键词,作为标签关键词;根据所述标签关键词,匹配预先设置的阅读偏好与关键词之间的对应关系,确定所述标签关键词对应的阅读偏好,作为所述待分析用户的阅读偏好;将所述待分析用户的阅读偏好与电子图书库中的电子图书进行匹配,根据匹配结果向所述待分析用户推荐对应的电子图书。优选地,上述方法中,所述根据所述标签词频列表中的关键词匹配电子图书库中的图书,确定待推荐电子书,并向所述待分析用户推荐,包括:从所述标签词频列表中提取词频大于预设第三门限的关键词,作为标签关键词;根据所述标签关键词,匹配预先设置的阅读偏好与关键词之间的对应关系,确定所述标签关键词对应的阅读偏好;获得所述待分析用户的历史数据和/或用户身份类型标签,并利用所述历史数据和/或用户身份类型标签,对所述标签关键词对应的阅读偏好进行修正,得到所述待分析用户的阅读偏好;将所述待分析用户的阅读偏好与电子图书库中的电子图书进行匹配,根据匹配结果向所述待分析用户推荐对应的电子图书。本发明提供了一种电子图书推荐系统,包括:获得单元,用于获得待分析用户的关键词词频列表以及关联用户的关键词词频列表,所述关键词词频列表包括有关键词及其对应的词频,所述关键词及其对应的词频是根据用户对不同网站的访问频率,从该用户在不同网站上发布的文本数据中分析得到的,所述关联用户是与所述待分析用户之间存在预定关联关系的用户;合并单元,用于基于待分析用户与关联用户之间的关联程度,确定关联用户的权重,并根据所述权重对多个关联用户的关键词词频列表进行合并,得到合并后的关键词词频列表;汇总单元,用于对所述待分析用户的关键词词频列表和所述合并后的关键词词频列表进行汇总,得到所述待分析用户的标签词频列表;推荐单元,用于根据所述标签词频列表中的关键词匹配电子图书库中的图书,确定待推荐电子书,并向所述待分析用户推荐。优选地,上述系统中,所述获得单元包括:提取单元,用于提取用户在预先选择出的每个网站上发布的文本数据;分析单元,用于基于用户在网站上的文本数据,分析得到用户在该网站的关键词及其对应的词频,其中所述关键词为所述文本数据中满足预设条件的词;加权处理单元,用于基于所述用户对不同网站的访问频率,对用户在不同网站上的关键词的词频进行加权求和,获得用户的关键词的词频,进而生成该用户的关键词词频列表,其中访问频率较高的网站上的关键词在所述加权求和时具有较高的权重。优选地,上述系统中,所述分析单元包括:转换单元,用于将每份所述文本数据转换为向量空间模型中的一个向量,所述向量中的每个分量表示为对应的词在所述文本数据中的权值;
统计单元,用于统计在所述文本数据中各个词的出现频率,得到各个词的词频;第一处理单元,用于选取所述权值大于预设第一门限以及所述词频大于预设第二门限的词,作为所述用户在该网站上的关键词,以及统计该关键词在该网站的所有文本数据中的词频之和,得到所述用户在该网站上的该关键词的词频。优选地,上述系统中,所述合并单元包括:第一并集单元,用于对所述多个关联用户的关键词词频列表中的关键词求并集,得到合并后的关键词词频列表中的关键词;以及,第二处理单元,用于基于待分析用户与关联用户之间的关联程度,确定所述待分析用户的多个关联用户的权重,其中与所述待分析用户关联程度较高的关联用户具有较高的权重;按照所述权重,对所述多个关联用户的关键词词频列表中关键词的词频进行加权求和,得到合并后的关键词词频列表中各个关键词的词频。优选地,上述系统中,所述汇总单元包括:第二并集单元,用于对所述待分析用户的关键词词频列表和所述合并后的关键词词频列表中的关键词求并集,得到所述标签词频列表中的关键词;以及,第三处理单元,用于按照预先设置的权重,对所述待分析用户的关键词词频列表和所述合并后的关键词词频列表中的关键词的词频进行加权求和,得到所述标签词频列表中的各个关键词的词频。优选地,上述系统中,所述推荐单元包括:第一选择单元,用于从所述标签词频列表中提取词频大于预设第三门限的关键词,作为标签关键词;第一偏好匹配单元,用于根据所述标签关键词,匹配预先设置的阅读偏好与关键词之间的对应关系,确定所述标签关键词对应的阅读偏好,作为所述待分析用户的阅读偏好;第一图书匹配单元,用于将所述待分析用户的阅读偏好与电子图书库中的电子图书进行匹配,根据匹配结果向所述待分析用户推荐对应的电子图书。优选地,上述系统中,所述推荐单元包括:第二选择单元,用于从所述标签词频列表中提取词频大于预设第三门限的关键词,作为标签关键词;第二偏好匹配单元,用于根据所述标签关键词,匹配预先设置的阅读偏好与关键词之间的对应关系,确定所述标签关键词对应的阅读偏好;修正单元,用于获得所述待分析用户的历史数据和/或用户身份类型标签,并利用所述历史数据和/或用户身份类型标签,对所述标签关键词对应的阅读偏好进行修正,得到所述待分析用户的阅读偏好;第二图书匹配单元,用于将所述待分析用户的阅读偏好与电子图书库中的电子图书进行匹配,根据匹配结果向所述待分析用户推荐对应的电子图书。从以上所述可以看出,本发明提供的电子图书推荐的方法及系统,以用户在网站上发布的数据为基础,通过综合考察待分析用户及其关联用户访问网站的频率以及在网站上发布的数据,来判断待分析用户对于图书的偏好,能够弥补现有技术中仅通过用户注册的身份信息推断用户偏好的不足,同时解决对于阅读平台的新用户由于无法获得其阅读历史数据而无法确定其阅读偏好的问题。并且,本发明还可以进一步结合待分析的历史数据和/或用户类型标签,对所述待分析用户的阅读偏好进行修正,能够提高图书推荐的准确性。


图1为本发明实施例提供的电子图书推荐的方法的流程示意图;图2为本发明实施例提供的一种电子图书推荐系统的结构示意图;图3为本发明实施例提供的另一种电子图书推荐系统的结构示意图。
具体实施例方式本发明主要通过结合用户在社交行为中的信息(如社交网络、微博、博客等)来对用户进行阅读偏好分析,进而推荐与之对应的电子图书,使得对用户阅读偏好判断的准确性得到提高,改善了用户对图书推荐服务的使用体验。为使本发明的目的、技术方案和优点更加清楚,下面将结合附图及具体实施例对本发明进行详细描述。本发明实施例提供的电子图书推荐的方法,可以应用于一阅读平台,向待分析用户提供图书推荐的服务。请参照图1,该方法包括以下步骤:步骤11,获得待分析用户的关键词词频列表以及关联用户的关键词词频列表,所述关键词词频列表包括有关键词及其对应的词频,所述关键词及其对应的词频是根据用户对不同网站的访问频率,从该用户在不同网站上发布的文本数据中分析得到的,所述关联用户是与所述待分析用户之间存在预定关联关系的用户。这里,所述关联用户与所述待分析用户之间存在预定关联关系,例如,所述关联用户可以是所述待分析用户手机通讯录中的联系人,或者是所述待分析用户在即时通信中的好友(如MSN或QQ好友),或者是所述待分析用户在微博或博客中关注的用户,或者是所述待分析用户转发或评论过的文本数据所对应的用户,等等。当然,为了简化处理,可以选择出与所述待分析用户之间的社交行为频率大于预定阈值或者最近一段时间内与所述待分析用户之间发生过社交行为的用户,作为所述关联用户。所述社交行为包括但不限于语音通话、短消息/彩信交互、转发/评论文本内容等行为。这里,待分析用户的关键词词频列表的获取方式,与关联用户的关键词词频列表的获取方式可以相同。对于待分析用户或关联用户,都是综合考虑该用户对不同网站的访问频率以及在这些网站上所发布的文本数据后分析得到的。用户在网站上所发布的数据,可以包括用户发布的新帖子或新话题,还可以包括用户评价、转发其他人的言论的相关内容。文本数据的获得方式,具体可以通过网站(如社交网站、微博、博客等网站上)的openAPI,获取用户在该网站上的用户行为等信息,可以采用Web文本挖掘的方法,对用户的网站使用行为进行文本挖掘,获得该用户的文本数据。在文本挖掘时,可以对所述用户发布有数据的所有网站进行挖掘。当然为了简化处理,也可以从所有网站中选择出该用户访问频率大于预定门限的网站进行挖掘,例如选择出用户每周或每天都会访问的网站,或者选择出用户在最近一段时间内所访问的网站。步骤12,基于待分析用户与关联用户之间的关联程度,确定所述待分析用户的多个关联用户的权重,并根据所述权重对所述多个关联用户的关键词词频列表进行合并,得到合并关联用户的关键词词频列表。步骤13,对所述待分析用户的关键词词频列表和所述合并关联用户的关键词词频列表进行汇总,得到所述待分析用户的标签词频列表。步骤14,根据所述标签词频列表中的关键词匹配电子图书库中的图书,确定待推荐电子书,并向所述待分析用户推荐。从以上步骤可以看出,本发明实施例以用户在网站上发布的数据为基础,通过综合考察待分析用户及其关联用户(如好友或常用联系人)访问网站的频率以及在网站上发布的数据,来判断待分析用户对于信息获取的偏好,能够弥补现有技术中仅通过用户注册的身份信息推断用户偏好的不足,同时解决对于阅读平台的新用户由于无法获得其阅读历史数据而无法确定其阅读偏好的问题。以下对本发明实施例的上述步骤作进一步的说明。上述步骤11中,可以按照以下步骤,获得对应用户的关键词词频列表,例如获得所述待分析用户的关键词词频列表,或者获得所述关联用户的关键词词频列表:步骤111,提取用户在预先选择出的每个网站上发布的文本数据,基于用户在该网站上的文本数据,分析得到用户在该网站的关键词及其对应的词频,其中所述关键词为所述文本数据中满足预设条件的词,词频为该关键词出现的频率,例如出现了 5次。这里,预先选择出的网站可以是用户访问频率大于预定门限的网站,或者是用户在最近一段时间内访问过的网站,以减少分析数据量,减少分析处理压力和耗时。步骤112,基于所述用户对不同网站的访问频率,对用户在不同网站上的关键词的词频进行加权求和,获得用户的关键词的词频,进而生成该用户的关键词词频列表,其中访问频率较闻的网站上的关键词在所述加权求和时具有较闻的权重,例如在第一网站具有第一访问频率,第二网站具有第二访问频率,且第一访问频率大于第二访问频率时,所述用户在第一网站上的关键词的词频对应的第一权重,大于所述用户在第二网站上的关键词的词频对应的第二权重。本实施例在上述步骤b中,对用户在不同网站上的关键词的词频进行加权求和时,是首先对用户在不同网站上的关键词的词频进行加权,然后如果其中存在相同关键词,则对相同关键词的加权后的词频求和,最终得到所有关键词的词频。本实施例在上述步骤111中可以通过向量空间模型的算法,来获得用户在网站上的关键词及其词频。此时,上述步骤111又可以进一步包括以下步骤:步骤1111,将每份文本数据转换为向量空间模型中的一个向量,所述向量中的每个分量表示为对应的词在所述文本数据中的权值。这里,一份文本数据可以是从用户该该网站上发布的一个帖子、一篇博客文章或一个转帖等内容中挖掘出来的。步骤1112,统计在所述文本数据中各个词的出现频率,得到各个词的词频;步骤1113,选取所述权值大于预设第一门限以及所述词频大于预设第二门限的词,作为所述用户在该网站上的关键词,以及统计该关键词在该网站的所有文本数据中的词频之和,得到所述用户在该网站上的该关键词的词频。上述步骤12中,所述基于待分析用户与关联用户之间的关联程度,确定所述待分析用户的多个关联用户的权重,并根据所述权重对所述多个关联用户的关键词词频列表进行合并,具体可以包括:
步骤121,对所述多个关联用户的关键词词频列表中的关键词求并集,得到合并后的关键词词频列表中的关键词。这里的所述多个关联用户可以是从待分析用户的所有关联用户中选择出来的关联程度大于预设的门限值的关联用户,以减少计算量。步骤122,基于待分析用户与关联用户之间的关联程度,确定所述待分析用户的多个关联用户的权重,其中与所述待分析用户关联程度较高的关联用户具有较高的权重,例如,在第一关联用户与所述待分析用户之间具有第一关联程度,第二关联用户与所述待分析用户之间具有第二关联程度,且第一关联程度大于第二关联程度时,所述第一关联用户对应的第一权重,大于所述第二关联用户对应的第二权重。步骤123,按照所述权重,对所述多个关联用户的关键词词频列表中关键词的词频进行加权求和,得到合并后的关键词词频列表中各个关键词的词频。以上步骤121至步骤123中,通过设置不同权重的方式,对不同关联程度的关联用户的关键词词频列表进行加权求和。这里的加权求和是指:将所述多个关联用户的关键词词频列表中相同关键词的词频进行加权求和,将和值作为合并后关键词词频列表中的该关键词的词频,即,首先对多个关联用户的关键词词频列表中的关键词的词频进行加权,然后如果其中存在相同关键词,则对相同关键词的加权后的词频求和,最终得到所有关键词的词频。当然,为了简化处理,本实施例也可以对这些关联用户不再区分其权重,而是直接对这些关联用户的关键词词频列表中的关键词进行合并,对相同关键词的词频进行相加,以得到合并后的关键词词频列表。上述步骤13中,对所述待分析用户的关键词词频列表和所述合并后的关键词词频列表进行汇总,得到所述待分析用户的标签词频列表,具体可以包括:步骤131,对所述待分析用户的关键词词频列表和所述合并后的关键词词频列表中的关键词求并集,得到所述标签词频列表中的关键词;以及,步骤132,按照预先设置的权重,对所述待分析用户的关键词词频列表和所述合并后的关键词词频列表中的关键词的词频进行加权求和,得到所述标签词频列表中的各个关键词的词频。这里的加权求和是指:将所述待分析用户的关键词词频列表和所述合并后的关键词词频列表中相同关键词的词频进行加权求和,将和值作为所述标签词频列表中的该关键词的词频,即,首先对所述待分析用户的关键词词频列表和所述合并后的关键词词频列表中的关键词的词频进行加权,然后如果其中存在相同关键词,则对相同关键词的加权后的词频求和,最终得到所有关键词的词频。这里,在步骤132中,可以针对所述待分析用户的关键词词频列表和所述合并后的关键词词频列表设置对应的权重值,具体设置可以根据用户需求自行设置,例如,在希望更多的考虑待分析用户的因素时,可以将待分析用户的权重值设置的大一些;又例如,对于访问所述阅读平台较为频繁的待分析用户,则可以将其权重值设置的较小;反之,对于访问所述阅读平台较为稀少的待分析用户,则可以将其权重值设置的较大一些。作为上述步骤14的一种具体实现方式,上述步骤14具体可以包括:步骤141,从所述标签词频列表中提取词频大于预设第三门限的关键词,作为标签关键词;步骤142,根据所述标签关键词,匹配预先设置的阅读偏好与关键词之间的对应关系,确定所述标签关键词对应的阅读偏好;步骤143,获得所述待分析用户的历史数据和/或用户身份类型标签,并利用所述历史数据和/或用户身份类型标签,对所述标签关键词对应的阅读偏好进行修正,得到所述待分析用户的阅读偏好;步骤144,将所述待分析用户的阅读偏好与电子图书库中的电子图书进行匹配,根据匹配结果向所述待分析用户推荐对应的电子图书。上述步骤142中,所述阅读偏好是指示用户偏好的图书类型。不同的用户可能喜欢阅读不同类型的图书。确定所述标签关键词对应的阅读偏好的具体方式,可以按照与现有技术相同的匹配方式进行,此处不再赘述。作为上述步骤14中,确定所述待分析用户的阅读偏好的另一种实现方式,本发明实施例还可以进一步结合待分析用户的其他参数来对阅读偏好进行修正,使其更能准确反映待分析用户的阅读偏好,此时,上述步骤14中具体可以包括:步骤141’,从所述标签词频列表中提取词频大于预设第三门限的关键词,作为标签关键词;步骤142’,根据所述标签关键词,匹配所述对应关系,确定所述标签关键词对应的阅读偏好;步骤143’,获得所述待分析用户的历史数据和/或用户类型标签,并利用所述历史数据和/或用户类型标签,对所述标签关键词对应的阅读偏好进行修正,得到所述待分析用户的阅读偏好;步骤144’,将所述待分析用户的阅读偏好与电子图书库中的电子图书进行匹配,根据匹配结果向所述待分析用户推荐对应的电子图书。在上述步骤中,将分析得到的所述待分析用户的阅读偏好,与阅读平台的电子图书库中的电子图书进行匹配,确定出对应的电子图书,进而将所确定的电子图书推荐给所述待分析用户,具体推荐方式可以是通过推送方式将该电子图书的相关信息(如图书摘要)发送给所述待分析用户。本实施例在上述步骤14中可以采用与现有技术相同的图书推荐方式,为节约篇幅,此处不再赘述。本发明实施例还提供了上述步骤14的另外一种实现方式,具体为:将所述标签词频列表中的关键词与电子图书库中图书的标签词进行匹配,选择匹配程度大于预设门限的电子图书向所述待分析用户进行推荐。这里,匹配程度大于预设门限可以是:匹配上的关键词的数量大于预设阈值;按照匹配上的关键词的数量降序排序,排序后的第I名至第N名,这里N大于等于I。基于以上所述的电子图书推荐的方法,本发明实施例还提供了一种电子图书推荐系统。请参照图2所示,该系统包括:获得单元,用于获得待分析用户的关键词词频列表以及关联用户的关键词词频列表,所述关键词词频列表包括有关键词及其对应的词频,所述关键词及其对应的词频是根据用户对不同网站的访问频率,从该用户在不同网站上发布的文本数据中分析得到的,所述关联用户是与所述待分析用户之间存在预定关联关系的用户;
合并单元,用于基于待分析用户与关联用户之间的关联程度,确定关联用户的权重,并根据所述权重对多个关联用户的关键词词频列表进行合并,得到合并后的关键词词频列表;汇总单元,用于对所述待分析用户的关键词词频列表和所述合并后的关键词词频列表进行汇总,得到所述待分析用户的标签词频列表;推荐单元,用于根据所述标签词频列表中的关键词匹配电子图书库中的图书,确定待推荐电子书,并向所述待分析用户推荐。其中,所述获得单元具体可以包括:提取单元,用于提取用户在预先选择出的每个网站上发布的文本数据;分析单元,用于基于用户在网站上的文本数据,分析得到用户在该网站的关键词及其对应的词频,其中所述关键词为所述文本数据中满足预设条件的词;加权处理单元,用于基于所述用户对不同网站的访问频率,对用户在不同网站上的关键词的词频进行加权求和,获得用户的关键词的词频,进而生成该用户的关键词词频列表,其中访问频率较高的网站上的关键词在所述加权求和时具有较高的权重。这里,所述分析单元具体可以包括:转换单元,用于将所述文本数据转换为向量空间模型中的一个向量,所述向量中的每个分量表示为对应的词在所述文本数据中的权值;统计单元,用于统计在所述文本数据中各个词的出现频率,得到各个词的词频;第一处理单元,用于选取所述权值大于预设第一门限以及所述词频大于预设第二门限的词,作为所述用户在该网站上的关键词,以及统计该关键词在该网站的所有文本数据中的词频之和,得到所述用户在该网站上的该关键词的词频。优选地,所述合并单元可以包括:第一并集单元,用于对所述多个关联用户的关键词词频列表中的关键词求并集,得到合并后的关键词词频列表中的关键词;以及,第二处理单元,用于基于待分析用户与关联用户之间的关联程度,确定所述待分析用户的多个关联用户的权重,其中与所述待分析用户关联程度较高的关联用户具有较高的权重;按照所述权重,对所述多个关联用户的关键词词频列表中关键词的词频进行加权求和,得到合并后的关键词词频列表中各个关键词的词频。 优选地,所述汇总单元包括:第二并集单元,用于对所述待分析用户的关键词词频列表和所述合并后的关键词词频列表中的关键词求并集,得到所述标签词频列表中的关键词;以及,第三处理单元,用于按照预先设置的权重,对所述待分析用户的关键词词频列表和所述合并后的关键词词频列表中的关键词的词频进行加权求和,得到所述标签词频列表中的各个关键词的词频。作为一种优选实施方式,所述推荐单元可以包括:第一选择单元,用于从所述标签词频列表中提取词频大于预设第三门限的关键词,作为标签关键词;第一偏好匹配单元,用于根据所述标签关键词,匹配预先设置的阅读偏好与关键词之间的对应关系,确定所述标签关键词对应的阅读偏好,作为所述待分析用户的阅读偏好;第一图书匹配单元,用于将所述待分析用户的阅读偏好与电子图书库中的电子图书进行匹配,根据匹配结果向所述待分析用户推荐对应的电子图书。作为另一种优选实施方式,所述偏好确定单元可以包括:第二选择单元,用于从所述标签词频列表中提取词频大于预设第三门限的关键词,作为标签关键词;第二偏好匹配单元,用于根据所述标签关键词,匹配预先设置的阅读偏好与关键词之间的对应关系,确定所述标签关键词对应的阅读偏好;修正单元,用于获得所述待分析用户的历史数据和/或用户身份类型标签,并利用所述历史数据和/或用户身份类型标签,对所述标签关键词对应的阅读偏好进行修正,得到所述待分析用户的阅读偏好;第二图书匹配单元,用于将所述待分析用户的阅读偏好与电子图书库中的电子图书进行匹配,根据匹配结果向所述待分析用户推荐对应的电子图书。为进一步帮助理解本发明实施例,以下结合图3所示的电子图书推荐系统,对本发明实施例所述的电子图书推荐的方法作更为详细的说明。本实施例提出的图书推荐方式,是一种基于社会网络的方法,通过第三方社交站点的open API获取用户在社交网站、微博、博客等网站上的用户行为及联系人使用信息,采用Web文本挖掘的方法,对用户的网站使用行为进行文本挖掘,并以此为基础对用户打上一定的偏好标签,通过用户偏好标签匹配图书类别标签,对用户进行相应的图书推送,提高图书推送的准确率和用户的回复率以及点击率。在具体实施本实施例中的图书推荐方法时,可以包括以下步骤:步骤一,根据用户登录各个网站的频率,确定要进行文本数据采集的网站。具体是:首先,确定用户的所有的ID,包括该用户的手机号码、邮箱和其他登录名。例如可以通过图3所示的第三方网站的open API,获取用户在各个网站上的用户行为及联系人使用信息;其次,可以选择其中一个ID作为该用户的唯一识别ID,例如手机号码,然后通过手机号码绑定的方式,将其他ID与手机号码绑定,然后,获取并记录客户登陆或访问社交网络、微博或博客的信息;之后,根据其登陆和访问相应网站的频率(如登录次数)和/或活跃程度(如转帖次数、发信息的次数)确定其来自于哪些网站的数据需要被采集到系统中,对于低于频率和活跃程度阈值的数据,不予采集。步骤二,采用文本挖掘的方式,确定用户的关键词词频列表,具体包括:步骤al,从步骤一中所确定的网站中,提取用户的待处理的文本信息,并进行预处理,包括:通过根据用户的ID,获得该用户在各个网站(如微博或者博客网站)上的用户转发、评价及主动留言内容,并利用图3中的网页信息预处理模块对相应网页的内容进行处理,去掉跟文本挖掘无关的标记,转换成统一格式的TXT文本数据后存放在用户文本服务器上以备后续处理。这些文本数据与用户识别ID关联,被存放在一个单独的文件服务器上。本实施例中可以通过定时抽取用户的数据,及时更新用户的文本数据信息。在对用户的中文内容进行处理时,由于中文词汇之间不含有空格等明显的间隔符号,并且同一个汉字有可能跟前后的文字都形成有效词汇,从而造成不同的理解,因而可以利用现有技术中的自动分词处理方法对中文文本进行词条切分处理,相关的处理方法包括但不限于:根据需要采用基于理解的方法和基于统计的方法。步骤a2:对步骤al中经预处理后的用户在某个网站上的文本数据信息,利用以下提供的TF-1DF公式,计算得到用户的关键词词频列表,具体是:采用向量空间模型(VSM, Vector Space Model)来表示每份文本数据。文本空间被看作是由一组正交词条向量所组成的向量空间,每个文本数据(Ii表示为其中的一个向量:V ((Ii) = (W1 ((Ii), W2 ((Ii),..., Wn(Cli))(5-1)其中η表示文本特征抽取时所选用的特征项数目,即文本空间中的词的数量,Wj(Cli)表示第j个词tj在文本数据Cli中的权值。特征项的权值计算方法采用TF-1DF公式,以词t在文本3中的权值为例,计算原理如公式(5-2)所示:
权利要求
1.一种电子图书推荐的方法,其特征在于,包括: 获得待分析用户的关键词词频列表以及关联用户的关键词词频列表,所述关键词词频列表包括有关键词及其对应的词频,所述关键词及其对应的词频是根据用户对不同网站的访问频率,从该用户在不同网站上发布的文本数据中分析得到的,所述关联用户是与所述待分析用户之间存在预定关联关系的用户; 基于待分析用户与关联用户之间的关联程度,确定关联用户的权重,并根据所述权重对多个关联用户的关键词词频列表进行合并,得到合并后的关键词词频列表; 对所述待分析用户的关键词词频列表和所述合并后的关键词词频列表进行汇总,得到所述待分析用户的标签词频列表; 根据所述标签词频列表中的关键词匹配电子图书库中的图书,确定待推荐电子书,并向所述待分析用户推荐。
2.如权利要求1所述的方法,其特征在于,进一步按照以下方式,获得对应用户的关键词词频列表: 提取用户在预先选择出的每个网站上发布的文本数据,基于用户在该网站上的文本数据,分析得到用户在该网站的关键词及其对应的词频,其中所述关键词为所述文本数据中满足预设条件的词; 基于所述用户对不同网站的访问频率,对用户在不同网站上的关键词的词频进行加权求和,获得用户的关键词的词频,进而生成该用户的关键词词频列表,其中访问频率较高的网站上的关键词在所述加权求和时具有较闻的权重。
3.如权利要求2所述的方法,其特征在于,所述基于用户在该网站上的文本数据,分析得到用户在该网站的关键词及其对应的词频,包括: 将每份所述文本数据转换为向量空间模型中的一个向量,所述向量中的每个分量表示为对应的词在所述文本数据中的权值; 统计在所述文本数据中各个词的出现频率,得到各个词的词频; 选取所述权值大于预设第一门限以及所述词频大于预设第二门限的词,作为所述用户在该网站上的关键词,以及统计该关键词在该网站的所有文本数据中的词频之和,得到所述用户在该网站上的该关键词的词频。
4.如权利要求1所述的方法,其特征在于, 所述基于待分析用户与关联用户之间的关联程度,确定关联用户的权重,并根据所述权重对多个关联用户的关键词词频列表进行合并,包括: 对所述多个关联用户的关键词词频列表中的关键词求并集,得到合并后的关键词词频列表中的关键词;以及, 基于待分析用户与关联用户之间的关联程度,确定所述待分析用户的多个关联用户的权重,其中与所述待分析用户关联程度较高的关联用户具有较高的权重;按照所述权重,对所述多个关联用户的关键词词频列表中关键词的词频进行加权求和,得到合并后的关键词词频列表中各个关键词的词频。
5.如权利要求1所述的方法,其特征在于, 所述对所述待分析用户的关键词词频列表和所述合并后的关键词词频列表进行汇总,得到所述待分析用户的标签词频列表,包括:对所述待分析用户的关键词词频列表和所述合并后的关键词词频列表中的关键词求并集,得到所述标签词频列表中的关键词;以及, 按照预先设置的权重,对所述待分析用户的关键词词频列表和所述合并后的关键词词频列表中的关键词的词频进行加权求和,得到所述标签词频列表中的各个关键词的词频。
6.如权利要求1所述的方法,其特征在于, 所述根据所述标签词频列表中的关键词匹配电子图书库中的图书,确定待推荐电子书,并向所述待分析用户推荐,包括: 从所述标签词频列表中提取词频大于预设第三门限的关键词,作为标签关键词;根据所述标签关键词,匹配预先设置的阅读偏好与关键词之间的对应关系,确定所述标签关键词对应的阅读偏好,作为所述待分析用户的阅读偏好; 将所述待分析用户的阅读偏好与电子图书库中的电子图书进行匹配,根据匹配结果向所述待分析用户推荐对应的电子图书。
7.如权利要求6所述的方法,其特征在于, 所述根据所述标签词频列表中的关键词匹配电子图书库中的图书,确定待推荐电子书,并向所述待分析用户推荐,包括: 从所述标签词频列表中提取词频大于预设第三门限的关键词,作为标签关键词;根据所述标签 关键词,匹配预先设置的阅读偏好与关键词之间的对应关系,确定所述标签关键词对应的阅读偏好; 获得所述待分析用户的历史数据和/或用户身份类型标签,并利用所述历史数据和/或用户身份类型标签,对所述标签关键词对应的阅读偏好进行修正,得到所述待分析用户的阅读偏好; 将所述待分析用户的阅读偏好与电子图书库中的电子图书进行匹配,根据匹配结果向所述待分析用户推荐对应的电子图书。
8.一种电子图书推荐系统,其特征在于,包括: 获得单元,用于获得待分析用户的关键词词频列表以及关联用户的关键词词频列表,所述关键词词频列表包括有关键词及其对应的词频,所述关键词及其对应的词频是根据用户对不同网站的访问频率,从该用户在不同网站上发布的文本数据中分析得到的,所述关联用户是与所述待分析用户之间存在预定关联关系的用户; 合并单元,用于基于待分析用户与关联用户之间的关联程度,确定关联用户的权重,并根据所述权重对多个关联用户的关键词词频列表进行合并,得到合并后的关键词词频列表; 汇总单元,用于对所述待分析用户的关键词词频列表和所述合并后的关键词词频列表进行汇总,得到所述待分析用户的标签词频列表; 推荐单元,用于根据所述标签词频列表中的关键词匹配电子图书库中的图书,确定待推荐电子书,并向所述待分析用户推荐。
9.如权利要求8所述的系统,其特征在于,所述获得单元包括: 提取单元,用于提取用户在预先选择出的每个网站上发布的文本数据; 分析单元,用于基于用户在网站上的文本数据,分析得到用户在该网站的关键词及其对应的词频,其中所述关键词为所述文本数据中满足预设条件的词;加权处理单元,用于基于所述用户对不同网站的访问频率,对用户在不同网站上的关键词的词频进行加权求和,获得用户的关键词的词频,进而生成该用户的关键词词频列表,其中访问频率较闻的网站上的关键词在所述加权求和时具有较闻的权重。
10.如权利要求9所述的系统,其特征在于,所述分析单元包括: 转换单元,用于将每份所述文本数据转换为向量空间模型中的一个向量,所述向量中的每个分量表示为对应的词在所述文本数据中的权值; 统计单元,用于统计在所述文本数据中各个词的出现频率,得到各个词的词频; 第一处理单元,用于选取所述权值大于预设第一门限以及所述词频大于预设第二门限的词,作为所述用户在该网站上的关键词,以及统计该关键词在该网站的所有文本数据中的词频之和,得到所述用户在该网站上的该关键词的词频。
11.如权利要求8所述的系统,其特征在于,所述合并单元包括: 第一并集单元,用于对所述多个关联用户的关键词词频列表中的关键词求并集,得到合并后的关键词词频列表中的关键词;以及, 第二处理单元,用于基于待分析用户与关联用户之间的关联程度,确定所述待分析用户的多个关联用户的权重,其中与所述待分析用户关联程度较高的关联用户具有较高的权重;按照所述权重,对所述多个关联用户的关键词词频列表中关键词的词频进行加权求和,得到合并后的关键词词频列表中各个关键词的词频。
12.如权利要求8所述的系统,其特征在于,所述汇总单元包括: 第二并集单元,用于对所述待分析用户的关键词词频列表和所述合并后的关键词词频列表中的关键词求并集,得到所述标签词频列表中的关键词;以及, 第三处理单元,用于按照预先设置的权重,对所述待分析用户的关键词词频列表和所述合并后的关键词词频列表中的关键词的词频进行加权求和,得到所述标签词频列表中的各个关键词的词频。
13.如权利要求8所述的系统,其特征在于,所述推荐单元包括: 第一选择单元,用于从所述标签词频列表中提取词频大于预设第三门限的关键词,作为标签关键词; 第一偏好匹配单元,用于根据所述标签关键词,匹配预先设置的阅读偏好与关键词之间的对应关系,确定所述标签关键词对应的阅读偏好,作为所述待分析用户的阅读偏好;第一图书匹配单元,用于将所述待分析用户的阅读偏好与电子图书库中的电子图书进行匹配,根据匹配结果向所述待分析用户推荐对应的电子图书。
14.如权利要求8所述的系统,其特征在于,所述推荐单元包括: 第二选择单元,用于从所述标签词频列表中提取词频大于预设第三门限的关键词,作为标签关键词; 第二偏好匹配单元,用于根据所述标签关键词,匹配预先设置的阅读偏好与关键词之间的对应关系,确定所述标签关键词对应的阅读偏好; 修正单元,用于获得所述待分析用户的历史数据和/或用户身份类型标签,并利用所述历史数据和/或用户身份类型标签,对所述标签关键词对应的阅读偏好进行修正,得到所述待分析用户的阅读偏好; 第二图书匹配单元,用于将所述待分析用户的阅读偏好与电子图书库中的电子图书进行匹配, 根据匹配结果向所述待分析用户推荐对应的电子图书。
全文摘要
本发明提供了一种电子图书推荐的方法及系统。其中所述方法以用户在网站上发布的数据为基础,通过综合考察待分析用户及其关联用户访问网站的频率以及在网站上发布的数据,来判断待分析用户对于图书的偏好,能够弥补现有技术中仅通过用户注册的身份信息推断用户偏好的不足,同时解决对于阅读平台的新用户由于无法获得其阅读历史数据而无法确定其阅读偏好的问题。
文档编号G06F17/30GK103176982SQ201110430910
公开日2013年6月26日 申请日期2011年12月20日 优先权日2011年12月20日
发明者戴和忠, 邱一丰, 田原, 沈治, 斯凌, 李玉巍 申请人:中国移动通信集团浙江有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1