一种数据分类方法及系统的制作方法

文档序号:9235527阅读:837来源:国知局
一种数据分类方法及系统的制作方法
【技术领域】
[0001]本发明涉及数据信息处理技术领域,特别涉及一种数据分类方法及系统。
【背景技术】
[0002]在现有的推荐系统(比如广告系统,新闻推荐系统,或视频推荐系统等)中,商家可以通过推荐系统定向地或不定向的将需要推荐的数据发送到各个用户终端,从而达到推广某一产品,或告知某一信息的目的。
[0003]一般情况下,推荐系统会基于文本分类的方法,将推荐数据进行分类,并按照类别将推荐数据发送给对应的用户终端,比如将推荐数据按照地域进行分类,使得推荐系统将与某一地域相关的推荐数据只发送给该地域内的用户终端,这样可以有针对性地发送推荐数据。其中,推荐数据的分类方法的主要步骤包括训练数据准备、特征抽取、特征选择、模型训练和线上预测,其中训练数据准备阶段是选取训练数据的阶段,需要对待处理数据进行标注,现有技术中一般采用人工标注的方法,然后再根据人工标注的数据选取训练数据,在这个过程中需要大量的人力投入,成本较高。

【发明内容】

[0004]本发明实施例提供一种数据分类方法及系统,省去人工标注的过程,从而简化了选取训练数据的流程。
[0005]本发明实施例提供一种数据分类方法,包括:
[0006]分别获取多条推荐数据的地域信息,及获取所述多条推荐数据分别对应的用户行为数据,所述用户行为数据中包括一种用户操作对应的用户位置信息;
[0007]选取所述多条推荐数据中的第一推荐数据作为训练数据,所述第一推荐数据的地域信息与对应的用户位置信息一致;
[0008]根据所述训练数据获取地域分类的模型文件,以对待发送推荐数据进行地域分类。
[0009]本发明实施例中还提供一种数据分类系统,包括:
[0010]信息获取单元,用于分别获取多条推荐数据的地域信息,及获取所述多条推荐数据分别对应的用户行为数据,所述用户行为数据中包括一种用户操作对应的用户位置信息;
[0011]选取单元,用于选取所述多条推荐数据中的第一推荐数据作为训练数据,所述第一推荐数据的地域信息与对应的用户位置信息一致;
[0012]文件获取单元,用于根据所述选取单元选取的训练数据获取地域分类的模型文件,以对待发送推荐数据进行地域分类。
[0013]可见,在本发明实施例中,推荐系统在获取对待发送推荐数据进行地域分类的模型文件时,会直接对已经发送的推荐数据的地域信息,与各个用户终端反馈的对推荐数据进行操作的用户行为数据中的用户位置信息进行比较,从而根据比较结果自动地选取训练数据,以便根据训练数据得到模型文件。与现有技术中在选取训练数据的过程中,采用人工标注的方法相比,本发明实施例中,推荐系统在选取训练数据的过程中,直接根据获取的信息的比较来选取训练数据,省去了人工标注的过程,从而简化了选取训练数据的流程。
【附图说明】
[0014]为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0015]图1是本发明实施例提供的一种数据分类方法的流程图;
[0016]图2是本发明实施例中推荐系统选取训练数据的一种方法流程图;
[0017]图3是本发明实施例中推荐系统选取训练数据的另一种方法流程图;
[0018]图4是本发明实施例提供的一种数据分类系统的结构示意图;
[0019]图5是本发明实施例提供的另一种数据分类系统的结构示意图;
[0020]图6是本发明实施例提供的另一种数据分类系统的结构示意图;
[0021]图7是本发明应用实施例中的新闻推荐系统执行数据分类方法的结构示意图。
【具体实施方式】
[0022]下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0023]本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三” “第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排它的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0024]本发明实施例提供一种数据分类方法,主要是应用于推荐系统中,比如应用于广告系统,新闻推荐系统或视频推荐系统中,本实施例的方法是推荐系统所执行的方法,流程图如图1所示,包括:
[0025]步骤101,推荐系统分别获取多条推荐数据的地域信息,及获取多条推荐数据分别对应的用户行为数据,用户行为数据中包括一种用户操作对应的用户位置信息。
[0026]可以理解,这里的推荐数据是推荐系统发送给各个用户终端的数据,比如在广告系统中推荐数据为广告数据,在新闻推荐系统中推荐数据为新闻数据,在视频推荐系统中推荐数据为视频数据。某一条推荐数据的地域信息是表征该推荐数据所涉及的具体内容所在地域的信息;某一条推荐数据对应的用户行为数据是指:当推荐系统将该条推荐数据发送给用户终端后,用户终端对该推荐数据执行的用户操作(比如查看,收藏,点赞等用户操作)的数据,具体可以包括用户位置信息(即执行用户操作的用户终端的位置信息)及用户操作的信息(表示具体是哪种用户操作的信息),且用户行为数据还可以包括用户标识及一些具体应用的信息等。
[0027]在具体实现时,推荐系统在获取多条推荐数据的地域信息时,会将推荐数据的标题中的地域词提取出来,将多条推荐数据的标题中的地域词分别作为多条推荐数据的地域信息;如果推荐数据的标题中的地域词有多个,则推荐数据会将推荐数据的正式文本中的地域词提取出来,将多条推荐数据的正式文本中的地域词分别作为多条推荐数据的地域信息;进一步地,如果推荐数据的标题中的地域词有多个,且推荐数据的正式文本中的地域词也有多个,则推荐数据会将推荐数据的正式文本和标题中的地域词都提取出来,并比较正式文本和标题中的地域词,将多条推荐数据的标题中与正式文本中一致的地域词分别作为多条推荐数据的地域信息。
[0028]在获取用户行为数据时,推荐系统可以主动获取用户终端统计的用户行为数据,或接收用户终端主动上报的用户行为数据。由于一条推荐数据是发送给多个用户终端的,则推荐系统得到的用户行为数据中包括执行用户操作的多个用户终端的用户位置信息,且这些用户终端的用户操作也可能不同,比如查看推荐数据,或是收藏推荐数据。而在本实施例中,推荐系统会选择某一种用户操作(比如查看推荐数据)对应的多个用户终端的用户位置信息,如果这多个用户终端中N个以上的用户终端的用户位置信息一致,则将这N个以上的用户终端的用户位置信息作为最终结果。
[0029]步骤102,推荐系统选取多条推荐数据中的第一推荐数据作为训练数据,其中,第一推荐数据的地域信息与对应的用户位置信息一致。
[0030]推荐系统会根据步骤101中获取的每条推荐数据的地域信息和对应的用户位置信息,确定该条推荐数据是否可以作为第一推荐数据。
[0031]步骤103,推荐系统根据上述步骤102中得到的训练数据获取地域分类的模型文件,以对待发送推荐数据进行地域分类。其中,推荐系统具体可以通过对训练数据进行特征抽取和模型训练的步骤后得到模型文件,进一步地,为了使得得到的模型文件更准确,更能反映训练数据的实际情况,推荐系统在获取模型文件的过程中,还可以在特征抽取后进行特征选择,过滤掉高噪音和冗余的特征。
[0032]推荐系统最终得到的模型文件主要描述了各个地域的推荐数据的特征约束条件,这样推荐系统就可以根据这些特征约束条件来确定某条待发送推荐数据是哪个地域的推荐数据,即将待发送推荐数据归入该地域的推荐数据中,从而可以将待发送推荐数据的地域分类作为精准投放的一个参考依据,比如将某个地域的待发送推荐数据发送给该地域部署的用户终端,而不是发送给所有的用户终端。
[0033]可以理解的是,上述步骤101到103中的操
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1