本发明涉及计算机领域,尤其涉及一种确定条目访问量的方法和装置。
背景技术:
在互联网领域,条目被访问次数可以被称之为访问量。对于新闻媒体网站,访问量是指一篇文章或者视频的浏览次数以及用户所浏览的网页数量等指标。对于电商零售业,则主要关注商品访问量,即访问一个特定商品详情页的浏览总次数。
目前,确定未来某特定时刻访问量的方法有基于时间序列的方法,也有基于机器学习的方法,这些方案多集中在网站整体访问量的确定。在实现本发明过程中,发明人发现这些技术方案或多或少存在一些不足:
1.特征挖掘不充分;
2.人工收集特征无法应对海量数据;
3.缺乏合适的特征选择方法;
4.针对网站整体访问量的确定,没有进一步细化到条目粒度,不能满足诸如商品智能定价、库存管理等业务场景的需要;
5.现有技术方案多为割裂的,分散的方案。
技术实现要素:
有鉴于此,本发明实施例提供一种确定条目访问量的方法和装置,能够针对条目粒度从各类特征中挖掘出高质量特征,提高训练效果;构建条目价格力指数,显著提升确定条目访问量的效果;实现基于条目粒度的访问量确定以有效提升诸如零售业的与条目对应的实体定价、库存管理等业务的决策能力。
为实现上述目的,根据本发明实施例的一个方面,提供了一种确定条目访问量的方法,包括:
基于历史基础数据获得与所述条目相关联的一个或多个特征;
利用所述一个或多个特征确定特定时刻所述条目被访问的访问量集合;以及
基于所述历史基础数据从所述访问量集合中选择第一访问量作为所述特定时刻所述条目被访问的访问量。
根据本发明实施例的一个方面,提供了一种确定条目访问量的方法,其特征在于,所述基于历史基础数据获得与所述条目相关联的一个或多个特征包括:
从所述历史基础数据中收集不同特征类别的基本特征集合;
对所述基本特征进行过滤以移除相关性低的基本特征集合;以及
从所述经过滤的基本特征集合中选择一个或多个特征,并对所述一个或多个特征进行确认。
根据本发明实施例的一个方面,提供了一种确定条目访问量的方法,其特征在于,在所述基于历史基础数据获得与所述条目相关联的一个或多个特征之前,还包括对所述历史基础数据的数据清洗。
根据本发明实施例的一个方面,提供了一种确定条目访问量的方法,其特征在于,从所述经过滤的基本特征集合中选择一个或多个特征是通过以下中的一项或多项执行的:
确定条目价格力特征;
确定条目被消费趋势特征;
确定多特征融合趋势特征;以及
对所述基本特征集合中的基本特征进行组合与交叉。
根据本发明实施例的一个方面,提供了一种确定条目访问量的方法,其特征在于,确定条目价格力特征包括:
根据与所述条目相关联的订单数据,确定与所述条目相对应的实体的历史成交普惠价;
根据与所述条目相关联的条目范围,确定与所述条目相对应的所述实体的历史成交普惠价中的最高价和最低价;
确定与所述条目相对应的所述实体在所述特定时刻的当前普惠价;以及
基于所述当前普惠价、所述历史最低价、所述历史最高价确定所述条目的条目价格力特征。
根据本发明实施例的一个方面,提供了一种确定条目访问量的方法,其特征在于,所述特征类别包括以下中的一项或多项:
条目被访问趋势类;
条目订单类;
市场营销类;以及
广告类。
根据本发明实施例的一个方面,提供了一种确定条目访问量的方法,其特征在于,基于所述历史基础数据从所述访问量集合中选择第一访问量作为所述特定时刻所述条目被访问的访问量包括:
基于所述历史基础数据获得与所述访问量集合中的每个访问量相关联的一个或多个第一监控指标值;
比较所述一个或多个第一监控指标值并从所述一个或多个第一监控指标值中选择最佳值;以及
将与所述最佳值相对应的访问量作为所述第一访问量。
根据本发明实施例的一个方面,提供了一种确定条目访问量的方法,其特征在于,还包括:
获得一个或多个第二监控指标值;以及
根据所述一个或多个第二监控指标值调整与所述条目相关联的所述一个或多个特征。
根据本发明实施例的一个方面,提供了一种确定条目访问量的装置,其特征在于,包括:
特征模块,用于基于历史基础数据获得与所述条目相关联的一个或多个特征;
确定模块,用于利用所述一个或多个特征确定特定时刻所述条目被访问的访问量集合;以及
选择模块,用于基于所述历史基础数据从所述访问量集合中选择第一访问量作为所述特定时刻所述条目被访问的访问量。
为实现上述目的,根据本发明的再一个方面,提供了一种确定条目访问量的电子设备。
本发明的确定条目访问量的电子设备,包括:一个或多个处理器;以及,存储装置,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明的确定条目访问量的方法。
为实现上述目的,根据本发明的又一个方面,提供了一种计算机可读介质。
本发明的计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现本发明的确定条目访问量的方法。
上述发明中的一个实施例具有如下优点或有益效果:能够针对条目粒度从各类特征中挖掘出高质量特征,提高训练效果;构建条目价格力指数,显著提升确定条目访问量的效果;实现基于条目粒度的访问量确定以有效提升诸如零售业的与条目对应的实体定价、库存管理等业务的决策能力。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明实施例的确定条目访问量的方法的主要流程的示意图;
图2是根据本发明实施例的特征处理过程的主要流程的示意图;
图2.1是访问量趋势特征示意图;
图3是根据本发明实施例的条目价格力特征挖掘过程的主要流程的示意图;
图3.1是多特征融合示意图;
图4是根据本发明实施例的特征融合方法的示意图;
图5是根据本发明实施例的确定特定时刻条目访问量集合的主要流程的示意图;
图6是根据本发明实施例的模型融合方法的示意图;
图7是根据本发明实施例的选择第一访问量的主要流程的示意图;
图8是根据本发明实施例的确定条目访问量的模块及数据流的示意图;
图9是本发明实施例可以应用于其中的示例性系统架构图;
图10是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1是根据本发明实施例的确定条目访问量的方法的主要流程的示意图,如图1所示,确定条目访问量的方法的主要流程包括步骤s101、s102和s103。
步骤s101:基于历史基础数据获得与所述条目相关联的一个或多个特征。
目前的访问量确定多为针对网站整体访问量的确定,没有进一步细化到条目粒度。针对网站的整体确定利用网站整体的历史基础数据进行特征处理,集中于整体访问量的确定,这种方式不能满足诸如商品定价、库存管理等业务场景的需要。本发明所述的确定条目访问量是针对特定条目,通过搜集特定条目的历史基础数据来进行该条目的特征处理,从而实现以条目为粒度的访问量确定。
在一种实施方式中,在电商网站中,与特定条目对应的实体可以是特定商品,该特定条目用sku(stockkeepingunit,库存量单位)来标识,sku是从库存角度看最细粒度的条目单位。
本发明中使用到的基础数据包括但不限于如下几类:
·条目被访问趋势类数据:
例如包括能够直接反应访问量趋势的条目访问量历史数据;以及能够反应波动且间接反应趋势的季节数据、节假日数据等。
·用户行为类数据:
例如订单数据、用户交互数据(如关注、加购、搜索)。用户行为类基础数据能反应出条目热度,例如能较大影响一些热销商品、明星新品等的访问情况。
·优惠促销类数据:
例如能够影响商品条目访问量的各种营销活动,包括优惠券、促销信息以及各种营销活动(例如,“超级品类日”、“超级品牌日”活动)。
·广告类数据
例如包括能直接影响商品条目访问量的广告展示计划、广告信息、广告坑位信息等数据等。
需要注意的是,以上对基础数据的示例仅用作举例,本发明实施例中用到的基础数据可以包括以上示例,但不限于以上示例。
在一种实施方式中,特征处理过程主要包括特征搜集、特征挖掘、特征确认几个步骤。优选地,在特征搜集之前,还可以包括数据预处理步骤。特征处理过程的详细步骤详见图2。
步骤s102:利用所述一个或多个特征确定特定时刻所述条目被访问的访问量集合。
步骤s102包括建模的过程,在该步骤中通过历史基础数据形成一个或多个候选模型,利用这些模型初步形成该条目在特定时刻被访问的访问量集合。特定时刻可以是未来的时刻,例如n天后(n为大于或等于1的自然数)。优选地,步骤s102还可以包括模型融合子步骤,将一个或多个候选模型进行融合,利用融合后的候选模型生成多个访问量集合。该步骤主要包括构造、优化、验证三个子步骤,详细步骤参见图5。
步骤s103:基于所述历史基础数据从所述访问量集合中选择第一访问量作为所述特定时刻所述条目被访问的访问量。
在步骤s102中利用多个不同的候选模型确定该特定条目的访问量,可以得出多个结果,作为所确定的访问量集合。步骤s103中,对所述多个结果进行评估,并根据评估指标,为该特定条目挑选出最好的模型作为最佳模型,并将该最佳模型对应的访问量推送给下游系统。步骤s103包括监控指标评估和模型选择两个子步骤,详细步骤参见图7。
图2图示了图1中的步骤s101中获得与所述条目相关联的一个或多个特征的详细过程,优选地包括数据清洗、特征搜集、特征过滤、特征确认步骤。
步骤s201:在对历史基础数据进行特征处理以构建确定条目被访问量所使用的优选特征之前,实施例可以可选地包括数据预处理步骤。
优选地,数据预处理可以通过偏差检测、数据清洗等步骤来实现。例如,通过爬虫数据清洗、欺诈数据清洗、测试数据清洗等类型的数据清洗方式对历史基础数据进行清洗,从而达到剔除异常数据、剔除极端值、提升模型确定准确性的技术效果。
步骤s202:在步骤s201中经过预处理的基础数据,经过数据清洗过程,在步骤s202中进行特征搜集。步骤s201中的数据预处理步骤是优选步骤,也可以直接对历史基础数据进行特征搜集。在特征搜集过程中,初步构建确定条目访问量所需的基本特征。
此处确定访问量所需的基本特征,在一种实施方式中,可以包括以下类别的特征,但不限于以下类别的特征:
·访问量趋势类:
包括例如特定条目最近n天访问量、前n天访问量、上月同期n天访问量、去年同期访问量等,n为大于或等于1的自然数。其中,特定条目的访问量是指特定条目的详情页被浏览的总次数。特定条目n天访问量表示近n天以来,该条目的详情页被浏览的总次数,前n天访问量表示过去的n天中该条目的详情页被浏览的次数总和;上月同期n天访问量表示上个月中相同日期的n天中,该条目的详情页被浏览的次数总和;去年同期访问量是指去年相同日期的一段时间中,该条目的详情页被浏览的次数总和。除此之外,还可以包括例如m月同期访问量、m年同期访问量等(m为大于或等于1的自然数)。需注意,以上对访问量趋势类特征的举例仅为示例,本实施例也可以使用其它访问量趋势类特征。
·用户订单类:
在条目对应的实体是商品的实施例中,包括例如:该特定条目对应的商品最近n天订单量、关注量、加购量,该特定条目所在的店铺最近n天订单量、关注量等,n为大于或等于1的自然数。其中,订单量是指该条目被订购的订单数目,关注量是指该条目被关注或收藏的次数,加购量是指该条目被加入购物车的次数。关注量和加购量都反映条目对应的商品被购买的趋势。
·市场营销类:
例如条目价格力指数特征、条目可用优惠券数量、促销数量,条目最大促销优惠力度、最大优惠券优惠比例,条目是否有“超级品类日活动”、“超级品牌日活动”等。其中,条目价格力指数特征的计算方法在图3详细说明。
·广告类特征:
包括例如条目相关广告数量、是否有焦点页广告、第n屏广告数等,n为大于或等于1的自然数。
需注意,本实施例中对特征的举例仅为示例,而不构成对本实施例的限制。
在步骤s202初步构建的基本特征,在步骤s203对其进行特征过滤。
步骤s203:针对步骤s202初步构建的基本特征,在步骤s203对其进行特征过滤。在步骤s202构建的基本特征可能是海量的,而且其中有些特征彼此之间相关度不高,或者与最终要建立的模型相关度不高。因此,需要对这些基本特征进行过滤,以实现减少过拟合、减少特征数量、提高模型泛化能力的效果,从而使模型获得更好的性能。
优选地,特征过滤可以综合地采用filter、wrapper、embedding等特征选择方法来对海量特征进行过滤,剔除相关性低的特征,降低模型复杂度。具体而言,在一种实施方式中,特征过滤可以分为以下几个步骤:
第1步,删除空值占比高的特征。
第2步,利用方差分析、相关系数将特征按重要性进行排序。
重要性可以是与模型的相关性、与结果的相关性,也可以是根据需要预先定义的指标。
第3步,利用诸如embedded的特征选择方法将特征按重要性排序。
其中,特征选择方法可以例如是embedded方法、wrapper方法、filter方法等,或者上述方法的组合。需注意,此处所述的特征选择方法仅为示例,也可以采用其他特征选择方法。
第4步,删除在第2、3步中特征重要性排序都靠后的特征。
对于被删除特征的选择,例如可以预先定义空值占比和/或重要性阈值,超过该阈值的特征被删除;也可以预先定义空值占比和/或重要性排名的百分比,排名在前若干百分比的特征被删除,或者其它任何实施方式。
需要注意的是,以上步骤的顺序仅为示例,本发明实施例也可以包括其它步骤,或以上步骤不同顺序的不同组合。
步骤s204:对步骤s203生成的经过滤的基本特征进行深入挖掘,构造出高阶高质量的特征。优选地,在一种实施方式中,可以至少从以下几个方面进行特征挖掘:
1.条目价格力特征挖掘。
条目价格力指数是影响访问量的重要因素,条目价格力主要取决于在营销活动中,消费者能得到的该条目的优惠力度。若条目价格力低代表条目存在溢价。条目价格力特征能够充分挖掘出零售企业在运营过程中产生的优惠券、促销等营销活动信息与历史订单数据的关系,该特征的挖掘能提升模型的确定效果。确定条目价格力特征的方法详见图3。
转到图3,图3描绘了确定条目价格力特征的方法,如图3所示,确定条目价格力特征包括以下步骤:
步骤s301:根据订单数据,计算条目实体历史成交普惠价
根据实施方式,可以计算与条目对应的实体开始销售以来的历史成交普惠价,也可以计算在预定时间段内的历史成交普惠价。条目的成交普惠价是值基于营销活动报名价格及设置的优惠,计算出消费者最容易享受到的到手价格。
步骤s302:根据条目范围,计算条目实体普惠价的历史最高价和最低价。
对于特定的条目,该条目所属范围不同,与其相关的优惠方式、促销活动、人群都不同。例如,单价较低的家居小商品,与之相关的优惠券可能是例如5元优惠券;而对于价格较高的家电商品,与之相关的优惠券可能是例如50元的优惠券。并且二者营销活动方式也有所不同。因此,该步骤计算基于该特定条目的范围。在下面的公式中,历史最高价用price_max表示,历史最低价用price_min表示。
步骤s303:根据优惠券、促销数据,实时计算条目实体当前普惠价。
针对该特定条目,根据当前营销活动中的优惠券、促销数据等,实时计算与该条目对应的实体当前的普惠价。在下面的公式中,条目实体的当前普惠价用price_cur表示。
步骤s304:构建该条目的条目实体价格力特征。
根据公式(1)构建条目的条目实体价格力特征,其中price_cur表示该条目实体的当前普惠价,price_min表示该条目实体的历史成交普惠价的最低价,price_max表示该条目实体的历史成交普惠价的最高价。
优选地,在实际应用中,可以遍历各条目,构建每个条目的条目实体价格力特征。
现在返回图2,继续步骤s204,特征挖掘进一步包括:
2.访问量趋势特征挖掘
条目的访问量趋势特征反映了条目访问量随时间变化的情况。从图2.1中可以看出时间序列中的蕴含的趋势信息。条目访问量趋势特征可以按天进行同比、环比;也可以设置累计天数n进行环比、同比;还可以通过滑动窗口进行同比、环比等。其中,n是大于或者等于1的自然数。
条目访问量趋势特征数量庞大,在一种实施方式中,通过以下方法自动组合这些特征:
示例1,利用公式(2)构造特征集:
其中,k是大于或等于0的整数;pv表示pageview(页面浏览),即页面访问量,该特定条目的页面每打开一次页面pv计数加1。pvi表示该特定条目第i天的页面访问量,即一定意义上反映第i天的访问量;pvi-k表示第i-k天该特定条目的页面访问量,也就是k天前该特定条目的页面访问量,一定意义上反映该条目k天前的访问量。
特别的,当k=1、7、30、365时,公式(2)能够分别表示与昨天、上周、上月、去年同期访问量的比值,这些都从某种程度上反映出访问量变化的趋势。
示例2,可以利用公式(3)构造特征集:
其中,
在这种实施方式构造的条目访问量趋势特征集中,k和m都可以表示任意数值。可以通过调整m和k的数值来反映特定时间段的访问量变化趋势。特别的,当m=1时,featureikm=featureik;当例如m=7,k=7、30、365,则表示最近一周的访问量值和前一周、前一月、前一年同期访问量的比值;当例如m=30,k=30、365、365*2、365*3,则表示最近一月的访问量值和上月、去年同期、前年同期访问量的比值。这些数值组合能更丰富地反应出访问量变化的趋势。
应理解,以上对m和n的数值示例仅为举例,本实施例也可以根据实际需要采用任意其他数值。
3.多特征融合趋势特征挖掘
如下图所示,生产实践中,访问量特征是随市场营销、广告、用户条目行为等多特征影响而变化的。本发明先对多个特征进行融合,然后对融合后的特征的趋势进行挖掘,构造出新特征。多特征融合趋势示意图如图3.1所示。
多特征融合趋势挖掘的示例步骤如下:
第1步,将多个基本特征进行融合得到新特征。
如图4所示,在该步骤中,对前文提到的用户行为类特征、市场营销类特征、访问量趋势类特征、广告类特征等基本特征进行融合处理,得到新特征。优选地,融合处理可以采用embedding算法。图4对基本特征应用embedding算法实现降维,得到降维后的n维新特征。n为大于或等于1的自然数。
第2步,参照前文访问量趋势特征挖掘中的方法,以embedding算法为例对融合后的特征进行挖掘获得新的趋势特征。
其中,embedding_featurei表示第i天的融合特征,embedding_featurei-k表示k天前的融合特征。
4.特征组合与特征交叉。
通过将海量特征进行交叉与组合,直接构造出新特征,组合出的特征也能反应出数据本身蕴含的信息。特征组合与特征交叉将两个或更多类别的特征组合成起来。根据实际需要,当组合的特征要比单个特征更有利于构建模型时,可以选用组合或交叉后的特征。可以用各种常用的方法进行交叉,例如可以对待组合类别的特征值进行交叉相乘。
返回图2,继续步骤s205:特征确认。
特征挖掘成功之后,还需要进行特征确认,以保证挖掘出的特征是高质量特征。
在一种实施方式中,通过构造损失函数来进行特征确认。综合考虑多个方面的因素构建损失函数,该损失函数能反应出新挖掘出的特征拟合效果好坏。此外,通过对特征进行拟合,不断优化损失函数,输出特征重要性比较高的特征。构建损失函数的方法例如公式(5)所示:
如公式(5)所示,其中j表示损失函数,ji表示函数的第i个因子,wi表示ji的权重。
公式(5)中,j1和j2的计算分别利用了r2_score和rmspe回归分析算法。
·r2_score,回归分析的一种常用的评测指标,计算公式为
·rmspe,回归分析的一种常用评测指标,计算公式为
图5是根据本发明实施例的确定特定时刻所述条目被访问的访问量集合的主要流程的示意图,如图5所示,该过程的主要流程包括步骤s501、s502和s503。
步骤s501:构造候选模型。
构造候选模型过程可以使用任何常用的预测算法,如基于时间序列方法,指数平滑法、arima;基于深度学习的lstm、wavenet;基于回归的广义线性回归、lasso;基于树模型的gbdt、xgboost等,以上仅为示例。在构造候选模型过程中,利用不同的预测算法构建出多个候选模型。
步骤s502:对所构造的候选模型进行优化以生成优化的候选模型。
生成多个基础模型之后,对基础模型进行融合,提升模型的确定效果。经过模型融合能够构建出最适合实际使用需求的模型,从而利用该融合后的模型获得特定时刻该条目的访问量。特定时刻可以是未来的时刻,例如n天后(n为大于或等于1的自然数)。
模型融合的具体实现方式有很多种,例如对各个模型能够获得的结果值进行加权平均得到融合后模型的结果值;利用stacking或blending等融合算法进行融合。图6示意性图示了利用stacking融合算法对基础模型进行融合,然后利用融合后的模型生成条目访问量的过程。
在图6中,lstm、arima、lasso、gbdt都是访问量算法示例,stacking是模型融合算法示例。替选地,也可以使用任何其它能够实现确定访问量和模型融合的算法。
需要注意的是,步骤s502是优选的步骤,即使不包括步骤s502,在后面的步骤中直接利用步骤s501生成的多个候选模型进行确定,也可以实现本发明的确定条目访问量的目标。
步骤s503:验证候选模型。
在步骤s503中,对所生成的候选模型进行验证。
图7是根据本发明实施例的选择第一访问量作为所述特定时刻所述条目被访问的访问量的主要流程的示意图,如图7所示,该过程包括评估选择,主要包括步骤s701和s702。
在一种实施方式中,对于图1中的步骤s102中利用所述一个或多个特征确定特定时刻,例如n天后,所述条目被访问的访问量。所得到的访问量可以是多个值。在n天后对n天前这些模型获得的多个访问量进行评估。根据评估指标,从多个候选模型中为该特定条目挑选出最好的模型,作为最佳模型用于确定特定时刻的确定条目访问量,并将最终确定的条目访问量推送给下游系统。n为大于或等于1的自然数。
在一种实施方式中,评估选择过程包括指标监控评估、模型选择两个子步骤。
步骤s701:指标监控
在该子步骤中实现指标的监控过程。
具体而言,在本发明的实施例中,监控指标主要可以包含模型评估指标、业务效果评估指标。模型评估指标主要从模型角度衡量确定效果的好坏,业务评估指标主要衡量最终的业务效果。模型评估指标主要有r2_score、rmspe等。利用这一类监控指标对步骤s102生成的多个候选模型进行评估。
需要特别说明的是,在生成特定条目的访问量确定结果之后,优选地包括业务效果评估子步骤。基于业务效果的监控指标,包括例如与条目对应的实体订单量、条目实体gmv(grossmerchandisevolume,网站成交金额)、条目转化率等。基于业务效果的评估指标是应用在确定条目访问量之后,业务方在智能定价、资源分配等业务领域进行调整(例如为特定条目调价、增加特定条目的广告等),此时依据业务效果评估指标统计该特定条目的销售额、转化率,使得业务方能够评估确定条目访问量为业务价值带来的提升效果。
步骤s702:模型选择
在该步骤中,实现模型选择的过程。
受营销外部因素、内部经营指标的影响,同一条目不同模型的确定效果有波动。模型选择过程根据评估指标逐日对该特定条目的模型确定效果进行比较,选取确定效果最好的模型。选择的方法例如可以根据r2_score、rmspe的值进行选择,例如选择满足r2_score最大同时rmspe最小的模型。
图8是根据本发明实施例的确定条目访问量的装置模块和模块间数据流的示意图,如图8所示,确定条目访问量的装置模块主要包括801特征挖掘模块、802确定模块和803监控模块。
需要说明的是,图8的系统模块图针对的是业务方网站中的多个条目,例如零售业业务方的电商网站。具体而言,在前文所述针对特定条目进行访问量确定获得特定条目在未来特定时刻的访问量后,可以迭代地应用前文所述方法,对每个条目,或多个条目进行访问量确定,获得条目集合中的条目的访问量,作为网站的重要指标。其中用于确定特定条目访问量的模块主要包括模块801、模块802和模块803。
模块801特征挖掘模块:本模块主要实现特征搜集、特征挖掘、特征确认几个功能,针对指定条目范围的特定条目,基于历史基础数据执行特征处理。包括特征搜集单元、特征过滤单元、特征挖掘单元和特征确认单元。每个单元分别用于:
特征搜集单元:用于搜集待过滤的特征;
特征过滤单元:用于对海量特征进行过滤,剔除相关性低的特征,降低模型复杂度;
特征挖掘单元:用于通过对基本特征的深入挖掘,构造出高阶高质量特征。具体包括例如条目价格力特征挖掘、多特征融合趋势特征挖掘、特征组合与特征交叉等;
特征确认单元:用于在特征挖掘成功之后进行特征确认,以保证挖掘出的特征是高质量特征。
模块802确定模块:本模块用于基于特征处理的结果,执行确定以利用多个模型生成特定时刻多个条目被访问量。该模块包括确定单元、优化单元和验证单元。每个单元分别用于:
确定单元:用于构造候选模型;
优化单元:用于对所构造的候选模型进行优化以生成经优化的候选模型;
验证单元:用于对所生成的候选模型和/或经优化的候选模型进行验证。
模块803监控模块:针对所述特定条目,基于所述历史基础数据对初步生成的多个条目访问量进行评估选择,以生成所述特定条目在特定时刻的最终访问量。监控模块主要包括评估指标单元、模型选择单元、确定实体集合单元,每个单元分别用于:
评估指标单元:本单元维护评估指标参数。在一种实施方式中,包括但不限于模型评估指标和业务评估指标。模型评估指标主要从模型角度衡量确定效果的好坏,业务评估指标主要衡量最终的业务效果。本单元用于根据评估结果选择最佳模型并且评估利用最佳模型生成的特定条目的访问量获得的业务效果;
模型选择单元:模型选择过程根据评估指标逐日对特定条目的模型确定特定时间访问量的效果进行比较,选取效果最好的模型;
优选地包括确定条目集合单元:需要特别说明的是,在对特定条目进行访问量确定的流程中不包含本单元涉及的步骤。如前文所述,在将系统应用于整个网站的多个条目时,需要迭代地进行每个条目的访问量确定。那么需要在生成每个条目的访问量之后,对条目进行筛选以获取某个条目集合。例如选取每个sku模型确定效果最好的几个模型,并根据监控指标进行筛选,获得最终条目集合,例如高访问量条目集合。在一种实施方式中,例如,要求r2_score>=0.3;表示只挑选能相对准确确定条目访问量值的条目,假如某个条目的n个模型确定效果都不好(r2_score<0.3),则这个条目就不包含在最终条目集合中。
图9示出了可以应用本发明实施例的确定条目访问量的方法的示例性系统架构900。
如图9所示,系统架构900可以包括终端设备901、902、903,网络904和服务器905。网络904用以在终端设备901、902、903和服务器905之间提供通信链路的介质。网络904可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备901、902、903通过网络904与服务器905交互,以接收或发送消息等。终端设备901、902、903上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备901、902、903可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器905可以是提供各种服务的服务器,例如对用户利用终端设备901、902、903所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理,并将处理结果(例如目标推送信息、条目信息,仅为示例)反馈给终端设备。
需要说明的是,本发明实施例所提供的确定条目访问量的方法一般由服务器905执行,相应地,确定条目访问量的装置一般设置于服务器905中。
应该理解,图9中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
下面参考图10,其示出了适于用来实现本发明实施例的终端设备的计算机系统1000的结构示意图。图10示出的终端设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图10所示,计算机系统1000包括中央处理单元(cpu)1001,其可以根据存储在只读存储器(rom)1002中的程序或者从存储部分1008加载到随机访问存储器(ram)1003中的程序而执行各种适当的动作和处理。在ram1003中,还存储有系统1000操作所需的各种程序和数据。cpu1001、rom1002以及ram1003通过总线1004彼此相连。输入/输出(i/o)接口1005也连接至总线1004。
以下部件连接至i/o接口1005:包括键盘、鼠标等的输入部分1006;包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分1007;包括硬盘等的存储部分1008;以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至i/o接口1005。可拆卸介质1011,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1010上,以便于从其上读出的计算机程序根据需要被安装入存储部分1008。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1009从网络上被下载和安装,和/或从可拆卸介质1011被安装。在该计算机程序被中央处理单元(cpu)1001执行时,执行本发明的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、rf等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的或模块也可以设置在处理器中,例如,可以描述为:一种处理器包括特征挖掘模块、确定模块、监控模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,特征挖掘单元还可以被描述为“基于历史基础数据对特征进行挖掘的模块”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:
基于历史基础数据获得与所述条目相关联的一个或多个特征;
利用所述一个或多个特征确定特定时刻所述条目被访问的访问量集合;以及
基于所述历史基础数据从所述访问量集合中选择第一访问量作为所述特定时刻所述条目被访问的访问量。
根据本发明实施例的技术方案,针对条目粒度从各类特征中挖掘出高质量特征,提高训练效果;构建条目价格力指数,显著提升确定条目访问量的效果;实现基于条目粒度的访问量确定以有效提升诸如零售业的与条目对应的实体定价、库存管理等业务的智能决策能力。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。