一种基于线程划分的数据采集方法及装置

文档序号:34369211发布日期:2023-06-05 00:18阅读:21来源:国知局
一种基于线程划分的数据采集方法及装置

本发明涉及电子数字数据处理,具体涉及一种基于线程划分的数据采集方法及装置。


背景技术:

1、随着大数据技术的不断发展,人们获取各种相关的数据可以通过大数据技术进行信息的采集,但是随着数据量越来越大,为了能够快速的获取相关的有用数据,需要对根据采集数据的类型对系统的线程进行划分。线程是系统进行运算调度的最小单位,也被称为轻量级进程,它包含在进程之中,是进程的实际运作单位。进程中可以包含多个线程,每个线程是进程中单一顺序的控制流,可以并行执行不同的任务,它可与同属一个进程的其它线程共享该进程所拥有的全部资源。因此为了提高获取数据的速度,本发明提出一种基于线程划分的数据采集方法。

2、在现有技术中,专利cn111090268a公布了一种线程划分的数据采集方法,通过将目标数据的特征进行格式转换,然后根据每个目标数据格式的特征与匹配数据格式的特征之间的特征生成每目标数据格式对应的格式转换协议,但是该方法在对线程进行规划时,未对数据之间的特征进行分析,因此所获得的线程划分并不是最优的,会加大服务器的计算量。


技术实现思路

1、本发明提供一种基于线程划分的数据采集方法及装置,以解决现有的问题。

2、本发明的一种基于线程划分的数据采集方法及装置采用如下技术方案:

3、本发明提供了一种基于线程划分的数据采集方法及装置,该方法包括以下步骤:

4、获取电商平台中每个用户的行为数据,包括用户的购物所需时间、浏览的商品种类数量以及商品价格;

5、根据用户购买商品时所有购物所需时间的平均值和所有商品的平均价格获取购物习惯特征量;

6、对所有用户的购物习惯特征量进行聚类,获得多个聚类簇,记为层次聚类簇,根据层次聚类簇中任意两个用户之间购物种类之间的差异获得购物决策差异系数;根据层次聚类簇中任意两个用户之间购物决策时间的差异获得购物决策差异因子;将购物决策差异系数对购物决策差异因子的乘积校正结果记为购物决策差异;

7、获取层次聚类簇中中所有用户的购物习惯特征量的方差,将购物习惯特征量的方差对购物习惯特征量的乘积校正结果记为购物习惯特征量的异常值,将购物习惯特征量的异常值的归一化结果记为消费行为异常程度;

8、根据任意两个用户之间消费行为异常程度的和值作为消费习惯关联性因子,根据任意两个用户的购物决策差异与消费习惯关联性因子之间的比例关系获得消费习惯关联性;

9、根据层次聚类簇中用户之间的消费习惯关联性的大小,对层次聚类簇中的用户再次进行聚类,将聚类后获得的聚类簇记为k-means聚类簇;

10、根据层次聚类簇和k-means聚类簇的数量进行线程划分,将所有层次聚类簇中的所有k-means聚类簇的数量作为子线程的总数量,主线程用于对应层次聚类簇中的所有用户进行行为数据采集和商品推荐,子线程用于对应k-means聚类簇中所有用户的行为数据采集和商品推荐。

11、进一步的,所述购物习惯特征量,获取方法如下:

12、

13、式中,t表示用户的购物习惯特征量,v表示用户在购买时所浏览商品的商品种类数量,表示用户在购买第i个商品时的购物所需时间,表示用户在购买第i件商品时的商品价格,n表示用户在电商平台上个购买商品的总数,表示用户购买商品需要的平均购买所需时间,表示购买商品的平均商品价格。

14、进一步的,所述购物决策差异,获取方法如下:

15、购物决策差异的获取方法如下:

16、

17、其中,表示任意聚类簇中第a个用户与第b个用户的购物决策差异,表示对应的聚类簇中第个用户的购物决策时间,表示对应的聚类簇中第个用户的购物决策时间,m表示对应聚类簇中包含用户的数量,表示第a个用户的购物种类数量,表示第b个用户的购物种类数量,q表示聚类簇中所有用户的所有购物种类数量,表示聚类簇中第a个用户的购物决策时间,表示聚类簇中第b个用户的购物决策时间。

18、进一步的,所述消费行为异常程度,获取方法如下:

19、

20、其中,表示第a个用户的消费行为异常程度,表示任意聚类簇中包含用户的数量,表示聚类簇中第a个用户的购物习惯特征量,表示聚类簇中所有用户的平均购物习惯特征量,表示第a个用户的用户购物习惯特征量与平均购物习惯特征量的差值,表示以自然常数为底的指数函数。

21、进一步的,所述消费习惯关联性,获取方法如下:

22、

23、其中,表示任意聚类簇中第a个用户与第b个用户的消费习惯关联性,表示聚类簇中第a个用户与第b个用户之间的购物决策差异,表示在聚类簇中第a个用户的消费行为异常程度,表示在聚类簇中第b个用户的消费行为异常程度,其中是预设超参数,为了防止分子分母为0,其取值为1。

24、进一步的,所述商品推荐,具体方法如下:

25、根据主线程或子线程中对应用户所浏览次数最多的商品种类,将属于同一商品种类的商品进行推荐。

26、进一步的,一种基于线程划分的数据采集装置,包括:网络设备装置、计算机处理器以及数据存储器,利用网络设备装置连接到互联网中,结合计算机处理器中的软件采集电商网络平台中用户的行为数据,并将采集的用户的行为数据利用数据存储器进行存储,利用计算机处理器根据上述方法步骤,处理分析用户的行为数据,并分配计算机处理器中的主线程和子线程;通过网络设备,将利用计算机处理器中的主线程和子线程对用户进行商品推荐的数据,发送到用户端。

27、本发明的技术方案的有益效果是:在对线程进行划分时,通过采集的数据之间的关系,来获得数据之间的相关系,因为本发明以消费数据为例,其中线程划分是根据所有的用户群体的消费行为习惯进行不同商品的推荐,在进行推荐时,因为用户数量巨大,如果根据每个用户的消费行为进行推荐,会导致服务器的数据计算量太大,因此通过对不同用户的消费习惯进行分析,根据不同用户之间的消费行为进行归类,使对消费行为相似的用户进行相似的商品推荐,进而在进行数据推广时能够减小服务器的数据负荷,避免数据服务器的数据量太大,造成线路拥堵。



技术特征:

1.一种基于线程划分的数据采集方法,其特征在于,该方法包括以下步骤:

2.根据权利要求1所述一种基于线程划分的数据采集方法,其特征在于,所述购物习惯特征量,获取方法如下:

3.根据权利要求1所述一种基于线程划分的数据采集方法,其特征在于,所述购物决策差异,获取方法如下:

4.根据权利要求1所述一种基于线程划分的数据采集方法,其特征在于,所述消费行为异常程度,获取方法如下:

5.根据权利要求1所述一种基于线程划分的数据采集方法,其特征在于,所述消费习惯关联性,获取方法如下:

6.根据权利要求1所述一种基于线程划分的数据采集方法,其特征在于,所述商品推荐,具体方法如下:

7.一种基于线程划分的数据采集装置,包括:网络设备装置、计算机处理器以及数据存储器,其特征在于,利用网络设备装置连接到互联网中,结合计算机处理器中的软件采集电商网络平台中用户的行为数据,并将采集的用户的行为数据利用数据存储器进行存储,利用计算机处理器实施权利要求1到权利要求6中任意一项所述的数据采集方法,处理分析用户的行为数据,并分配计算机处理器中的主线程和子线程;通过网络设备,将利用计算机处理器中的主线程和子线程对用户进行商品推荐的数据,发送到用户端。


技术总结
本发明涉及电子数字数据处理技术领域,具体涉及一种基于线程划分的数据采集方法及装置,包括:对获取的用户的行为数据进行分析,明确用户之间的特点和关系,将用户进行划分,将各类用户分配给不同的线程,确保用户之间的强关联性得到满足,最后根据用户聚类划分的类型进行线程的划分。本发明根据不同用户之间的消费行为进行归类,使对消费行为相似的用户进行相似的商品推荐,进而在进行数据推广时能够减小服务器的数据负荷,避免数据服务器的数据量太大,造成线路拥堵。

技术研发人员:李德安,明月,肖洋,周少娜
受保护的技术使用者:华南师范大学
技术研发日:
技术公布日:2024/1/13
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1