一种基于移动互联网的数据过滤及内容评价方法和系统与流程

文档序号:31713164发布日期:2022-10-04 20:24阅读:86来源:国知局
一种基于移动互联网的数据过滤及内容评价方法和系统与流程

1.本发明涉及互联网数据处理技术领域,具体为一种基于移动互联网的数据过滤及内容评价方法和系统。


背景技术:

2.近年来,随着移动设备的成熟和普及,移动互联网呈现爆发式发展的趋势。各大公司和开发者都争相投入到移动开发的热潮。同时,移动应用的开发技术也随之有了迅速的发展。当前在手机等移动终端上应用搜索引擎通过移动网络进行搜索时,需要使用一定的数据流量。然而,在现在的条件下,网络服务提供商对使用者使用数据流量的收费较高,对于使用者而言负担比较大。更加重要的是,现有移动网络的网络性能指标往往不高,同时网络内容服务商提供的网络内容的数据量越来越大,使用网络搜索的客户端需要与服务器交换的数据包的数量逐渐增长,所以,使用现有的搜索服务,所使用的移动网络流量大,使用者需要等待搜索结果加载和显示的等待时间长。
3.同时由于移动终端用户数量庞大,要发送的消息内容的类型却有限,因此通常将一个优先信息发送到多个用户,而对于每个用户,由该用户获取的优先信息通常与该用户的实际需要不匹配。结果,在获取优先信息时,所有用户通常将选择丢弃所获取的优先信息。这不仅降低了信息搜索过程的有效性,而且还将进一步降低用户体验,从而还降低了用户的注意力。
4.例如现有技术中,专利文献cn114205151a公开了一种基于多特征融合学习的http/2页面访问流量识别方法。该方法首先对目标http/2站点在典型用户交互过程中产生的主页访问流量以及资源响应流量进行采集;对流量数据进行预处理后得到完整的tcp流;一方面使用自编码网络捕获主页访问流量的内容分布规则特征,另一方面使用递归神经网络识别资源响应流量的主体资源类别;进一步将内容分布规则特征和主体资源类别特征进行融合拼接,输入到卷积神经网络模型中,得到站点页面识别结果。该技术方案利用多条数据流作为指纹提取的基本单位,通过深度学习方法对不同类型数据流进行特征提取,并融合多特征对目标站点进行充分表征,识别精度虽高,但是前期缺少对访问流量数据的过滤,造成识别运算量过大,运算时间长。
5.再例如专利文献cn103607322a公开了一种网站流量数据分析方法及装置。根据分析请求获取访问流量数据和搜索引擎数据;从搜索引擎数据与搜索引擎数据中提取关键词属性;将关键词属性按照预设条件进行比对分析得到分析结果。该技术方案虽然解决了现有技术中对网站各项参数的分析不准确的问题,通过访问流量数据和搜索引擎数据之间的关系定量的对网站数据进行解读,但是该技术方案缺少信息过滤及匹配的过程,造成系统负荷较重,提高了组网复杂性。


技术实现要素:

6.为了解决上述技术问题,本发明提出了一种基于移动互联网的数据过滤及内容评
价方法,包括如下步骤:
7.s1,监控访问移动互联网的移动终端用户发送访问请求时发送的数据包;
8.s2,监测移动终端用户向真实服务器地址发送的网页访问请求时的流量数据,对流量数据进行分析,得出流量特征;
9.s3,将流量特征表示拼接起来作为每条请求流量数据的最终特征表示,输入到特征流量检测模型以进行数据流量正常与否的判断,并过滤不正常的数据流量;
10.s4,对正常的网页访问请求的内容进行相似度评价;具体包括:
11.s401、对正常的网页访问请求的内容进行平滑填充,使得请求的内容长度达到规定值;
12.s402、对标准长度的请求内容r进行分解:
13.r=t+q+ul+d;
14.q代表流量特征,ul代表网址,t代表请求内容的标题,d为标准长度的请求内容r中除q、ul、t之外的其他内容;
15.将标准长度的请求内容r表示为2
×
2维的矩阵[r]:
[0016][0017]
s403、将待发送网页内容送入推荐单元,并将待发送网页内容按照步骤s401和s 402进行分解,得到待发送网页内容矩阵;
[0018]
s404、计算矩阵[r]与待发送网页内容矩阵i的相似度si为:
[0019][0020]
其中,s
it
表示两个矩阵间标题的相似度,s
iq
表示两个矩阵间流量特征的相似度,s
iul
表示两个矩阵间网址的相似度,s
id
表示两个矩阵间其他内容的相似度;
[0021]
s5,根据相似度从大到小的顺序构造待发送网页队列,取队列前几位的待发送网页内容向移动终端用户进行发送。
[0022]
进一步地,所述步骤s1具体包括如下步骤:
[0023]
s101、调用socket函数在监控单元设置套接口捕获数据包;
[0024]
s102、调用ioctl函数,使建立连接的套接口能够捕获到数据包;
[0025]
s103、从套接口循环地读取数据包;
[0026]
s104、提取请求数据包中携带的真实服务器地址数据。
[0027]
进一步地,所述步骤s2中,对流量数据进行分析得出流量特征,具体包括:
[0028]
将目标节点i的流量数据hi与邻居节点j的流量数据hj线性变换后的特征表示拼接,然后由权重向量α进行参数化,并输入到非线性激活函数lrelu,则输出未归一化的注意力互相关系数e
i,j

[0029]ei,j
=lrelu(α(hi||hj))
ꢀꢀ
(1);
[0030]
对每个目标节点i与其邻居节点j∈ni分别计算注意力互相关系数α
i,j
,其中ni为目标节点i的邻居节点集合;
[0031]
对所述注意力互相关系数e
i,j
进行归一化操作:
[0032][0033]
其中,α为权重向量,α
i,j
为归一化值;
[0034]
基于归一化值α
i,j
对邻居节点的流量数据进行加权线性组合从而得到新的节点的流量数据h
′i表示:
[0035][0036]
其中,σ为平衡系数;
[0037]
求解每个新的节点流量数据之间的差异来得到流量特征表示s
′i,
[0038][0039][0040]
其中,h
′j表示邻居节点j作为目标节点时进行加权线性组合从而得到新的节点的流量数据,α

i,j
表示基于新的节点的流量数据h
′i和h
′j计算得到的新归一化值,ε为线性系数。
[0041]
进一步地,所述步骤s3中,所述特征流量检测模型表示为:
[0042]
y=softmax((h
′i||s
′i)+b)
ꢀꢀ
(5);
[0043]
其中,softmax为逻辑回归函数,b表示偏置项,y为特征流量检测模型的预测值;
[0044]
利用交叉熵损失函数l优化特征流量检测模型,计算预测值y和真实值y之间的差异,如下所示:
[0045]
l=-(y
·
log y+(1-y)
·
log(1-y))
ꢀꢀ
(6);
[0046]
若l不大于阈值,则表示该特征流量所代表的网页访问请求正常,若l大于阈值,则表示该特征流量所代表的网页访问请求不正常,则将该流量数据过滤。
[0047]
本发明还提出了一种基于移动互联网的数据过滤及内容评价系统,用于实现前述的数据过滤及内容评价方法,包括:数据包监控单元、流量数据获取单元、过滤单元、推荐单元;
[0048]
所述数据包监控单元,用于监控访问移动互联网的移动终端用户发送访问请求时发送的数据包;
[0049]
所述流量数据获取单元,用于监测移动终端用户向真实服务器地址发送的网页访问请求时的流量数据,对流量数据进行分析,得出流量特征;
[0050]
所述过滤单元,用于将流量特征表示拼接起来作为每条请求流量数据的最终特征表示,输入到特征流量检测模型以进行数据流量正常与否的判断,并过滤不正常的数据流量;
[0051]
所述推荐单元,用于对正常的网页访问请求的内容进行相似度评价,根据相似度从大到小的顺序构造待发送网页队列,取队列前几位的待发送网页内容向移动终端用户进行发送。
[0052]
进一步地,所述推荐单元包括:特征提取模块、相似度计算模块、排序模块、发送模
块;
[0053]
所述特征提取模块,用于对正常的网页访问请求的内容进行平滑填充,使得请求的内容长度达到规定值,并对标准长度的请求内容进行分解,提取特征;
[0054]
所述相似度计算模块,用于对送入推荐单元的待发送网页内容与访问请求的内容进行相似度计算;
[0055]
所述排序模块,根据相似度从大到小的顺序构造待发送网页队列;
[0056]
所述发送模块,取队列前几位的待发送网页内容向移动终端用户进行发送。
[0057]
进一步地,所述数据过滤及内容评价系统还包括前端队列单元,负责接收移动终端用户的请求,把请求的消息放入前端消息队列缓存等待后端发送处理。
[0058]
相比于现有技术,本发明具有如下有益技术效果:
[0059]
1、通过调用socket函数和ioctl函数,实现准确循环地对访问移动互联网的移动终端用户发送的数据包的监控。
[0060]
2、监测移动终端用户向真实服务器地址发送的网页访问请求时的流量数据,对采集到的流量数据进行格式归一化预处理,对预处理后的流量数据构建流量数据图,将流量特征表示拼接起来作为每条请求流量数据的最终特征表示,进行数据流量正常与否的判断,能够实现对不正常的数据流量的过滤。
[0061]
3、对正常的网页访问请求的内容进行平滑填充,成为标准长度的请求内容,并对标准长度的请求内容进行分解,计算内容矩阵与待发送网页内容矩阵的相似度,根据相似度si从大到小的顺序构造待发送网页队列,取队列前几位的待发送网页内容向移动终端用户进行发送。
附图说明
[0062]
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0063]
图1为本发明的基于移动互联网的数据过滤及内容评价方法的流程图;
[0064]
图2为本发明的流量数据图的一个实施例示意图;
[0065]
图3为本发明的基于移动互联网的数据过滤及内容评价系统的结构图。
具体实施方式
[0066]
为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
[0067]
在本发明的具体实施例附图中,为了更好、更清楚的描述系统中的各元件的工作原理,表现所述装置中各部分的连接关系,只是明显区分了各元件之间的相对位置关系,并不能构成对元件或结构内的信号传输方向、连接顺序及各部分结构大小、尺寸、形状的限定。
[0068]
如图1所示,为本发明的基于移动互联网的数据过滤及内容评价方法的流程图,包括如下步骤:
[0069]
s1,监控访问移动互联网的移动终端用户发送访问请求时发送的数据包。利用监控单元实现监控数据包的过程具体包括:
[0070]
s101、调用socket函数在监控单元设置套接口捕获数据包。
[0071]
socket函数是一种可用于根据指定的地址、数据类型和协议来分配套接口及其所用资源的函数,其表现为:socket(int af,int type,int protocol);
[0072]
int af代表地址描述参数,仅支持af_inet格式,即arpa internet地址格式。
[0073]
int type:代表套接口类型的描述参数。
[0074]
int protocol:代表套接口所用的协议参数。如调用者不想指定套接口所用的协议参数,可用0代替,表示缺省。
[0075]
如果socket函数调用成功,代表套接口类型的描述参数就作为socket函数的返回值,假如返回值为-1,就表明有错误发生,则重新分配套接口。
[0076]
s102、调用ioctl函数,使建立连接的套接口能够捕获到数据包。
[0077]
ioctl函数是设备驱动程序函数,用于对设备的i/o通道进行管理,在本实施例中,调用ioctl函数用于驱动建立连接的套接口,进行数据包捕获。
[0078]
ioctl函数的表现为:ioctl(int fd,int cmd,

);
[0079]
其中int fd是移动终端用户打开建立连接的套接口时使用open函数返回的文件标示;int cmd是移动终端用户对建立连接的套接口的控制命令参数;后面的省略号,代表其他需要补充的参数。
[0080]
s103、从套接口循环地读取数据包。
[0081]
套接口建立以后,建立数据帧的缓冲区,并把帧头结构的指针指向这一缓冲区的首地址,则可以从中循环地读取数据包。
[0082]
s104、提取请求数据包中携带的真实服务器地址数据。
[0083]
s2,监测移动终端用户向真实服务器地址发送的网页访问请求时的流量数据,对流量数据进行分析,得出流量特征。具体包括:
[0084]
在进行流量数据监测的过程中,首先采集移动终端用户向真实服务器地址发送的网页访问请求时的流量数据。对采集到的流量数据进行格式归一化预处理,对预处理后的流量数据构建流量数据图。
[0085]
该流量数据图以单条网页访问请求时的流量数据为节点,并在共享相同目的服务器地址与目的端口,或共享相同通信模式的节点之间连边,存在边相连的节点称为邻居节点。
[0086]
考虑到能从单条流量数据中获取的消息非常有限,将邻居节点的特征通过流量数据图有权重地聚合到目标节点,将更加丰富的节点特征输入到流量数据图,从而实现了特征流量检测模型的构建,具体构建方法如下所示:
[0087]
首先将目标节点i的流量数据hi与邻居节点j的流量数据hj线性变换后的特征表示拼接,然后由权重向量α进行参数化,并输入到非线性激活函数lrelu,则输出未归一化的注意力互相关系数e
i,j

[0088]ei,j
=lrelu(α(hi||hj))
ꢀꢀ
(1);
[0089]ei,j
反映了邻居节点j对目标节点i的重要度,
[0090]
对每个目标节点i与其邻居节点j∈ni分别计算注意力互相关系数e
i,j
,其中ni为目标节点i的邻居节点集合。
[0091]
对该注意力互相关系数e
i,j
进行归一化操作,通过式(2)计算得到:
[0092][0093]
其中,α为权重向量,α
i,j
为归一化值。
[0094]
在流量数据图的构建过程中,每个节点的表示由自身节点及其邻居节点来共同表示。基于归一化值α
i,j
对邻居节点进行加权线性组合从而得到新的节点的流量数据h
′i表示:
[0095][0096]
其中,σ为平衡系数。
[0097]
通过求解每个新的节点流量数据之间的差异来得到流量特征表示s
′i,具体计算方法如下:
[0098][0099]
其中,h
′j表示邻居节点j作为目标节点时进行加权线性组合从而得到新的节点的流量数据,α

i,j
表示基于新的节点的流量数据h
′i和h
′j计算得到的新归一化值,ε为线性系数。
[0100]
如图2所示为流量数据图的一个实施例示意图,h1、h2、
……hi
为h
′i的邻居节点流量数据,h4、h5、
……hj
为h
′j的邻居节点流量数据,s
′i为新的节点流量数据h
′i和h
′j之间的差异,即流量特征表示。
[0101]
s3,将流量特征表示拼接起来作为每条请求流量数据的最终特征表示,输入到特征流量检测模型以进行数据流量正常与否的判断,并过滤不正常的数据流量。
[0102]
y=softmax((h
′i||s
′i)+b)
ꢀꢀ
(5);
[0103]
其中,softmax为逻辑回归函数,b表示偏置项,y为特征流量检测模型的预测值。
[0104]
利用交叉熵损失函数l优化特征流量检测模型,计算预测值y和真实值y之间的差异,如下所示:
[0105]
l=-(y
·
logy+(1-y)
·
log(1-y))
ꢀꢀ
(6);
[0106]
若l不大于阈值,则表示该特征流量所代表的网页访问请求正常,若l大于阈值,则表示该特征流量所代表的网页访问请求不正常,则将该流量数据过滤。
[0107]
s4,对正常的网页访问请求的内容进行相似度评价,具体包括如下步骤:
[0108]
s401、对正常的网页访问请求的内容进行平滑填充,使得请求的内容长度达到规定值。具体地,可使用流量特征q、网址ul、请求内容的标题t等内容进行填充,若请求的内容中已经包括流量特征q、网址ul、请求内容的标题t等内容,则可以采用空格进行填充。
[0109]
s402、对标准长度的请求内容进行分解,提取特征。
[0110]
对进行分解:
[0111]
r=t+q+ul+d;
[0112]
q代表流量特征,ul代表网址,t代表请求内容的标题,d为标准长度的请求内容r中除q、ul、t之外的其他内容。
[0113]
将标准长度的请求内容r表示为2
×
2维的矩阵[r],即:
[0114][0115]
当然,根据标准长度的请求内容r的分解方式的不同,可以扩展为n
×
n的矩阵。
[0116]
s403、将待发送网页内容送入推荐单元,并将待发送网页内容按照步骤s401和s 402进行分解,得到待发送网页内容矩阵。
[0117]
s404、计算矩阵[r]与待发送网页内容矩阵i的相似度si为:
[0118][0119]
其中,s
it
表示两个矩阵间标题的相似度,s
iq
表示两个矩阵间流量特征的相似度,s
iul
表示两个矩阵间网址的相似度,s
id
表示两个矩阵间其他内容的相似度。
[0120]
s5,根据相似度si从大到小的顺序构造待发送网页队列,取队列前几位的待发送网页内容向移动终端用户进行发送。
[0121]
如图3所示,为本发明的基于移动互联网的数据过滤及内容评价系统的结构示意图。基于移动互联网的数据过滤及内容评价系统包括:数据包监控单元、流量数据获取单元、过滤单元、推荐单元。
[0122]
数据包监控单元,用于监控访问移动互联网的移动终端用户发送访问请求时发送的数据包。
[0123]
流量数据获取单元,用于监测移动终端用户向真实服务器地址发送的网页访问请求时的流量数据,对流量数据进行分析,得出流量特征。
[0124]
过滤单元,用于将流量特征表示拼接起来作为每条请求流量数据的最终特征表示,输入到特征流量检测模型以进行数据流量正常与否的判断,并过滤不正常的数据流量。
[0125]
推荐单元,用于对正常的网页访问请求的内容进行相似度评价,根据相似度si从大到小的顺序构造待发送网页队列,取队列前几位的待发送网页内容向移动终端用户进行发送。
[0126]
推荐单元包括:特征提取模块、相似度计算模块、排序模块、发送模块。
[0127]
特征提取模块,用于对正常的网页访问请求的内容进行平滑填充,使得请求的内容长度达到规定值,并对标准长度的请求内容进行分解,提取特征。
[0128]
相似度计算模块,用于对送入推荐单元的待发送网页内容与访问请求的内容进行相似度计算。
[0129]
排序模块,根据相似度si从大到小的顺序构造待发送网页队列。
[0130]
发送模块,取队列前几位的待发送网页内容向移动终端用户进行发送。
[0131]
基于移动互联网的数据过滤及内容评价系统因为要应对大量移动终端用户的发送请求,需要保证系统在高并发消息请求时的稳定性。考虑稳定性的要求和方便系统扩展
升级,在优选实施例中,发送系统增加了前端队列单元,负责接收移动终端用户的请求。对于接收的众多请求,前端队列单元会把请求的消息放入前端消息队列,消息在前端消息队列中缓存等待后端发送处理。
[0132]
前端消息队列是一种分布式应用间交换信息的技术,负责把业务消息缓存在内容或磁盘中。前端消息队列一般是系统间模块的通信纽带,有助于对众多消息内容分层解耦,方便扩展升级系统各部分,而不影响系统其他部分的正常运行。
[0133]
通过前端消息队列还可以方便地实现系统中各模块功能业务的异步处理,前端业务消息可放入队列中缓存,不需要等待接收程序接收此消息,造成系统的阻塞。现在常见的消息队列方案有rabbitmq,redis,zeromq等等。
[0134]
在数据过滤及内容评价系统中,因为有的消息需要更即时地发送,有的则不要求及时性,所以需要对发送内容有优先级的设置。另一方面,为了对发送内容进行发送时刻的控制,可以控制发送内容在某个特定的时刻才发送给用户,即发送内容的定时发送功能。
[0135]
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本技术实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者通过所述计算机可读存储介质进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,dvd)、或者半导体介质(例如,固态硬盘(solid state disk,ssd))等。
[0136]
以上所述,仅为本技术的具体实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应以权利要求的保护范围为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1