一种互联网大数据分析提取方法与流程

文档序号:29080938发布日期:2022-03-02 00:02阅读:来源:国知局

技术特征:
1.一种互联网大数据分析提取方法,其特征在于,包括如下步骤:步骤1、根据数据的特点,将数据对象划分为不同的部分和类型,再进一步分析,得到所要提取的数据范围;步骤2、通过规定因变量和自变量来确定变量之间的因果关系,建立回归模型,并根据实测数据来求解模型的各参数,然后评价回归模型是否能够拟合实测数据,如果能够拟合,则根据自变量作进一步缩小所要提取的数据范围;步骤3、根据数据的特征属性将数据分成两个以上聚合类,每一个聚合类中的元素具有相同的特性,对所要抓取的数据进行分组;步骤4、采用相似匹配法来计算两个数据的相似程度;步骤5、将步骤1~步骤4中频繁出现的数据进行提取,根据数据的属性特征,用词频作为统计指标,表明数据所反馈的数据段信息;步骤6、根据数据段分解正则表达式对待分析数据中的数据段进行数据分解,生成数据项值,并将数据项值与数据段分解正则表达式对应的数据项名称列表进行关联,形成数据项名称与数据项值对应的中间数据对,根据数据统计规则,对中间数据对进行统计分析,得到数据分析结果。2.根据权利要求1所述的方法,其特征在于,步骤2包括:设定自变量数据对象为x={x1,x2,...,x
m
},其对应的因变量为y={y1,y2,...,y
m
},回归模型为:y=w0+w1x1+w2x2+

+w
m
x
m
+μ其中,x
m
、y
m
分别表示第m个自变量和第m个因变量;w={w0,w1,w2,...,w
m
}为回归系数集合,w
m
表示第m个回归系数,μ为随机误差,采用平方误差来衡量拟合的误差l(x):由得到:得到:是对w(回归系数)的参数估计值;通过局部加权线性回归,解决欠拟合问题,为误差增加权重w
i
,误差为:其中w是对角矩阵,采用高斯核,对应权重函数w(j,j)为:其中k表示高斯函数的方差,得到新的回归系数为:其中w=w
t
w。3.根据权利要求2所述的方法,其特征在于,步骤4中,要求不同分组的数据对象之间相似度低,同一个分组中的数据对象之间的相似度高,通过如下目标函数计算j:
其中,j是实测数据集中所有对象的平方误差之和,x
i
表示数据集中任意一个对象,u
j
是第j个聚合类c
j
的中心点,目标是让上述目标函数达到收敛。4.根据权利要求3所述的方法,其特征在于,步骤4中,所述相似匹配法包括平均指标和变异指标的计算、资料分布形态的图形表现,通过计算数据项之间的距离,衡量两个数据项之间的相似度,采用了欧氏距离、曼和顿距离、闵可夫斯基距离、夹角余弦距离综合考虑,计算公式如下:采用如下公式计算欧式距离d1(x
i
,x
j
):采用如下公式计算曼和顿距离d2(x
i
,x
j
):d2(x
i
,x
j
)=|x
i1-x
j1
|+|x
i2-x
j2
|+

+|x
id-x
jd
|采用如下公式计算闵可夫斯基距离d3(x
i
,x
j
):采用如下公式计算夹角余弦距离d4(x
i
,x
j
):其中x
i
={x
i1
,x
i2
,...,x
id
}∈r
d
和x
j
={x
j1
,x
j2
,...,x
jd
}∈r
d
表示数据项合集中的两个数据项样本,距离值越小表示样本的相似性越大,距离越大表示样本的相似性越小;i,j=1,2,3,...,n;x
id
表示第i个数据项样本x
i
的第d个值;r
d
表示维度为d的实数集;采用如下公式计算加权求和的距离d(x
i
,x
j
):d(x
i
,x
j
)=a1·
d1(x
i
,x
j
)+a2·
d2(x
i
,x
j
)+a3·
d3(x
i
,x
j
)+a4·
d4(x
i
,x
j
)其中a1,a2,a3,a4分别为对应欧氏距离、曼和顿距离、闵可夫斯基距离、夹角余弦距离权重值,取值范围[0,1],且a1+a2+a3+a4=1。5.根据权利要求4所述的方法,其特征在于,还包括获取站点首页,所述获取站点首页的方法包括:从网页页面的网址中取出域名地址,对域名地址进行跳转处理,得到网页页面对应的站点首页;通过全网网页页面的网址中逐一取出域名地址,进行去重处理后添加到域名地址集合中,对域名地址集合中的所有域名地址进行跳转处理,得到相对应的站点首页;或者,利用站点的首页样本集合,统计分析站点链接锚文本及网址样式特征构造首页分类器,利用首页分类器对网页页面进行分析,得到所有的站点首页。6.根据权利要求5所述的方法,其特征在于,还包括:获取网页页面对应的联系页,具体包括:利用站点的联系页样本集合,统计分析其链接锚文本、页面标题及网址样式特征构造联系页分类器,利用所述联系页分类器对所述网页页面进行分析,得到所有站点的联系信息页。

技术总结
本发明提供了一种互联网大数据分析提取方法,包括:步骤1、根据数据的特点,将数据对象划分为不同的部分和类型,得到所要提取的数据范围;步骤2、建立回归模型,并根据实测数据来求解模型的各参数,然后评价回归模型是否能够拟合实测数据,如果能够拟合,则根据自变量作进一步缩小所要提取的数据范围;步骤3、根据数据的特征属性将数据分成两个以上聚合类,每一个聚合类中的元素具有相同的特性,对所要抓取的数据进行分组;步骤4、采用相似匹配法来计算两个数据的相似程度;步骤5、用词频作为统计指标,表明数据所反馈的数据段信息;步骤6、得到数据分析结果。本发明利用基于嵌入映射的表征学习算法自动完成,计算效率高。计算效率高。计算效率高。


技术研发人员:陈大海 张冰 徐浩 葛卫春
受保护的技术使用者:中通服咨询设计研究院有限公司
技术研发日:2021.11.04
技术公布日:2022/3/1
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1