1.一种互联网信息收集及关联方法,其特征在于:包括以下步骤:
(1)构建指标体系:先根据某个个体的互联网信息确定各种分类指标信息并分别设定为x0*、x1*、x2*…xn*,这里的个体的互联网信息包括基本信息、行为信息和偏好信息;
(2)根据漏斗模型求目标集:设h(x)是顾客的样本空间(x0、x1、x2…xn),g(x)是假设空间(x0*、x1*、x2*…xn*),对于该个体的互联网信息,可以根据如下公式求出总得分值:
其中,ll(·)是指示函数,若·为真则取值1,否则取值0,
然后把不同得分值的个体分到不同的类别中去,把E=a,a[0,n],归为一个集合,记为Ea,然后画出得分值与有意愿个体数比例的x-y图;
设定有意愿个体数阀值为b*,大于b*的Ea留下,小于的b*的Ea剔除,得到关于E的集合O1,设定有意愿个体数比例阀值为c*,大于c*的Ea留下,小于的c*的Ea剔除,得到关于E的集合O2;令求得Oa;
(3)关联规则求目标集:包括以下步骤:
(3.1)找出所有频繁项集:频繁项集定义:项的集合称为项集,包含k个项的项集称为k-项集,项集的出现频率是包含项集的事务数,简称为项集的频率、支持计数或计数,如果项集满足最小支持度阀值,即项集的出现频率大于或等于支持度与数据库事务集合中的事务总数的乘积,则称它为频繁项集,频繁k-项集的集合记作Lk;利用Apriori算法找出所有频繁项集;
(3.2)由频繁项集产生关联规则,具体方法如下:
(3.2.1)对于每个频繁项集L,产生L的所有非空子集S;
(3.2.2)对于L的每个非空子集S,如果
P(L)/P(S)≧min_conf,
其中,P(L)是包含频繁项集L的事务数,P(S)是包含非空子集S的事务数,min_conf是最小置信度阈值,
则输出关联规则
其中,L-S表示在频繁项集L中除去非空子集S后的项集;
(3.2.3)找到与关联规则对应的个体集合Ob;
(4)获取最终目标集:O=OaUOb;
(5)输出目标集O=OaUOb。
2.根据权利要求1所述的互联网信息收集及关联方法,其特征在于:所述步骤(3.1)中,利用Apriori算法找出所有频繁项集的具体方法为:
(3.1.1)连接步:为找Lk,通过Lk-1与自己连接产生候选k-项集的集合,该候选项集的集合记作Ck,设l1和l2是Lk-1中的项集,记号li[j]表示li的第j项,假定事务或项集中的项按字典次序排序,执行连接其中,Lk-1的元素是可连接的,如果它们前(k-2)个项相同,即,Lk-1的元素l1和l2是可连接的,如果(l1[1]=l2[1])∧(l1[2]=l2[2])∧...∧(l1[k-2]=l2[k-2])∧(l1[k-1]<l2[k-1]),条件(l1[k-1]<l2[k-1])是简单地保证不产生重复,连接l1和l2产生的结果项集是l1[1]l1[2]...l1[k-1]l2[k-1];
(3.1.2)剪枝步:Ck是Lk的超集,即它的成员可以是也可以不是频繁的,但所有的频繁k-项集都包含在Ck中,扫描数据库,确定Ck中每个候选的计数,从而确定Lk,为压缩Ck,用以下方法使用Apriori性质:任何非频繁的(k-1)-项集都不可能是频繁k-项集的子集,因此,如果一个候选k-项集的(k-1)-子集不在Lk-1中,则该候选也不可能是频繁的,从而可以由Ck中删除。