本发明属于通信技术领域,具体涉及一种基于动态信任模型的ip定位数据库可信度评估方法。
背景技术:
ip定位数据库被广泛应用于网络设备的ip地址到物理位置的映射。然而由于定位数据库存在地理位置属性值具有误差且更新不及时等问题,导致其对于部分ip地址无法提供准确的定位信息,影响定位数据库的可信度。
目前,在中国互联网上主流且定位效果较好的数据库有ip2location、纯真、ip138、新浪及淘宝等。这些定位数据库主要是利用cnnic(chinainternetnetworkinformationcenter,中国互联网络信息中心)的分配信息、运营商的ip地址部署信息、用户主动反馈的ip信息,通过应用程序获取或者参考其他ip地址定位库等方式构建,存在数据获取接口不一、数据呈现形式不同、定位精度不同,更新速度不同步,库间定位不一致等诸多问题,导致无法客观准确的评估各定位数据库的可信度。
技术实现要素:
本发明提供一种基于动态信任模型的ip定位数据库可信度评估方法,以克服现有技术的缺陷。
本发明提供了一种基于动态信任模型的ip定位数据库可信度评估方法,其步骤包括:
1)基于地理位置属性值对ip定位数据库的一致性进行分析;
2)基于ip定位数据库的当前行为和历史行为的一致性确定其直接可信度;
3)基于第三方实体的推荐信任度确定ip定位数据库的间接可信度;
4)基于ip定位数据库的直接可信度和间接可信度确定其综合可信度。
进一步地,步骤1)中首先基于动态信任模型分析ip定位数据库的地理位置属性值的一致性。将定位数据库定义为独立的实体,实体可以作为信任的主体,也可以作为信任的客体。系统中每一个实体都是相互独立的,特定时段内,信任主体与每一个信任客体进行交互评估,根据交互结果进行定位数据库的一致性分析。
进一步地,步骤2)根据所述信任主体和信任客体之间的交互行为,确定信任主体和信任客体之间的当前行为和历史行为,并根据所述当前行为和历史行为确定交互一致的先验概率和标准似然度,基于所述先验概率和标准似然度采用贝叶斯推理确定信任主体的直接可信度。
进一步地,步骤3)中实体的间接可信度是指基于第三方实体的间接推荐形成的信任度,可将其量化为实体a基于实体c的推荐概率而产生的对实体b在第n+1次评估行为中取得与实体a一致评估结果的概率估计。当实体a与实体b之间同时存在多条可获得间接信任值的路径时,对多条不同独立路径的间接可信度采用均值策略进行融合。
进一步地,根据所述信任主体和信任客体之间的直接可信度和间接可信度,采用权重分析法确定其综合可信度,并通过奖惩因子对综合可信度进行修正。
本发明的有益效果在于,实现了对于目前国内主流ip定位数据库在省级粒度上相对客观的可信度评估,并且能够准确,灵敏的反映定位数据库的可信度变化趋势。它具有如下优点:
1)本发明采用动态贝叶斯网络构建可信度评估模型,动态贝叶斯网络利用采集到的样本更新网络结构、先验分布及条件概率,该方法在推理过程具有前后连续性从而更符合客观世界。
2)本发明采用奖惩因子修正综合可信度,可有效提高正确度较高的数据源的信任度,降低正确度较低的数据源的信任值,通过奖惩机制实现了对信任模型的完善。
附图说明
图1为根据本发明一个实施例的ip定位数据库可信度评估方法的流程图;
图2为间接信任间的实体关系图;
图3为多条路径的间接信任实体关系图;
图4为定位数据库的直接可信度动态调整图;
图5为定位数据库的间接可信度动态调整图;
图6为定位数据库的综合可信度动态调整图。
具体实施方式
下面详细描述本发明的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
图1为根据本发明一个实施例的ip定位数据库可信度评估方法的流程图。本实施例提供的一种基于动态信任模型的ip定位数据库可信度评估方法,可基于地理位置属性值对ip定位数据库的一致性进行分析,并根据ip定位数据库当前和历史行为的一致性确定其直接可信度,同时基于第三方实体的推荐信任度确定其间接可信度,并基于ip定位数据库的直接可信度和间接可信度确定其综合可信度。下面具体说明各步骤。
步骤110,基于地理位置属性值对ip定位数据库的一致性进行分析。
具体地,将定位数据库定义为信任实体,将信任实体a与信任实体b之间的一致性分析定义为事件xab(i)。若信任实体a和信任实体b将ip地址解析为相同的地理位置属性值,则其一致性定义为一致,xab(i)取值为1;若信任实体a和信任实体b将ip地址解析为不同的地理位置属性值,则其一致性定义为不一致,xab(i)取值为-1;若其中一个信任实体的解析结果为空,则表示信任实体a和信任实体b之间的一致性分析失败,其一致性定义为无效,xab(i)取值为0。
步骤120,基于信任实体的历史行为和当前行为的一致性确定其直接可信度。
具体地,将信任实体a和信任实体b之间所有的历史行为表述为:
history:hab={xab(1),xab(2),…xab(n)}
其中xab(i)表示信任实体a和信任实体b之间第i次的一致性分析的交互行为,n表示信任实体a和信任实体b之间所有交互次数,若采用p表示所有一致性分析中信任实体a和信任实体b具有相同结果的次数,即交互一致的次数;则信任实体a和信任实体b之间交互一致的先验概率
信任实体a和信任实体b之间的一致性分析是独立的,则信任实体a和信任实体b之间所有的一致性分析中交互一致的标准似然度l(likelihood)为:
其中,h(history)表示信任实体a和信任实体b之间所有的历史行为;
已知先验概率和标准似然度,其后验概率分布为:
其中c1、c2表示贝塔分布函数的参数;
根据一阶统计的后验概率估计可表示为:
因此信任实体a和信任实体b之间第n+1次一致性概率,即实体a对实体b在第n+1次一致性分析中的直接可信度dtdab(directtrustdegree)为:
因为信任实体a和信任实体b在初次评估之前,可信度均匀分布在整个可信区间,因此将参数设置为c1=c2=1。
步骤130,基于第三方实体的间接推荐(推荐信任度)确定ip定位数据库的间接可信度。
具体地,间接可信度itd(indirecttrustdegree)是指通过第三方实体的间接推荐形成的信任度,将其量化为实体a基于实体c的推荐概率而产生的对实体b在第n+1次一致性分析中取得与实体a相同结果的概率估计,将实体a基于实体c的推荐得到实体b的间接可信度itd(a,b,c)量化为:
itd(a,b,c)=p(xab(n+1)=1|hac,hcb)
=p(xac(n+1)=1|hac)p(xcb(n+1)=1|hcb)
=racrcb(6)
其中hac表示实体a,c之间的一致性分析;hcb表示实体c,b之间的一致性分析;xab(n+1)表示实体a与实体b在第n+1次一致性分析行为,rac、rcb分别表示实体a对实体c的相对评价和实体c对实体b的相对评价,其推荐关系如图2所示。
当实体a与实体b之间同时存在多条可获得间接信任值的路径时,需对多条不同的独立路径的信任度进行融合,多条路径的间接信任实体关系如图3所示。
在初次评估之前,所有实体的间接可信度是等概率均分的,因此采用均值策略对多条不同的独立路径的信任度进行融合,将实体a基于第三方实体推荐而得到实体b的间接可信度itd(a,b)量化为
其中m表示除实体a之外其它所有第三方评估实体的总数。
步骤140,基于ip定位数据库的直接可信度和间接可信度确定其综合可信度。
具体地,综合可信度ctd由直接可信度和间接可信度共同决定,将其量化为:
ctdab=ωdtdab+(1-ω)itdab(8)
其中ω∈[0.5,1],它保证直接可信度的权重始终大于间接可信度的权重。这符合人类社会的认知习惯,人们总是优先相信自己的直接判断,尽可能地降低恶意推荐的风险。
上述信任模型具有一定的局限性。因为采用beta分布是基于bernoulli过程的,而bernoulli实验只有两种结果。在beta分布中,同一类型结果的信任度之间是无差别的,仅仅是数量的累积并不能真正反映推荐的结果,因而可以通过一定的奖励和惩罚机制来对信任模型进行完善,这样可提高正确度较高的数据源的信任度,降低正确度较低的数据源的信任值。因此可将综合可信度修正为:
其中rp(rewardsandpunishments)为奖惩因子,它由定位数据库的历史行为和当前行为共同确定。其中
本发明的实例:
为了验证本发明的有效性,我们采用目前中国互联网上5种主流且定位效果较好的定位数据库作为算法的定位数据库,包括ip2location、纯真、ip138、新浪和淘宝。
采集300个确定为北京市的ip地址将其作为算法的原始数据集。为了保证采集的ip地址其定位地址确定为北京市,我们首先选择了300家网络接入点确定为北京市的单位,包括国家政府机关,行政事业单位,科研机构及高校等;然后基于相应的域名反向解析获取其ip地址。为保证ip地址的有效性,基于中国互联网络信息中心cnnic的ip地址备案数据库对其进行验证;对于备案库中缺失的ip地址项,使用traceroute方法获取ip地址的路由信息,实现对ip地址定位信息的反向验证。验证的300个ip地址将作为算法的原始数据集。
我们将以30个ip地址作为示例,说明定位数据库交互评估行为的量化过程。首先将定位结果确定为北京市作为基准数据即信任主体,5个定位数据库作为信任客体。若信任客体与信任主体具有相同的地理位置属性值,则本次交互行为被定义为一致,xab(i)取值为1;若信任客体与信任主体具有不同的地理位置属性值,则本次交互行为被定义为不一致,xab(i)取值为-1。若信任客体返回值为空,则本次交互行为定义为失效,xab(i)取值为0。30个示例ip地址的交互评估行为xab(i)量化结果如表1所示。
表1.30个示例ip地址的交互评估行为xab(i)量化结果
信任主体在每轮与信任客体的交互评估行为结束之后,根据交互评估的结果,采用公式(5)动态更新各定位数据库的直接可信度。各定位数据库对300个原始ip地址直接可信度的动态调整过程如图4所示。图4表明各定位数据库的直接可信度初期调整幅度较大,但随着交互行为的增加,直接可信度趋于稳定。
将5个定位数据库分别作为信任主体,基于与其它定位数据库交互评估的一致性,获得其它定位数据库对该信任主体的第三方推荐信任度,即定位数据库的声誉。同样基于300个原始ip地址,各定位数据库的间接可信度调整过程如图5所示。图5表明定位数据库的间接可信度与直接可信度具有相似的变化趋势,均在交互初期具有较大的调整幅度,但随着交互行为的增加,间接可信度趋于稳定。且ip138,sina和chunzhen的间接可信度高于ip2locatoin和taobao。它表明ip138,sina和chunzhen三库保持一致的概率大于其它两个定位数据库。
综合可信度基于信任客体的历史行为、当前行为以及客体自身声誉进行动态更新,由直接可信度和间接可信度的加权平均确定。5个定位数据库分别对300个定位确定为北京市的ip地址进行解析,采用本文提出的动态信任模型对其产生的交互评估的结果进行处理,结果如图6所示。图6表明综合可信度与直接可信度具有相似的变化趋势,均在交互初期具有较大的调整幅度,但随着交互行为的增加,综合可信度趋于稳定。但值得注意的是,由于奖惩因子的引入,综合可信度的波动幅度远大于直接可信度。例如在对第65个ip地址112.125.157.134进行交互评估之后,ip138的综合可信度直接从0.95降低为0.82,而其对应的直接可信度只是从0.91下降为0.89,其调整幅度远小于综合可信度。因此综合可信度可以更加准确和灵敏的反应定位数据库的评估行为。
以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的精神和范围,本发明的保护范围应以权利要求书所述为准。