一种网站中兴趣点数据的置信度的判定方法和装置的制造方法_3

文档序号:8943112阅读:来源:国知局
发明的一个可选实施例中,步骤202可以包括如下子步骤:
[0169] 子步骤S21,将标识同一对象的兴趣点名称设置为兴趣点名称集合;
[0170] POI数据一般都会标识一个对象,如一栋房子、一个商铺、一个邮筒、一个公交站 等。
[0171] 由于该对象的地址信息的准确性一般比较高,因此,在本发明实施例中,可以通过 将兴趣点地址进行归一化,判断兴趣点地址是否相同或相似;若是,则将兴趣点地址关联的 兴趣点名称设置为兴趣点名称集合。
[0172] 例如,"榆林榆阳肤施路今日潮大酒店隔壁东恒百货三楼"、"榆林榆阳区肤施路今 日潮隔壁东恒百货三楼第一营业部"、"榆林榆阳南门口东恒百货大楼3楼"和"陕西榆林南 门口东恒百货批发三楼"这4个兴趣点地址虽然形式上不完全相同,但是通过归一化可以确 定它们的地址都为"榆林市榆阳区东恒百货大楼三楼"。
[0173] 即其关联的"世界500强企业"、"中国平安保险公司"、"中国平安榆林分公司"和 "中国平安保险股份有限公司榆林分公司"为兴趣点名称集合。
[0174] 子步骤S22,从所述兴趣点名称集合中识别错误的第二目标兴趣点名称;
[0175] 在本发明实施例中,可以通过挖掘兴趣点名称的关键词来筛选错误的POI名称, 即第二目标兴趣点名称。
[0176] 在本发明的一个可选实施例中,子步骤S22进一步可以包括如下子步骤:
[0177] 子步骤S121,在所述兴趣点名称集合中的兴趣点名称选取关键词;
[0178] 在本发明实施例中,关键词可以为包含的信息量最大,体现兴趣点名称特征的词。
[0179] 在具体实现中,可以对兴趣点名称集合中的兴趣点名称进行分词处理,获得一个 或多个分词;
[0180] 查找分词在预设的兴趣点集合中的第一词频,该兴趣点集合为抓取到的网页中的 POI数据的集合,该POI数据的数量可以多达数千万,该第一词频是根据该数千万的POI数 据的名称统计。
[0181] 本发明实施例中,可以采用如下的一种或多种分词处理:
[0182] 1、基于字符串匹配的分词:是指按照一定的策略将待分析的汉字串与一个预置的 机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。
[0183] 2、基于特征扫描或标志切分的分词:是指优先在待分析字符串中识别和切分出 一些带有明显特征的词,以这些词作为断点,可将原字符串分为较小的串再来进机械分词, 从而减少匹配的错误率;或者将分词和词类标注结合起来,利用丰富的词类信息对分词决 策提供帮助,并且在标注过程中又反过来对分词结果进行检验、调整,从而提高切分的准确 率。
[0184] 3、基于理解的分词:是指通过让计算机模拟人对句子的理解,达到识别词的效果。 其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义 现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调 下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模 拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。
[0185] 4、基于统计的分词方法:是指,中文信息中由于字与字相邻共现的频率或概率能 够较好的反映成词的可信度,所以可以对语料中相邻共现的各个字的组合的频度进行统 计,计算它们的互现信息,以及计算两个汉字X、Y的相邻共现概率。互现信息可以体现汉字 之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一 个词。
[0186] 例如,对于上述兴趣点名称,可以切分如下分词:
[0189] 当第一词频最少时,其包含的信息量一般最大,则可以将同一个兴趣点名称中第 一词频最低的X个分词,作为兴趣点名称的关键词,其中,X为正整数。
[0190] 例如,对于上述兴趣点名称,可以提取如下关键词:
[0191]
[0192] 其中,"企业"、"公司"、"分公司"等词的第一词频较高,包含的信息量较少,仅表示 企业/公司身份,指向性不明确,不适宜作为关键词,"平安"等词的第一词频较较低,包含的 信息量较多,即常用的企业缩写名称,适宜作为关键词。
[0193] 需要说明的是,可以预先获取全国的省、市、县(区)、乡镇、道路等地址数据,创建 一个地址数据库。
[0194] 当分词与预设的地址数据匹配时,例如"中国"、"榆林"等等,为无效的关键词,可 以移除该分词。
[0195] 子步骤S222,依据所述关键词从所述兴趣点名称中识别错误的第二目标兴趣点名 称。
[0196] 在具体实现中,可以计算关键词在兴趣点名称集合中的第二词频,将第二词频最 低的Z个关键词所属的兴趣点名称作确定为正确的目标兴趣点名称,其中,Z为正整数。
[0197] 例如,对于上述兴趣点名称的关键词,"世界"的第二词频为1,"平安"的第二词频 为3, "世界"的第二词频较低,可以确认其所属的"世界500强企业"为错误的第二目标兴 趣点名称。
[0198] 子步骤S23,确定所述第二目标兴趣点名称所属的兴趣点数据为错误的第二目标 兴趣点数据。
[0199] 当POI的名称错误时,可以确认该POI为错误的POI。
[0200] 步骤203,统计归属同一个网站的第二目标兴趣点数据的第二数量;
[0201] 在实际应用中,可以查找第二目标兴趣点数据对应的URL,当所述第二目标兴趣点 数据对应的URL属于同一个网站的域名时,统计第二目标兴趣点数据的第二数量。
[0202] 例如,对于上述兴趣点数据的示例,"世界500强企业"、"中国平安保险公司"、"中 国平安榆林分公司"的URL属于同一个网站的域名"*#A",即这些兴趣点名称属于同一个 网站,这个网站的第二目标兴趣点数据的第一数量为1。
[0203] 步骤204,根据所述第二数量确定所述网站中兴趣点数据的置信度。
[0204] 在具体实现中,可以依据第二数量计算错误率,即二而数量与总数量的比值,如上 述域名为的网站的错误率为33. 33%。
[0205] 按照正确率确定网站中兴趣点数据的置信度,此时,置信度表征不可信度。
[0206] 在一个示例中,可以直接将正确率赋值给置信度;
[0207] 在另一个示例中,可以针对不同时间段的错误率配置权重,该权重按照时间衰减, 将配置权重的错误率按照求和等方式计算置信度。
[0208] 当然,上述置信度的计算方式只是作为示例,在实施本发明实施例时,可以根据实 际情况设置其他置信度的计算方式,本发明实施例对此不加以限制。另外,除了上述置信度 的计算方式外,本领域技术人员还可以根据实际需要采用其它置信度的计算方式,本发明 实施例对此也不加以限制。
[0209] 当置信度低于预设的第二阈值时,表明该网站的POI来源是不可信的,禁止从该 网站的网页提取兴趣点数据。
[0210] 本发明实施例从网页提取中的兴趣点数据中识别错误的第二目标兴趣点数据,并 统计归属同一个网站的第二目标兴趣点数据的第二数量确定网站中兴趣点数据的置信度, 从而在后续的操作中剔除这些错误的POI数据,降低了操作的错误率,减少了资源浪费。
[0211] 进而,根据置信度禁止从这些不可信的POI数据来源抓取POI数据,抓取到的POI 数据的正确性高,减少了计算机的系统资源和带宽资源的浪费,提高了 POI数据抓取效率。
[0212] 参照图3,示出了根据本发明一个实施例的一种网站中兴趣点数据的置信度方法 实施例3的步骤流程图,具体可以包括如下步骤:
[0213] 步骤301,在网页中提取兴趣点数据;
[0214] 步骤302,从所述兴趣点数据中识别正确的第一目标兴趣点数据和错误的第二目 标兴趣点数据;
[0215] 步骤303,统计归属同一个网站的第一目标兴趣点数据的第一数量和第二目标兴 趣点数据的第二数量;
[0216] 步骤304,根据所述第一数量和所述第二数量确定所述网站中兴趣点数据的置信 度。
[0217] 在本发明的一个可选实施例中,该方法还可以包括如下步骤:
[0218] 步骤305,当所述置信度高于预设的第一阈值时,允许从所述网站的网页提取兴趣 点数据;
[0219] 步骤306,当所述置信度低于预设的第二阈值时,禁止从所述网站的网页提取兴趣 点数据。
[0220] 在本发明的一个可选实施例中,步骤301可以包括如下子步骤:
[0221] 子步骤S31,查找针对网页配置的模板;
[0222] 子步骤S32,在所述网页中,依据所述模板指示的位置提取兴趣点数据。
[0223] 在本发明的一个可选实施例中,所述兴趣点数据包括兴趣点名称;步骤302可以 包括如下子步骤:
[0224] 子步骤S41,将标识同一对象的兴趣点名称设置为兴趣点名称集合;
[0225] 子步骤S42,从所述兴趣点名称集合中识别正确的第一目标兴趣点名称和错误的 第二目标兴趣点名称;
[0226] 子步骤S43,确定所述第一目标兴趣点名称所属的兴趣点数据为正确的第一目标 兴趣点数据;
[0227] 子步骤S44,确定所述第二目标兴趣点名称所属的兴趣点数据为错误的第二目标 兴趣点数据。
[0228] 在本发明的一个可选实施例中,所述兴趣点数据包括兴趣点地址;子步骤S41进 一步可以包括如下子步骤:
[0229] 子步骤S411,判断所述兴趣点地址是否相同或相似;若是,则执行子步骤S412 ;
[0230] 子步骤S412,将所述兴趣点地址关联的兴趣点名称设置为兴趣点名称集合。
[0231] 在本发明的一个可选实施例中,子步骤S42进一步可以包括如下子步骤:
[0232] 子步骤S421,在所述兴趣点名称集合中的兴趣点名称选取关键词;
[0233] 子步骤S422,依据所述关键词从所述兴趣点名称中识别正确的第一目标兴趣点名 称和错误的第二目标兴趣点名称。
[0234] 在本发明的一个可选实施例中,子步骤S421进一步可以包括如下子步骤:
[0235] 子步骤S4211,对所述兴趣点名称集合中的兴趣点名称进行分词处理,获得一个或 多个分词;
[0236] 子步骤S4212,查找所述分词在预设的兴趣点集合中的第一词频;
[0237] 子步骤S4213,将同一个兴趣点名称中第一词频最低的X个分词,作为所述兴趣点 名称的关键词,其中,X为正整数。
[0238] 在本发明的一个可选实施例中,子步骤S421进一步还可以包括如下子步骤:
[0239] 子步骤S4214,当所述分词与预设的地址数据匹配时,移除所述分词。
[0240] 在本发明的一个可选实施例中,子步骤S42
当前第3页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1