一种浏览器内核切换匹配库数据更新的方法和装置制造方法
【专利摘要】本发明公开了一种浏览器内核切换匹配库数据更新的方法和装置。涉及计算机【技术领域】。根据本发明的针对客户端主动切换内核的记录,进行解析,然后进行归并和筛选,根据筛选结果生对内核切换匹配库进行更新,可以解决现有技术中推出了一种可以切换内核的浏览器,用户可以在访问网页的过程中,浏览器根据匹配库的设置首先选择一个内核打开网页,但是该种预选的方式存在高概率的错误,用户经常需要手动切换。上述的匹配库由于网页与内核的对应关系是人为筛选,其错误率高、影响客户端对网页的展示,并且人工成本高昂的问题,取得了降低内核匹配错误率、降低后台人工分析成本的有益效果。
【专利说明】—种浏览器内核切换匹配库数据更新的方法和装置
【技术领域】
[0001]本发明涉及计算机【技术领域】,具体涉及一种浏览器内核切换匹配库数据更新的方法和装置。
【背景技术】
[0002]随着浏览器技术的发展,市场中存在越来越多的浏览器内核,但是对于不同的浏览器内核,其支持的网页格式存在不兼容,比如Chrome内核能够解析的网页,可能IE内核的不能够解析,为了解决该种情况,现有技术中推出了一种可以切换内核的浏览器,用户可以在访问网页的过程中,浏览器根据匹配库的设置首先选择一个内核打开网页,但是该种预选的方式存在高概率的错误,用户经常需要手动切换。上述的匹配库由于网页与内核的对应关系是人为筛选,其错误率高、影响客户端对网页的展示,并且人工成本高昂。
【发明内容】
[0003]鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的浏览器内核切换匹配库数据更新的装置和相应的浏览器内核切换匹配库数据更新的方法。
[0004]依据本发明的一个方面,提供了本发明公开了一种浏览器内核切换匹配库数据更新的方法,包括:
[0005]获取客户端切换内核后的切换记录;
[0006]解析每条切换记录,获得一条待筛选数据;所述待筛选数据包括各筛选参数,所述筛选参数包括URL、切换后的内核标识;
[0007]根据所述筛选参数对各待筛选数据归并;
[0008]基于内核切换匹配库对归并后的待筛选数据进行筛选,并基于筛选结果生成验证表;
[0009]基于所述验证表,更新所述内核切换匹配库。
[0010]可选地,所述根据所述筛选参数对各待筛选数据归并包括:
[0011]针对具有同一 URL的各待筛选数据,以所述内核标识为标准归并为一条待筛选数据,并在该条数据中记录对应内核标识的切换次数。
[0012]可选地,所述基于内核切换匹配库对归并后的待筛选数据进行筛选,并基于筛选结果生成验证表包括:
[0013]针对归并后具有同一 URL的各条待筛选数据,判断内核切换匹配库中是否有对应所述URL的记录;
[0014]如果没有对应所述URL的记录,则根据对应所述URL的各条待筛选数据在验证表中进行记录;
[0015]如果有对应所述URL的记录,则确认已经在内核切换匹配库记录的内核标识;
[0016]删除对应该被确认的内核标识的数据,并将除该被确认的内核标识之外的、切换次数大于第一阈值的各条待筛选数据在验证表中进行记录。
[0017]可选地,针对归并后具有同一 URL的各条待筛选数据,判断内核切换匹配库中是否有对应所述URL的记录包括:
[0018]解析所述URL,确定对应所述URL的主域名,匹配方式及对应的匹配方式的匹配子串;
[0019]根据对应所述URL主域名,选择内核切换匹配库中所有与所述主域名相同的所有记录;
[0020]在与所述主域名相同的所有记录中,在与对应所述URL的匹配方式相同的记录中,进行匹配子串的比较;如果匹配子串匹配上,判断内核切换匹配库中有对应所述URL的记录。
[0021]可选地,所述匹配方式包括:
[0022]主域名匹配方式、子网址匹配方式、字串匹配方式、正则表达式匹配方式其中的至少一个。
[0023]可选地,所述针对具有同一 URL的各待筛选数据,以所述内核标识为标准归并为一条待筛选数据,并在该条数据中记录对应内核标识的切换次数之后,还包括:
[0024]去掉切换次数小于第二阈值的归并后的待筛选数据。
[0025]可选地,所述筛选参数还包括:用户身份标识;
[0026]进一步的,所述根据所述筛选参数对各待筛选数据归并时还包括:
[0027]将指定时间段内,同一用户身份标识对同一 URL和同一内核标识的切换记录进行去重。
[0028]可选地,上述方法还进一步包括:
[0029]所述客户端在针对一 URL切换后,将URL、身份标识进行加密,与切换后内核标识一起构造切换记录,并发送至服务器。
[0030]可选地,基于所述验证表,更新所述内核切换匹配库包括:
[0031]根据所述验证表,确认最终待更新的URL记录,并基于所述待更新的URL记录,生成第一更新表;所述第一更新表的字段与所述内核切换匹配库的字段一致;所述字段包括:主域名、匹配子串、匹配方式、内核标识;
[0032]将所述第一更新表的待更新数据插入或者更新入所述内核切换匹配库。
[0033]可选地,所述将所述第一更新表的待更新数据插入或者更新入所述内核切换匹配库包括:
[0034]针对第一更新表的具有相同主域名的待更新数据,判断所述内核切换匹配库中是否存在相同的主域名的记录;
[0035]如果没有相同的主域名的记录,则直接将所述待更新数据插入内核切换匹配库;
[0036]如果有相同的主域名的记录,则将内核切换匹配库中所有所述主域名的记录以匹配方式为排序字段进行排序;
[0037]在排序后,根据所述待更新数据的匹配方式确定是否进行匹配子串的比较,如果需要,则根据比较结果判断是否将待更新数据插入或者更新入所述内核切换匹配库,如果需要,则根据比较结果判断是否将待更新数据插入或者更新入所述内核切换匹配库。
[0038]可选地,所述在排序后,根据所述待更新数据的匹配方式确定是否进行匹配子串的比较,如果需要,则根据比较结果判断是否将待更新数据插入或者更新入所述内核切换匹配库包括:
[0039]将所述待更新数据的匹配方式与所述排序字段进行比较,当匹配方式不同时,直接跳过内核切换匹配库中的该条数据;
[0040]当匹配方式相同时,则将所述待更新数据的匹配子串,与内核切换匹配库中的该条数据的匹配子串进行比较;
[0041]如果匹配子串相同,则判断内核标识是否相同;如果不同,则将内核切换匹配库中的更新为所述待更新数据的内核标识;如果相同,则不做处理;
[0042]如果待更新数据的匹配子串包含内核切换匹配库中的该条数据的匹配子串,则删除内核切换匹配库中的该条数据,插入待更新数据;
[0043]如果内核切换匹配库中的该条数据的匹配子串包含待更新数据的匹配子串,则判断内核标识是否相同,如果不同,则将内核切换匹配库中的更新为所述待更新数据的内核标识;如果相同,则不做处理。
[0044]依据本发明另一个方面,本发明公开了一种浏览器内核切换匹配库数据更新的装置,包括:
[0045]记录获取模块,适于获取客户端切换内核后的切换记录;
[0046]记录解析模块,适于解析每条切换记录,获得一条待筛选数据;所述待筛选数据包括各筛选参数,所述筛选参数包括URL、切换后的内核标识;
[0047]归并模块,适于根据所述筛选参数对各待筛选数据归并;
[0048]筛选模块,适于基于内核切换匹配库对归并后的待筛选数据进行筛选,并基于筛选结果生成验证表;
[0049]更新模块,适于基于所述更新表,更新所述内核切换匹配库。
[0050]可选地,所述归并模块包括:
[0051]第一归并模块,适于针对具有同一 URL的各待筛选数据,以所述内核标识为标准归并为一条待筛选数据,并在该条数据中记录对应内核标识的切换次数。
[0052]可选地,所述筛选模块包括:
[0053]URL判断模块,适于针对归并后具有同一 URL的各条待筛选数据,判断内核切换匹配库中是否有对应所述URL的记录;
[0054]第一记录模块,适于如果没有对应所述URL的记录,则根据对应所述URL的各条待筛选数据在验证表中进行记录;
[0055]内核标识确认模块,适于如果有对应所述URL的记录,则确认已经在内核切换匹配库记录的内核标识;
[0056]第二记录模块,适于删除对应该被确认的内核标识的数据,并将除该被确认的内核标识之外的、切换次数大于第一阈值的各条待筛选数据在验证表中进行记录。
[0057]可选地,所述URL判断模块包括:
[0058]第一解析模块,适于解析所述URL,确定对应所述URL的主域名,匹配方式及对应的匹配方式的匹配子串;
[0059]主域名选择模块,适于根据对应所述URL主域名,选择内核切换匹配库中所有与所述主域名相同的所有记录;[0060]第三记录模块,适于在与所述主域名相同的所有记录中,在与对应所述URL的匹配方式相同的记录中,进行匹配子串的比较;如果匹配子串匹配上,判断内核切换匹配库中有对应所述URL的记录。
[0061]可选地,所述匹配方式包括:
[0062]主域名匹配方式、子网址匹配方式、字串匹配方式、正则表达式匹配方式其中的至少一个。
[0063]可选地,所述第一归并模块之后还包括:
[0064]初步筛选模块,适于去掉切换次数小于第二阈值的归并后的待筛选数据。
[0065]可选地,所述筛选参数还包括:用户身份标识;
[0066]进一步的,所述归并模块还包括:
[0067]去重模块,适于将指定时间段内,同一用户身份标识对同一 URL和同一内核标识的切换记录进行去重。
[0068]可选地,在客户端,还包括:
[0069]切换数据发送模块,适于所述客户端在针对一 URL切换后,将URL、身份标识进行加密,与切换后内核标识一起构造切换记录,并发送至服务器。
[0070]可选地,所述更新模块包括:
[0071]更新确认模块,适于根据所述验证表,确认最终待更新的URL记录,并基于所述待更新的URL记录,生成第一更新表;所述第一更新表的字段与所述内核切换匹配库的字段一致;所述字段包括:主域名、匹配子串、匹配方式、内核标识;
[0072]第二更新模块,适于将所述第一更新表的待更新数据插入或者更新入所述内核切换匹配库。
[0073]可选地,所述第二更新模块包括:
[0074]第一域名匹配模块,适于针对第一更新表的具有相同主域名的待更新数据,判断所述内核切换匹配库中是否存在相同的主域名的记录;
[0075]第一插入模块,适于如果没有相同的主域名的记录,则直接将所述待更新数据插入内核切换匹配库;
[0076]排序模块,适于如果有相同的主域名的记录,则将内核切换匹配库中所有所述主域名的记录以匹配方式为排序字段进行排序;
[0077]第二插入模块,适于在排序后,根据所述待更新数据的匹配方式确定是否进行匹配子串的比较,如果需要,则根据比较结果判断是否将待更新数据插入或者更新入所述内核切换匹配库,如果需要,则根据比较结果判断是否将待更新数据插入或者更新入所述内核切换匹配库。
[0078]可选地,所述第二插入模块包括:
[0079]匹配方式比较模块,适于将所述待更新数据的匹配方式与所述排序字段进行比较,当匹配方式不同时,直接跳过内核切换匹配库中的该条数据;
[0080]匹配子串比较模块,适于当匹配方式相同时,则将所述待更新数据的匹配子串,与内核切换匹配库中的该条数据的匹配子串进行比较;
[0081]第一内核标识比较模块,适于如果匹配子串相同,则判断内核标识是否相同;如果不同,则将内核切换匹配库中的更新为所述待更新数据的内核标识;如果相同,则不做处理;
[0082]第二内核标识比较模块,适于如果待更新数据的匹配子串包含内核切换匹配库中的该条数据的匹配子串,则删除内核切换匹配库中的该条数据,插入待更新数据;
[0083]第三内核标识比较模块,适于如果内核切换匹配库中的该条数据的匹配子串包含待更新数据的匹配子串,则判断内核标识是否相同,如果不同,则将内核切换匹配库中的更新为所述待更新数据的内核标识;如果相同,则不做处理。
[0084]根据本发明的针对客户端主动切换内核的记录,进行解析,然后进行归并和筛选,根据筛选结果生对内核切换匹配库进行更新,可以解决现有技术中推出了一种可以切换内核的浏览器,用户可以在访问网页的过程中,浏览器根据匹配库的设置首先选择一个内核打开网页,但是该种预选的方式存在高概率的错误,用户经常需要手动切换。上述的匹配库由于网页与内核的对应关系是人为筛选,其错误率高、影响客户端对网页的展示,并且人工成本高昂的问题,取得了降低内核匹配错误率、降低后台人工分析成本的有益效果。
[0085]上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的【具体实施方式】。
【专利附图】
【附图说明】
[0086]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0087]图1示出了根据本发明一个实施例的一种浏览器内核切换匹配库数据更新的方法的流程示意图;
[0088]图2示出了根据本发明一个实施例的一种浏览器内核切换匹配库数据更新的方法的流程示意图;
[0089]图3示出了根据本发明一个实施例的一种浏览器内核切换匹配库数据更新的方法的流程示意图;
[0090]图3a示出了根据本发明一个实施例的内核切换匹配库记录示例;
[0091]图3b示出了根据本发明一个实施例的内核切换匹配库记录排序后的示例;
[0092]图4示出了根据本发明一个实施例的一种浏览器内核切换匹配库数据更新的方法的流程示意图;
[0093]图4a示出了根据本发明一个实施例的一个待更新数据示例;
[0094]图4b示出了根据本发明一个实施例的一个待更新数据示例;
[0095]图4c示出了根据本发明一个实施例的一个待更新数据示例;
[0096]图4d示出了根据本发明一个实施例的一个待更新数据示例;
[0097]图5示出了根据本发明一个实施例的示出了根据本发明一个实施例的一种浏览器内核切换匹配库数据更新的装置的结构示意图;
[0098]图6示出了根据本发明一个实施例的示出了根据本发明一个实施例的一种浏览器内核切换匹配库数据更新的装置的结构示意图;
[0099]图7示出了根据本发明一个实施例的示出了根据本发明一个实施例的一种浏览器内核切换匹配库数据更新的装置的结构示意图;
[0100]图8示出了根据本发明一个实施例的示出了根据本发明一个实施例的一种浏览器内核切换匹配库数据更新的装置的结构示意图。
【具体实施方式】
[0101]下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
[0102]实施例一
[0103]参照图1,其示出了一种浏览器内核切换匹配库数据更新的方法的流程示意图,具体可以包括:
[0104]步骤102,获取客户端切换内核后的切换记录;
[0105]在本发明实施例中,各个浏览器用户在使用过程中可能进行内核切换,那么奔放实施例则可对上述切换的记录进行获取。本发明实施例中切换记录包括了 URL、切换后的内核标识的数据,当然还可包括其他数据,比如用户身份信息。
[0106]实际中,浏览器用户在点击切换内核时,本发明的浏览器会对网页进行记录,然后加密打点向服务器发送,在发送时可将加密后的用户身份信息、内核切换信息向服务器进行打点,然后向服务器发送。如客户端打开某一网页进行切换时打点如下: [0107]“http://seupdate.360safe.com/core.html?mid=7017fd5ed69d3661f136b2flb5726af&ver=5.0.0.202%argl=YB7h0/aprHlinsvYSxKzDlX+Hlodl2N5&arg2=&arg3=2”
[0108]其中mid 为用户身份唯一识别码,argl 为 URL (Uniform/Universal ResourceLocator的缩写,统一资源定位符)的加密后的数据,arg3为内核标识比如arg3=l表示chrome内核,arg3=2表示ie标准内核,arg3=2表示ie兼容内核。arg2可以表示其他内容。客户端打点后即可将数据发送至服务器。当然发送至服务器的数据还可包括其他内容,比如日期等。
[0109]即所述客户端在针对一 URL切换后,将URL、身份标识进行加密,与切换后内核标识一起构造切换记录,并发送至服务器。
[0110]在本发明实施例中,对于用户的每次切换均会进行打点记录,然后发送至服务器,那么服务器则可获取客户端切换内核后的切换记录。
[0111]步骤104,解析每条切换记录,获得一条待筛选数据;所述待筛选数据包括各筛选参数,所述筛选参数包括URL、切换后的内核标识;
[0112]针对服务器接收到的海量数据中的每条数据,本发明实施例都对其进行处理,获得对应的待筛选数据。比如解析前述的参数解析客户端发送的数据,比如argl的值URL,arg3的值对应内核标识,mid对应的值为用户身份标识等。得到筛选参数,比如URL、内核标识、用户身份标识等。
[0113]步骤106,根据所述筛选参数对各待筛选数据归并;
[0114]实际中,可能不同的用户针对同一 URL切换的内核可能不同,那么本发明实施例中由服务器首先解析得到的待筛选数据进行归并,以针对同一 URL在不同的内核标识下进行归并,比如对某个URL,由500条chrome内核的切换记录,有700条IE标准内核的切换记录,有40条IE兼容内核的切换记录,那么则可对相应得到的待筛选数据进行归并。
[0115]可选地,所述根据所述筛选参数对各待筛选数据归并包括:
[0116]步骤A10,针对具有同一 URL的各待筛选数据,以所述内核标识为标准归并为一条待筛选数据,并在该条数据中记录对应内核标识的切换次数。
[0117]比如对于前述对某个URL,由500条chrome内核的切换记录,有700条IE标准内核的切换记录,有40条IE兼容内核的切换记录,可在同一 URL+内核标识下进行归并,得到URL, (1,500), (2,700),(3,40),其中括号中的第一个数字为内核标识。
[0118]可选地,在筛选参数还包括:用户身份标识的情况下,所述根据所述筛选参数对各待筛选数据归并时还包括:
[0119]步骤A12,将指定时间段内,同一用户身份标识对同一 URL和同一内核标识的切换
记录进行去重。
[0120]实际中,同一浏览器用户在同一时间段内(比如一天,或者比如12小时),肯能针对同一 URL切换了同一内核,那么如果同一浏览器用户的切换量比较多,在最后进行统计时由于参与人次的偏差,可能影响最后第一更新表的准确率,因此在本发明实施例中可首先对原始的待筛选数据进行去重,即针对一段时间内,同一用户身份标识对同一 URL切换到同一内核时的记录进行去重,只保留一条数据。如此可将待筛选数据归一到人次这一概念上,提高了后续分析筛选的准确度。
[0121]去重后,再对同一 URL的不同内核标识进行归并,得到不同内核标识下的次数。
[0122]另外在初次筛选时,还可设置初始阈值,当归并后的某个内核标识的次数低于初始阈值时,则剔除该归并后的数据,当然还可在内核标识下将次数记录为O。如此可以进一步避免人次过低的内核切换记录的核对,降低服务器的处理过程,提高资源利用率。
[0123]步骤108,基于内核切换匹配库对归并后的待筛选数据进行筛选,并基于筛选结果生成验证表;
[0124]在本发明实施例中,由于内核切换匹配库原来存在一批数据,并且上述的待筛选数据需要确定URL具体对应哪一个内核更为准确,则需要基于内核切换匹配库对归并后的待筛选数据进行筛选,获得验证表。比如可基于上述格式的归并结果生成验证表,验证表的字段为:key (URL对应的主域名)、URL、浏览器记录日期、内核标识I人数、内核标识2人数……内核标识η人数等等,该验证表中针对每条URL进行记录。
[0125]可选地,所述基于内核切换匹配库对归并后的待筛选数据进行筛选,并基于筛选结果生成验证表包括:
[0126]步骤Α20,针对归并后具有同一 URL的各条待筛选数据,判断内核切换匹配库中是否有对应所述URL的记录;
[0127]本发明实施例中通过内核匹配库确定是否存在与验证表中相同的URL的记录。在本发明中对于客户端发送的完整URL,自动将网站和匹配子串中域名部分的大写字母转为小写字母,自动去掉域名及子串里的url开头的协议部分(http://)。
`[0128]可选地,所述针对归并后具有同一 URL的各条待筛选数据,判断内核切换匹配库中是否有对应所述URL的记录包括:
[0129]子步骤S20,解析所述URL,确定对应所述URL的主域名,匹配方式及对应的匹配方式的匹配子串;
[0130]在本发明实施例中,内核切换匹配库的数据结构进行了针对性的设置,其字段结构包括:key:主域名
[0131]key:主域名;可设置为网站顶级域名,不带http头
[0132]pattern:匹配子串;一般为URL的子串;
[0133]type:匹配类型;可设置为整数,O为相同即匹配,I为二级网址匹配,2为子串匹配,3为正则匹配;
[0134]flag:内核标识;可设置为整数,O为未定义,I为chrome, 2为IE兼容模式,3为IE标准模式。
[0135]当然还可包括其他字段结构。
[0136]本发明实施例在上述字段结构下的匹配库的基础上,将URL与匹配库进行匹配,判断匹配库中是否有该URL的记录。
[0137]在本发明实施例中,可解析所述URL,并解析该URL对应的匹配方式,从而选择相应的匹配子串。在本发明中针对每个网站、其下属的各级子网址,及具体的网页,可预先设置解析规则,判断其URL适用哪一种匹配方式,在本发明实施例中,所述匹配方式包括:
[0138]主域名匹配方式、子网址匹配方式、字串匹配方式、正则表达式匹配方式其中的至少一个。
[0139]主域名匹配方式,即对于一 URL只用进行主域名匹配,比如http://www.163.com/可只获取主域名匹配。
[0140]子网址匹配方式,即获取URL的子网址匹配,比如二级域名、或者三级域名等,比如对于http://money.163.com/,可匹配二级域名。
[0141]字串匹配方式,即获取URL的部分或者全部字串进行匹配,比如http://quotes,money.163.com/#query=NODEAL_FXJS&DataType=HS_RANK&sort=PERCENT&order=desc&count=24&page=0&$3xdl3,可获取 quotes, money.163.com/#query 字串进行匹配。
[0142]正则表达式匹配方式,即查找对应该URL的正则表达式去匹配库查询是否有相应记录,比如匹配网址URL的正则表达式:[a-zA_z] +://[~\s]*。
[0143]那么在本发明实施例中,对URL,确定其主域名,匹配方式以及对应的匹配子串(t匕如是正则表达式匹配,则匹配子串则为以该URL确认的正则表达式)。
[0144]子步骤S22,根据对应所述URL主域名,选择内核切换匹配库中所有与所述主域名相同的所有记录;
[0145]本步骤则首先以key字段提取内核切换匹配库中所有的相同的记录,以减少计算量,降低系统负荷。
[0146]子步骤S24,在与所述主域名相同的所有记录中,在与对应所述URL的匹配方式相同的记录中,进行匹配子串的比较;如果匹配子串匹配上,判断内核切换匹配库中有对应所述URL的记录。
[0147]下面以一个具体例子说明上述过程:比如“http://news.sina.com.cn/w/2010-07-22/024720730439.shtml,,,可解析其 key=163.com,
[0148]SWtype==O,则为主域名匹配方式,表示pattern为空,也就是只要key相同就认为匹配成功;[0149]SWtype==I,则为子网址匹配方式,表示pattern为子网站.对此URL就是如果pattern== “news.sina.com.cn” 就认为匹配成功
[0150]若以type==2,表示pattern为字串匹配方式,例如如果pattern== “.sina.com.cn/w/2010”,则此URL匹配成功
[0151]若以type==3,则,正则表达式匹配方式,表示pattern为正则表达式。
[0152]步骤A22,如果没有对应所述URL的记录,则根据对应所述URL的各条待筛选数据在验证表中进行记录;
[0153]如果内核切换匹配库中未能匹配上数据,则说明内核切换匹配库不存在相应记录,可将该URL的各记录在验证表中进行记录。
[0154]步骤A24,如果有对应所述URL的记录,则确认已经在内核切换匹配库记录的内核标识;
[0155]如果有URL记录,说明已经有匹配的内核标识了,那么则确认内核切换匹配库已经记录的对应该URL的内核标识是什么。
[0156]步骤A26,删除对应该被确认的内核标识的数据,并将除该被确认的内核标识之外的、切换次数大于第一阈值的各条待筛选数据在验证表中进行记录。
[0157]在本步骤中,比如对于某URL,其内核标识I在内存库中有记录,而前述步骤统计得打内核标识I的次数为500次,内核标识2的次数为100次,内核标识3的次数为200次,100,200次均大于第一阈值(比如50),那么可将该URL对应内核标识2的次数为100次,内核标识3的次数为200次的记录在验证表中记录,内核标识I的数据进行删除,不用在验证表中记录;
[0158]如果内核标识2的次数为100次(大于50),内核标识3的次数为O次(小于50),那么可将该URL对应内核标识2的次数为100次的记录在验证表中记录,将内核标识I的数据进行删除,不用在验证表中记录,
[0159]如果内核标识2的次数为O次(小于20),内核标识3的次数为O次(小于50),那么可以将内核标识I的数据进行删除,不用在验证表中记录。
[0160]步骤110,基于所述验证表,更新所述内核切换匹配库。
[0161]得打所述验证表后,则基于所述验证表,更新所述内核切换匹配库。
[0162]当然本发明中验证表中可能针对同一 URL记录了多个内核及次数,并且与内核冲突,本发明可对该种URL进行后台审核或者判断确认具体选择哪一种内核在内核切换匹配库中记录。
[0163]根据本发明的针对客户端主动切换内核的记录,进行解析,然后进行归并和筛选,根据筛选结果生对内核切换匹配库进行更新,可以解决现有技术中推出了一种可以切换内核的浏览器,用户可以在访问网页的过程中,浏览器根据匹配库的设置首先选择一个内核打开网页,但是该种预选的方式存在高概率的错误,用户经常需要手动切换。上述的匹配库由于网页与内核的对应关系是人为筛选,其错误率高、影响客户端对网页的展示,并且人工成本高昂的问题,取得了降低内核匹配错误率、降低后台人工分析成本的有益效果。
[0164]实施例二
[0165]参照图2,其示出了一种浏览器内核切换匹配库数据更新的方法的流程示意图,具体可以包括:[0166]步骤202,获取客户端切换内核后的切换记录;
[0167]步骤204,解析每条切换记录,获得一条待筛选数据;所述待筛选数据包括各筛选参数,所述筛选参数包括URL、切换后的内核标识、用户标识;
[0168]步骤206,将指定时间段内,同一用户身份标识对同一 URL和同一内核标识的切换
记录进行去重;
[0169]在本发明实施例中可由第一服务器执行步骤206、步骤208,然后将得到的数据导出内核切换匹配库所在的第二服务器进行后续处理,导出的格式可为CSV格式文件,文件中每一行对应一条记录,记录格式可包括:
[0170]日期字段,URL字段,内核标识i (i=0、l、2、3……)出现的记录次数,相同用户身份标识的内核标识i的记录消重次数等。
[0171]第二服务器得到上述CSV格式文件后,可依据字段含义进行解析。
[0172]步骤208,针对具有同一 URL的各待筛选数据,以所述内核标识为标准归并为一条待筛选数据,并在该条数据中记录对应内核标识的切换次数,并删除切换次数低于第二阈值数据;
[0173]步骤210,针对归并后具有同一 URL的各条待筛选数据,判断内核切换匹配库中是否有对应所述URL的记录; [0174]步骤212,如果没有对应所述URL的记录,则根据对应所述URL的各条待筛选数据在验证表中进行记录;
[0175]步骤214,如果有对应所述URL的记录,则确认已经在内核切换匹配库记录的内核标识;
[0176]步骤216,删除对应该被确认的内核标识的数据,并将除该被确认的内核标识之外的、切换次数大于第一阈值的各条待筛选数据在验证表中进行记录;
[0177]步骤218,基于所述验证表,更新所述内核切换匹配库。
[0178]本发明实施例在步骤208进行了初次筛选,在步骤216进行了再次筛选,进一步降低了低频率数据的后续处理工作,降低了第二服务器的负荷。
[0179]根据本发明的针对客户端主动切换内核的记录,进行解析,然后进行归并和筛选,根据筛选结果生对内核切换匹配库进行更新,可以解决现有技术中推出了一种可以切换内核的浏览器,用户可以在访问网页的过程中,浏览器根据匹配库的设置首先选择一个内核打开网页,但是该种预选的方式存在高概率的错误,用户经常需要手动切换。上述的匹配库由于网页与内核的对应关系是人为筛选,其错误率高、影响客户端对网页的展示,并且人工成本高昂的问题,取得了降低内核匹配错误率、降低后台人工分析成本的有益效果。
[0180]实施例三
[0181]参照图3,其示出了一种浏览器内核切换匹配库数据更新的方法的流程示意图,具体可以包括:
[0182]步骤302,获取客户端切换内核后的切换记录;
[0183]步骤304,解析每条切换记录,获得一条待筛选数据;所述待筛选数据包括各筛选参数,所述筛选参数包括URL、切换后的内核标识;
[0184]步骤306,根据所述筛选参数对各待筛选数据归并;
[0185]步骤308,基于内核切换匹配库对归并后的待筛选数据进行筛选,并基于筛选结果生成验证表;
[0186]步骤310,根据所述验证表,确认最终待更新的URL记录,并基于所述待更新的URL记录,生成第一更新表;所述第一更新表的字段与所述内核切换匹配库的字段一致;所述字段包括:主域名、匹配子串、匹配方式、内核标识;
[0187]在本发明实施例可如前述实施例中得到验证表,而验证表中的记录中,对于一URL,可能本身的内核标识即存在多个,可能与内核切换匹配库中记录的内核标识也存在冲突,而内核切换匹配库中对于同一 URL只能保留一个内核标识,以便客户端浏览器进行切换。那么本发明则需要给予验证表进行最终确认,那些待更新的URL记录可以进行更新。在本发明实施例中可进行后台人工确认,也可根据其他方式确认。待更新的URL记录确认后,基于所述待更新的URL记录,生成第一更新表;所述第一更新表的字段与所述内核切换匹配库的字段一致;所述字段包括:主域名、匹配子串、匹配方式、内核标识。
[0188]内核切换匹配库的结构与前述实施例类似,主域名、匹配子串、匹配方式、内核标识也与前述实施例类似,在此不在详述。
[0189]步骤312,将所述第一更新表的待更新数据插入或者更新入所述内核切换匹配库。
[0190]在确认了最终要导入内核切换匹配库的URL记录后,由于内核切换匹配库中已经有若干的域名记录(比如图3a库中的记录示例),要导入一批记录到库中,冲突经常发生,为了保证内核切换匹配库库最精简,需要删除或修改库中已有的记录或者插入新的记录。
[0191]可选地,所述将所述第一更新表的待更新数据插入或者更新入所述内核切换匹配库包括:
[0192]步骤C12,针对第一更新表的具有相同主域名的待更新数据,判断所述内核切换匹配库中是否存在相同的主域名的记录;
[0193]步骤C14,如果没有相同的主域名的记录,则直接将所述待更新数据插入内核切换匹配库;
[0194]比如对于xyz.com主域名的数据,内核切换匹配库中没有该主域名的任何记录,则直接将这些待更新数据插入内核切换匹配库。
[0195]步骤C16,如果有相同的主域名的记录,则将内核切换匹配库中所有所述主域名的记录以匹配方式为排序字段进行排序;
[0196]比如对于baidu.com,图3a中存在一系列记录,那么首先按照其type值进行排列,排序后如图3b不例。
[0197]步骤C16,在排序后,根据所述待更新数据的匹配方式确定是否进行匹配子串的比较,如果需要,则根据比较结果判断是否将待更新数据插入或者更新入所述内核切换匹配库,如果需要,则根据比较结果判断是否将待更新数据插入或者更新入所述内核切换匹配库。
[0198]然后根据匹配方式确定是否进行匹配子串比较,比如type=0,那么pattern为空,则可不比较,type>0,则存在相应类型的匹配子串,需要进行比较,则根据比较结果判断是否将待更新数据插入或者更新入所述内核切换匹配库。
[0199]根据本发明的针对客户端主动切换内核的记录,进行解析,然后进行归并和筛选,根据筛选结果生对内核切换匹配库进行更新,可以解决现有技术中推出了一种可以切换内核的浏览器,用户可以在访问网页的过程中,浏览器根据匹配库的设置首先选择一个内核打开网页,但是该种预选的方式存在高概率的错误,用户经常需要手动切换。上述的匹配库由于网页与内核的对应关系是人为筛选,其错误率高、影响客户端对网页的展示,并且人工成本高昂的问题,可降低内核匹配错误率、降低后台人工分析成本。本发明实施例还可精简内核切换匹配库,解决数据导入冲突问题。
[0200]实施例四
[0201]参照图4,其示出了一种浏览器内核切换匹配库数据更新的方法的流程示意图,具体可以包括:
[0202]步骤402,获取客户端切换内核后的切换记录;
[0203]步骤404,解析每条切换记录,获得一条待筛选数据;所述待筛选数据包括各筛选参数,所述筛选参数包括URL、切换后的内核标识;
[0204]步骤406,根据所述筛选参数对各待筛选数据归并;
[0205]步骤408,基于内核切换匹配库对归并后的待筛选数据进行筛选,并基于筛选结果生成验证表;
[0206]步骤410,根据所述验证表,确认最终待更新的URL记录,并基于所述待更新的URL记录,生成第一更新表;所述第一更新表的字段与所述内核切换匹配库的字段一致;所述字段包括:主域名、匹配子串、匹配方式、内核标识;
[0207]步骤412,针对第一更新表的具有相同主域名的待更新数据,判断所述内核切换匹配库中是否存在相同的主域名的记录;
[0208]步骤414,如果没有`相同的主域名的记录,则直接将所述待更新数据插入内核切换匹配库;
[0209]步骤416,如果有相同的主域名的记录,则将内核切换匹配库中所有所述主域名的记录以匹配方式为排序字段进行排序;
[0210]步骤418,将所述待更新数据的匹配方式与所述排序字段进行比较;当匹配方式不同时,直接跳过内核切换匹配库中的该条数据;
[0211]步骤420,当匹配方式相同时,则将所述待更新数据的匹配子串,与内核切换匹配库中的该条数据的匹配子串进行比较;
[0212]步骤422,如果匹配子串相同,则判断内核标识是否相同;如果不同,则将内核切换匹配库中的更新为所述待更新数据的内核标识;如果相同,则不做处理;
[0213]步骤424,如果待更新数据的匹配子串包含内核切换匹配库中的该条数据的匹配子串,则删除内核切换匹配库中的该条数据,插入待更新数据;
[0214]步骤426,如果内核切换匹配库中的该条数据的匹配子串包含待更新数据的匹配子串,则判断内核标识是否相同,如果不同,则将内核切换匹配库中的更新为所述待更新数据的内核标识;如果相同,则不做处理。
[0215]下面举例说明步骤412至426,本发明实施例的伪代码如下
[0216]
for(new in待插入记录集){ //循环I
根据new key查找到库存记录集;
[0217]
【权利要求】
1.一种浏览器内核切换匹配库数据更新的方法,包括: 获取客户端切换内核后的切换记录; 解析每条切换记录,获得一条待筛选数据;所述待筛选数据包括各筛选参数,所述筛选参数包括URL、切换后的内核标识; 根据所述筛选参数对各待筛选数据归并; 基于内核切换匹配库对归并后的待筛选数据进行筛选,并基于筛选结果生成验证表; 基于所述验证表,更新所述内核切换匹配库。
2.如权利要求1所述的方法,其特征在于,所述根据所述筛选参数对各待筛选数据归并包括: 针对具有同一 URL的各待筛选数据,以所述内核标识为标准归并为一条待筛选数据,并在该条数据中记录对应内核标识的切换次数。
3.如权利要求2所述的方法,其特征在于,所述基于内核切换匹配库对归并后的待筛选数据进行筛选,并基于筛选结果生成验证表包括: 针对归并后具有同一 URL的各条待筛选数据,判断内核切换匹配库中是否有对应所述URL的记录; 如果没有对应所述URL的记录,则根据对应所述URL的各条待筛选数据在验证表中进行记录; 如果有对应所述URL的记录,则确认已经在内核切换匹配库记录的内核标识; 删除对应该被确认的内核标识的数据,并将除该被确认的内核标识之外的、切换次数大于第一阈值的各条待筛选数据在验证表中进行记录。
4.如权利要求3所述的方法,其特征在于,针对归并后具有同一URL的各条待筛选数据,判断内核切换匹配库中是否有对应所述URL的记录包括: 解析所述URL,确定对应所述URL的主域名,匹配方式及对应的匹配方式的匹配子串; 根据对应所述URL主域名,选择内核切换匹配库中所有与所述主域名相同的所有记录; 在与所述主域名相同的所有记录中,在与对应所述URL的匹配方式相同的记录中,进行匹配子串的比较;如果匹配子串匹配上,判断内核切换匹配库中有对应所述URL的记录。
5.如权利要求4所述的方法,其特征在于,所述匹配方式包括: 主域名匹配方式、子网址匹配方式、字串匹配方式、正则表达式匹配方式其中的至少一个。
6.如权利要求2所述的方法,其特征在于,所述针对具有同一URL的各待筛选数据,以所述内核标识为标准归并为一条待筛选数据,并在该条数据中记录对应内核标识的切换次数之后,还包括: 去掉切换次数小于第二阈值的归并后的待筛选数据。
7.如权利要求1所述的方法,其特征在于,所述筛选参数还包括:用户身份标识; 进一步的,所述根据所述筛选参数对各待筛选数据归并时还包括: 将指定时间段内,同一用户身份标识对同一 URL和同一内核标识的切换记录进行去重。
8.如权利要求1所述的方法,其特征在于,还包括:所述客户端在针对一 URL切换后,将URL、身份标识进行加密,与切换后内核标识一起构造切换记录,并发送至服务器。
9.如权利要求1所述的方法,其特征在于,基于所述验证表,更新所述内核切换匹配库包括: 根据所述验证表,确认最终待更新的URL记录,并基于所述待更新的URL记录,生成第一更新表;所述第一更新表的字段与所述内核切换匹配库的字段一致;所述字段包括:主域名、匹配子串、匹配方式、内核标识; 将所述第一更新表的待更新数据插入或者更新入所述内核切换匹配库。
10.一种浏览器内核切换匹配库数据更新的装置,包括: 记录获取模块,适于获取客户端切换内核后的切换记录; 记录解析模块,适于解析每条切换记录,获得一条待筛选数据;所述待筛选数据包括各筛选参数,所述筛选参数包括URL、切换后的内核标识; 归并模块,适于根据所述筛选参数对各待筛选数据归并; 筛选模块,适于基于内核切换匹配库对归并后的待筛选数据进行筛选,并基于筛选结果生成验证表; 更新模块,适于基于所述 更新表,更新所述内核切换匹配库。
【文档编号】G06F17/30GK103631955SQ201310684117
【公开日】2014年3月12日 申请日期:2013年12月12日 优先权日:2013年12月12日
【发明者】唐永刚, 任寰 申请人:北京奇虎科技有限公司, 奇智软件(北京)有限公司