本发明属于数据处理,具体涉及一种文档字符串编码模糊匹配方法。
背景技术:
1、当前需要对不同的文本进行分类处理,由于信息内容的庞大性,相同或相似信息的展现形式存在差异,从而影响文本信息工作准确快速进行,需要对word文档进行分类,以便工作正常有序进行;目前的分类方法效率差,且分类辨析精度不高,容易因计算错误影响工作的正常进行。
2、关于字符串的模糊查询问题有很多研究,他们多数是基于一种过滤-验证框架进行的。在过滤阶段,使用一个阈值t作为一个有效的过滤器,可以用来过滤大部分不相似的字符串,得到一个候选者集合。然后在验证阶段,通过计算候选者集合中字符串与查询串之间实际的编辑距离,得到结果集合。编辑距离是一种计算字符间相似程度的度量方法,但是计算编辑距离采用的是一种动态规划的思想,如果在数据集中计算每一对字符间的编辑距离来判断字符串的匹配与否将会有巨大的开销。目前已有的方法中也存在计算较为复杂、编辑距离验证次数过多等问题。
技术实现思路
1、本发明的目的在于提供一种文档字符串编码模糊匹配方法,解决现有技术中文本分类效率和分类准确精度不高的问题,实现不同长度段落对匹配结果不受影响,且编辑距离验证操作次数较少的效果。
2、本发明的技术方案如下:一种文档字符串编辑模糊匹配方法,所述方法具体包括:
3、构建带有标签的字符串编码信息库;
4、获取文档字符串编码信息,对其进行预处理和特征选择,形成特征集合;
5、对所述特征集合中的特征项进行特征提取,构建编码向量;
6、构建支持向量机分类器,通过所述编码向量对支持向量机进行训练并获得文档编码的分类结果标签;
7、对文档字符串进行模糊匹配时,对所查询的字符串进行划分并添加索引;
8、在字符串编码查询时,进行字符串编码长度过滤及匹配过滤,并在位置关系一致时,将所述字符串添加到结果合集中。
9、在完成将所述字符串添加到结果合集中的步骤后,还进一步包括对未添加到结果合集中的字符串编码进行编辑距离验证的步骤为:
10、通过对字符串进行验证,以及查询字符串之间的编辑距离,判断是否在距离阈值内获得匹配结果。
11、所述对特征集合中特征项进行特征提取,构建编码向量是通过对文档特征结合中的特征项进行特征提取,利用tf-idf算法,对所述文档字符串编码进行处理,获得编码向量。
12、所述在获取文档字符串编码信息,对其进行预处理和特征选择,形成特征集合的步骤具体包括:
13、对文档字符串编码信息进行分词,形成若干个编码及其对应标签的集合;
14、对文档拆分出的每个编码相应标签进行过滤处理;
15、将文档所有的编码数据过滤后,生成特征集合。
16、所述对文档字符串进行模糊匹配时,对所查询的字符串进行划分并添加索引的步骤具体为:
17、对待查询文档数据集中的字符串按照长度进行分组,将长度相同的字符串划为一组;
18、对每一个字符串按照长度构建完全二叉树,并将所述二叉树记作字符串搜索树,其中,所述字符串搜索树中的每个节点内均存储有划分后的字符串、所述字符串的原字符串id、所述字符串的长度及所述字符串的开始位置。
19、所述在字符串编码查询时,进行字符串编码长度过滤及匹配过滤具体包括:
20、对字符串编码进行查询和长度过滤;输入待查询字符串的长度q以及距离阈值t,并两用上述两个参数查找所对应的字符串编码,其中,查询字符串的长度范围在[|q|-t,|q|+t]之间的字符串即可;
21、根据文档段落中字符串的长度,对所查询的字符串进行划分,获得查询字符串合集;
22、对字符串编码进行匹配,并在完成匹配后,将所述字符串添加到结果合集中。
23、所述对字符串编码进行匹配的具体步骤为:
24、当段落内的字符串与查询字符串中的字符串相匹配时,则所述字符串对应索引的原字符串的匹配度加上所述字符串的长度,并当所述字符串的匹配度大于预设上界值时,则对匹配字符串在原字符串的位置列表以及在查询串中的位置列表进行验证,并当所述位置列表没有重复的元素时,则将所述字符串添加到结果集合中。
25、所述对没有添加到结果集合中的字符串编码进行编辑距离验证的具体步骤为:
26、判断当所述字符串的匹配度小于预设下界值时,则直接过滤掉所述字符串编码;当所述字符串的匹配度在预设下界值与上界值之间时,则对所述字符串进行编辑距离验证,并将验证通过的字符串添加到结果集合中。
27、所述字符串进行编辑距离验证具体包括:
28、判断所述字符串的编辑距离与距离阈值的关系,并在满足所述字符串的编辑距离小于等于距离阈值t时,将所述字符串添加到结果合集中;
29、当所述字符串的编辑距离大于距离阈值t时,则直接过滤掉所述字符串。
30、所述利用tf-idf算法,对所述文档字符串编码进行处理,获得编码向量的具体步骤为:
31、获得文档di中的特征编码tk的词频tfik,以及逆文档词频idfk,则对文档di字符串编码的向量可表示为:
32、wik=tfik*idfk
33、其中,
34、
35、上式中,n代表了编码库中的所有文档数,nk代表了所有出现特征编码tk的文档数;
36、对文档字符串编码向量进行归一化处理,获得并构建编码向量为:
37、
38、所述将文档所有的编码数据过滤后,生成特征集合的具体步骤为:
39、对过滤后的文档字符串编码数据进行特征项选择,形成特征项集合;
40、对特征项集合中的所有特征项进行评估,并根据每个特征项的评估值进行降序排序;
41、根据预设的阈值或者已确定的特征数量值,选择排名靠前的特征项,获得最终的特征集合。
42、所述构建支持向量机分类器,通过所述编码向量对支持向量机进行训练并获得文档编码的分类结果标签的步骤具体包括:
43、构建支持向量机分类器,将编码处理后的特征及其所属标签作为训练集,对支持向量机的参数进行训练;
44、将带分类的文档编码向量输入支持向量机分类器模型中,对文档编码进行分类,并获得应用的分类结果标签。
45、本发明的显著效果在于:本发明所述的一种文档字符串编码模糊匹配方法具有以下优点:(1)通过对字符串编码信息的统计并建立编码数据库,对后续分类和匹配起到了信息查找和借用依据,便于提高分类效率和准确度;(2)获取需要分类的word文档字符串编码,对其进行预处理,去除编码中不涉及分类信息的编码,方便后续步骤对编码进行分类,提高分类的效率;通过对特征集进行特征选择精简,进一步对编码数据加以提炼,以提高对编码分类的精度;(3)在进行字符串编码模糊匹配时,将字符串划分为确定匹配的集合、可能匹配的集合以及不匹配的集合,当该字符串编码的编辑距离小于等于距离阈值t时,则将该字符串直接添加到结果集合中;当该字符串的编辑距离大于距离阈值t时,则直接过滤掉该字符串编码,从而减少编辑距离验证操作的次数;当该字符串的匹配度大于预设上界值时,则对匹配字符串编码在原字符串编码的位置列表以及在查询串中的位置列表进行验证,避免字符串互换位置及字符串段落重复匹配的问题。另外,当段落内的字符串与查询串中的字符串相匹配时,则该字符串对应索引的原字符串的匹配度加上该字符串的长度,以体现不同长度的段落对匹配度影响的不同。