一种数据检测方法及装置制造方法
【专利摘要】本发明提供一种数据检测方法及装置,该方法包括:输入多个训练数据;对训练数据进行音节切分,获取对应训练切分结果;将所述训练切分结果作为训练特征数据,生成预测模型;使用所述预测模型检测至少一个输入数据,识别所述输入数据中的字母串对应属性特征。采用本发明的技术方案可以对输入数据进行快速准确的识别。
【专利说明】一种数据检测方法及装置
【技术领域】
[0001]本发明涉及数据处理领域,特别涉及一种数据检测方法及装置。
【背景技术】
[0002]目前,输入法包括基于笔画输入的输入法和基于字母输入的输入法,对于基于字母输入的输入法而言,对于用户输入的字母串,如何快速准确的识别出是英文还是拼音,同时还需要对字母串是否正确进行处理,是向用户更快更准地提供输入法的选择结果亟需解决的问题。
【发明内容】
[0003]为了解决现有技术中的问题,本发明提供一种数据检测方法及装置,可以对输入数据进行快速准确的识别。
[0004]本发明提供一种数据检测方法,该方法包括:
[0005]输入多个训练数据;
[0006]对训练数据进行音节切分,获取对应训练切分结果;
[0007]将所述训练切分结果作为训练特征数据,生成预测模型;
[0008]使用所述预测模型检测至少一个输入数据,识别所述输入数据中的字母串对应属性特征。
[0009]进一步的,所述对应训练切分结果数量最少且完整度最高。
[0010]进一步的,所述对训练数据进行音节切分,获取对应训练切分结果包括:
[0011]对所述训练数据进行音节切分,得到至少一种切分形式;
[0012]将所述切分形式对照拼音表,按照正确音节和不完整音节分数从高到低计算音节分数和,选择音节分数和最大的切分形式作为训练切分结果。
[0013]进一步的,所述按照正确音节和不完整音节分数从高到低计算音节分数和,选择音节分数和最大的切分形式作为训练切分结果包括:
[0014]采用动态规划法按照正确音节和不完整音节分数从高到低计算音节分数和,选择音节分数和最大的切分形式作为训练切分结果。
[0015]进一步的,所述生成预测模型为使用机器学习算法生成预测模型。
[0016]进一步的,所述机器学习算法包括支持向量机SVM算法或最大熵算法或最邻近结点算法KNN。
[0017]进一步的,所述输入数据中的字母串的对应属性特征为英文字符串或者拼音字符
串O
[0018]进一步的,使用所述预测模型检测至少一个输入数据,识别所述输入数据中的字母串对应属性特征包括:
[0019]判断所述输入数据是否为字母串;
[0020]当所述输入数据为字母串,且所述输入数据不在英文词典中时,对所述输入数据进行音节切分,获取对应训练切分结果;
[0021]将所述切分结果作为特征数据;
[0022]使用所述预测模型对所述特征数据进行分类,从而识别所述输入数据中的字母串是英文串还是拼首串。
[0023]本发明还提供一种数据检测装置,该装置包括:
[0024]训练数据接收接口,适于接收多个训练数据;
[0025]训练模块,用于对训练数据进行音节切分,获取对应训练切分结果;
[0026]模型生成模块,用于将所述训练切分结果作为训练特征数据,生成预测模型;
[0027]模型数据库,适于存储所述生成的预测模型;
[0028]数据输入接口,适于输入至少一个待识别的输入数据
[0029]识别模块,用于调用所述模型数据库中的预测模型检测所述待识别的输入数据,识别所述待识别的输入数据中的字母串对应属性特征。
[0030]进一步的,所述训练模块包括:
[0031]切分子模块,用于对所述训练数据进行音节切分,得到至少一种切分形式;
[0032]计算子模块,用于将所述切分形式对照拼音表,按照正确音节和不完整音节分数从高到低计算音节分数和,选择音节分数和最大的切分形式作为训练切分结果。
[0033]进一步的,所述待识别的输入数据中的字母串的对应属性特征为英文字符串或者拼音字符串,所述识别模块包括:
[0034]判断子模块,用于判断所述待识别的输入数据是否为字母串;
[0035]切分子模块,当所述待识别的输入数据为字母串,且所述待识别的输入数据不在英文词典中时,对所述待识别的输入数据进行音节切分,获取对应训练切分结果;
[0036]特征子模块,用于将所述切分结果作为特征数据;
[0037]分类子模块,用于使用所述预测模型对所述特征数据进行分类,从而识别所述待识别的输入数据中的字母串对应属性特征。
[0038]本发明带来的有益效果如下:
[0039]通过训练预测模型,可以不受输入数据书写是否错误的影响,使用预测模型检测输入数据,快速准确地识别出输入数据中的字母串对应属性特征。
【专利附图】
【附图说明】
[0040]图1为本发明实施例一中一种数据检测方法的流程示意图;
[0041]图2为本发明实施例二中一种数据检测方法的流程示意图;
[0042]图3为本发明实施例三中一种数据检测方法的流程示意图;
[0043]图4为本发明实施例四中一种一种数据检测装置的结构示意图。
【具体实施方式】
[0044]下面结合附图和【具体实施方式】对本发明作进一步详细的说明。
[0045]请参见图1,实施例一,一种数据检测方法,该方法包括:
[0046]Sll输入多个训练数据。
[0047]S12对训练数据进行音节切分,获取对应训练切分结果。[0048]最优的对应训练切分结果数量最少且完整度最高。
[0049]S13将所述训练切分结果作为训练特征数据,生成预测模型。
[0050]优选的,所述生成预测模型为使用机器学习算法生成预测模型。使用机器学习算法可以使得预测模型不受输入数据书写是否错误的影响。
[0051 ] 其中,机器学习算法可以包括但不限于支持向量机SVM算法或最大熵算法或最邻近结点算法(k-Nearest Neighbor algorithm, KNN)。
[0052]其中,支持向量机SVM算法作为一种可训练的机器学习方法,针对线性可分情况进行分析,对于线性不可分的情况,通过使用非线性映射算法将低维输入空间线性不可分的样本转化为高维特征空间使其线性可分,从而使得高维特征空间采用线性算法对样本的非线性特征进行线性分析成为可能。它基于结构风险最小化理论之上在特征空间中建构最优分割超平面,使得学习器得到全局最优化,并且在整个样本空间的期望风险以某个概率满足一定上界。
[0053]最大熵算法最大熵法是利用已知的自相关函数值来外推未知的自相关函数值,去除了对未知数据的人为假定,从而使谱估计的结果更为合理。熵在信息论中是信息的度量,事件越不确定,其信息量越大,熵也越大。对随机过程的未知的自相关函数值,除了从已知的自相关函数值得到有关它的信息以外,没有其他的先验知识。因而,在外推时,不希望加以其他任何新的限制,亦即使之“最不确定”。换言之,就是使随机过程的熵最大。
[0054]最邻近结点算法采用向量空间模型来分类,概念为相同类别的案例,彼此的相似度高,而可以借由计算与已知类别案例之相似度,来评估未知类别案例可能的分类。
[0055]S14使用所述预测模型检测至少一个输入数据,识别所述输入数据中的字母串对应属性特征。
[0056]其中,所述输入数据中的字母串的对应属性特征为英文字符串或者拼音字符串。
[0057]采用本实施例的技术方案,通过训练预测模型,可以不受输入数据书写是否错误的影响,使用预测模型检测输入数据,快速准确地识别出输入数据中的字母串对应属性特征。
[0058]请参见图2,实施例二,一种数据检测方法,该方法包括:
[0059]S21输入多个训练数据。
[0060]S221对所述训练数据进行音节切分,得到至少一种切分形式;
[0061]S222将所述切分形式对照拼音表,按照正确音节和不完整音节分数从高到低计算音节分数和,选择音节分数和最大的切分形式作为训练切分结果。
[0062]其中,拼音表包括正确音节表、声母表和韵母表。其中,正确音节表是正确音节的集合,正确音节是对应于汉语中每个汉字而言的,每个汉字一般一个音节,每个音节由声母+韵母两个部分组成,也有零声母(即仅有韵母)的音节。声母表是指仅有声母而不构成正确音节的音节集合,韵母表是指仅有韵母而不构成正确音节的音节集合。
[0063]在本实施例中设定正确音节的分数大于不完整音节的分数,其中,正确音节可以分为包括声母和韵母的音节以及零声母的音节,不完整音节可以分为仅韵母且不构成完整音节的音节以及仅声母且不构成完整音节的音节。优选地,正确音节中,包括了声母和韵母的音节的分数可以大于零声母的音节的分数。进一步优选的,不完整音节中仅韵母且不构成完整音节的音节的分数可以与仅声母且不构成完整音节的音节的分数相同。[0064]例如,请参见表1, dajiahao可以切分成如下几种切分形式:
[0065]Da+jia+hao,分数和为 _3 ;
[0066]Da+ji+a+hao,分数和为 _5 ;
[0067]Da+ji+a+ha+o,分数和为 _7 ;
[0068]D+a+ji+a+h+a+o,分数和为 _15。
[0069]选择的是切分后音节的分数和最大的一种形式Da+jia+hao作为训练切分结果。
[0070]再例如,hello可以切分成如下几种切分形式:
[0071]he+1+lo,分数和为 _5 ;
[0072]h+e+1+l+o,分数和为-15 ;
[0073]h+e+1+lo,分数和为-10。
[0074]选择的是切分后音节的分数和最大的一种形式he+1+lo作为训练切分结果。
[0075]
【权利要求】
1.一种数据检测方法,其特征在于,该方法包括: 输入多个训练数据; 对训练数据进行音节切分,获取对应训练切分结果; 将所述训练切分结果作为训练特征数据,生成预测模型; 使用所述预测模型检测至少一个输入数据,识别所述输入数据中的字母串对应属性特征。
2.权利要求1所述的方法,其特征在于,所述对应训练切分结果数量最少且完整度最闻。
3.如权利要求1或2所述的方法,其特征在于,所述对训练数据进行音节切分,获取对应训练切分结果包括: 对所述训练数据进行音节切分,得到至少一种切分形式; 将所述切分形式对照拼音表,按照正确音节和不完整音节分数从高到低计算音节分数和,选择音节分数和最大的切分形式作为训练切分结果。
4.如权利要求1-3任一项所述的方法,其特征在于,所述按照正确音节和不完整音节分数从高到低计算音节分数和,选择音节分数和最大的切分形式作为训练切分结果包括: 采用动态规划法按照正确音节和不完整音节分数从高到低计算音节分数和,选择音节分数和最大的切分形式作为训练切分结果。
5.如权利要求1至4任一项所述的方法,其特征在于,所述生成预测模型为使用机器学习算法生成预测模型。
6.如权利要求1-5任一项所述的方法,其特征在于,所述机器学习算法包括支持向量机SVM算法或最大熵算法或最邻近结点算法KNN。
7.如权利要求1-6任一项所述的方法,其特征在于,所述输入数据中的字母串的对应属性特征为英文字符串或者拼音字符串。
8.如权利要求1-7任一项所述的方法,其特征在于,使用所述预测模型检测至少一个输入数据,识别所述输入数据中的字母串对应属性特征包括: 判断所述输入数据是否为字母串; 当所述输入数据为字母串,且所述输入数据不在英文词典中时,对所述输入数据进行音节切分,获取对应训练切分结果; 将所述切分结果作为特征数据; 使用所述预测模型对所述特征数据进行分类,从而识别所述输入数据中的字母串是英文串还是拼首串。
9.一种数据检测装置,其特征在于,该装置包括: 训练数据接收接口,适于接收多个训练数据; 训练模块,用于对训练数据进行音节切分,获取对应训练切分结果; 模型生成模块,用于将所述训练切分结果作为训练特征数据,生成预测模型; 模型数据库,适于存储所述生成的预测模型; 数据输入接口,适于输入至少一个待识别的输入数据 识别模块,用于调用所述模型数据库中的预测模型检测所述待识别的输入数据,识别所述待识别的输入数据中的字母串对应属性特征。
10.如权利要求9所述的装置,其特征在于,所述训练模块包括: 切分子模块,用于对所述训练数据进行音节切分,得到至少一种切分形式; 计算子模块,用于将所述切分形式对照拼音表,按照正确音节和不完整音节分数从高到低计算音节分数和,选择音节分数和最大的切分形式作为训练切分结果。
【文档编号】G06F3/023GK103593062SQ201310552133
【公开日】2014年2月19日 申请日期:2013年11月8日 优先权日:2013年11月8日
【发明者】薛永刚, 项碧波 申请人:北京奇虎科技有限公司, 奇智软件(北京)有限公司