语料检测方法及装置的制造方法
【专利摘要】本发明实施例提供一种语料检测方法及装置,所述方法包括:获取语料列表以及所述语料列表中信息标识对应的类型;调用至少一个搜索引擎,触发所述搜索引擎将所述语料列表中的信息标识作为搜索关键词,按照所述类型进行搜索;获取所述搜索引擎提供的属于所述类型的搜索结果;根据所述搜索结果,检测每一个信息标识的搜索结果与所述信息标识是否满足匹配条件;将不满足所述匹配条件的信息标识确定为错误标识。本发明实施例提高了语料检测效率。
【专利说明】
语料检测方法及装置
技术领域
[0001]本发明实施例涉及语音识别技术领域,尤其涉及一种语料检测方法及装置。
【背景技术】
[0002]采用规范化的标记语言,例如BNF(Backus-Naur Form,巴克斯范式)或者ABNF(Augmented BNF,扩展的巴克斯范式),进行语法文件编译时,通常会用到由大量类型相同的内容信息的信息标识构成的语料列表,信息标识用于标识所述内容信息。这些内容信息的类型例如可以包括音乐、对应的信息标识即为音乐名称;电影、对应的信息标识即为电影名称等。
[0003]由同一类型的内容信息的信息标识构成的语料列表中,包括大量的信息标识。而这些信息标识不可避免的会存在错误的标识,实际应用中并不存在错误标识对应的内容信息,例如由音乐名称构成的语料列表中,很多音乐名称可能是错误的,不存在对应的音乐,因此需要对语料列表进行检测和修改。
[0004]现有技术中,对语料列表的检测通常是由人工进行的,但是这种人工检测的方式、检测效率较低。
【发明内容】
[0005]本发明实施例提供一种语料检测方法及装置,用以解决现有技术中检测效率低的技术问题。
[0006]本发明实施例提供一种语料检测方法,包括:
[0007]获取语料列表以及所述语料列表中信息标识对应的类型;
[0008]调用至少一个搜索引擎,触发所述搜索引擎将所述语料列表中的信息标识作为搜索关键词,按照所述类型进行搜索;
[0009]获取所述搜索引擎提供的属于所述类型的搜索结果;
[0010]根据所述搜索结果,检测每一个信息标识的搜索结果与所述信息标识是否满足匹配条件;
[0011 ]将不满足匹配条件的信息标识确定为错误标识。
[0012]本发明实施例提供一种语料检测装置,包括:
[0013]语料获取模块,获取语料列表以及所述语料列表中信息标识对应的类型;
[0014]调用模块,用于调用至少一个搜索引擎,触发所述搜索引擎将所述语料列表中的信息标识作为搜索关键词,按照所述类型进行搜索;
[0015]结果获取模块,用于获取所述搜索引擎提供的属于所述类型的搜索结果;
[0016]结果检测模块,用于根据所述搜索结果,检测每一个信息标识的搜索结果与所述信息标识是否满足匹配条件;
[0017]错误确定模块,用于将不满足匹配条件的信息标识确定为错误标识。
[0018]本发明实施例提供的语料检测方法及装置,对于任一个类型的语料列表,调用至少一个搜索引擎,触发所述搜索引擎将所述语料列表中的信息标识作为搜索关键词,按照所述类型中进行搜索;从而可以根据所述搜索结果,检测每一个信息标识的搜索结果与所述信息标识是否满足匹配条件;将与搜索结果不满足匹配条件的信息标识确定为错误标识,从而实现了语料列表的自动检测,提高检测效率。
【附图说明】
[0019]为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0020]图1为本发明语料检测方法一个实施例流程图;
[0021 ]图2为本发明语料检测方法又一个实施例流程图;
[0022]图3为本发明语料检测装置一个实施例结构示意图;
[0023]图4为本发明语料检测装置又一个实施例的结构示意图。
【具体实施方式】
[0024]为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0025]本发明的技术方案主要适用于语音识别领域中,用于对语法文件的建立需要的语料列表进行检测。
[0026]语料列表中包括属于同一类型的内容信息对应的信息标识,这些内容信息的类型例如可以包括音乐、语料列表中的信息标识即为音乐名称;电影、语料列表中的信息标识即为电影名称等;电视剧,语料列表中的信息标识即为电视剧名称;综艺,语料列表中的信息标识即为综艺节目名称等等。
[0027]由于在语料搜索时,语料列表中的信息标识不可避免的会出现错误,为了解决现有技术中,人工对语料列表进行检测导致效率和准确度均较低的技术问题,发明人经过一系列研究,提出本发明的技术方案。在本发明实施例中,对于任一个类型的语料列表,调用至少一个搜索引擎,触发所述搜索引擎将所述语料列表中的信息标识作为搜索关键词,按照所述类型中进行搜索;从而可以根据所述搜索结果,检测每一个信息标识的搜索结果与所述信息标识是否满足匹配条件;将与搜索结果不满足匹配条件的信息标识确定为错误标识,从而实现了语料列表的自动检测,提高检测效率。
[0028]下面将结合附图对本发明技术方案进行详细描述。
[0029]图1是本发明实施例提供的一种语料检测方法一个实施例的流程图,该方法可以包括以下几个步骤:
[0030]101:获取语料列表以及所述语料列表中信息标识对应的类型。
[0031]语料列表中的信息标识对应的类型为内容信息的类型。
[0032]比如,语料列表为由音乐名称构成的时,类型即为“音乐”。
[0033]102:调用至少一个搜索引擎,触发所述搜索引擎将所述语料列表中的信息标识作为搜索关键词,按照所述类型进行搜索。
[0034]获取语料列表以及类型之后,本发明实施例中,即调用搜索引擎,在搜索引擎中进行搜索。
[0035]搜索引擎可以是第三方提供的搜素引擎。
[0036]搜索引擎可以是将信息标识以及所述类型均作为搜索关键词进行搜索。例如类型为音乐,信息标识为音乐名称时,假设音乐名称为“XX”,则搜索关键词可以包括“音乐”以及“XX”。因此即可以获得属于所述类型的搜索结果。
[0037]103:获取所述搜索引擎提供的属于所述类型的搜索结果。
[0038]104:根据所述搜索结果,检测每一个信息标识的搜索结果与所述信息标识是否满足匹配条件。
[0039]105:将不满足匹配条件的信息标识确定为错误标识。
[0040]获取语料列表以及类型之后,本发明实施例中,即调用搜索引擎,在搜索引擎中进行搜索。该搜索引擎可以为一个,为了进一步提高准确度,可以为多个。
[0041]搜索引擎可以是第三方提供的搜素引擎。
[0042]搜索引擎可以是将信息标识以及所述类型均作为搜索关键词进行搜索。例如类型为音乐,信息标识为音乐名称时,假设音乐名称为“XX”,则搜索关键词可以包括“音乐”以及“XX”。因此即可以获得属于所述类型的搜索结果。
[0043]根据所述搜索结果,可以检测每一个信息标识与搜索结果是否满足匹配条件,作为一种可能的实现方式可以是检测所述搜索结果是否包括所述信息标识对应的内容信息。也即匹配条件为搜索结果包括所述信息标识对应的内容信息。例如信息标识为电影名称,即查找搜索结果是否包括与所述电影名称对应的电影。如果没有与电影名称对应的电影,则该电影名称即为错误的。
[0044]因此,所述根据所述搜索结果,检测每一个信息标识的搜索结果与所述信息标识是否满足匹配条件可以是:
[0045]根据所述搜索结果,检测每一个信息标识的搜索结果中是否存在与所述信息标识对应的内容信息。
[0046]当然,作为又一个实施例,该搜索引擎可以是对应所述类型的搜索引擎,比如类型为音乐时,搜索引擎可以是网络音乐播放器等、类型为电影或电视剧时,搜索引擎可以是网络视频播放器等。
[0047]从而通过属于某一类型的搜索引擎,输入任意关键词获得的搜索结果均为该类型的搜索结果。比如音乐类搜索引擎,获得的都是音乐;电影类搜索引擎获得的均为电影。搜索引擎支持基于信息标识的搜索,比如在音乐类搜索引擎,可以通过音乐名称搜索音乐。如果信息标识正确,即可以获得对应的内容信息,而如果信息标识错误,则搜索结果可能为空,或者不是信息标识对应的内容信息。
[0048]如果搜索结果包括信息标识对应的内容信息时,该内容信息同时会携带信息标识。因此作为又一种可能的实现方式可以是检测所述搜索结果是否包括所述信息标识。也即匹配条件为搜索结果包括所述信息标识。
[0049]因此如果搜索结果包括所述信息标识,即表明存在对应的内容信息。例如信息标识为音乐名称,在网络音乐播放器中进行搜索,如果搜索结果中不包括所述音乐名称,即表明该音乐名称为错误的。
[0050]在确定出信息标识为错误标识之后,即可以自动将错误标识从所述语料列表中删除,以提高语料列表的准确度。
[0051]在本实施例中,对于语料列表,可以通过调用至少一个搜索引擎,触发所述搜索引擎将所述语料列表中的信息标识作为搜索关键词,按照所述类型中进行搜索;从而可以根据所述搜索结果,检测每一个信息标识的搜索结果与所述信息标识是否满足匹配条件;将与搜索结果不满足匹配条件的信息标识确定为错误标识,从而实现了语料列表的自动检测,提尚检测效率。
[0052]图2为本发明实施例提供的一种语料检测方法又一个实施例的流程图,该方法可以包括以下几个步骤:
[0053]201:获取语料列表以及所述语料列表中信息标识对应的类型。
[0054]语料列表中的信息标识对应的类型为内容信息的类型。
[0055]比如,语料列表为由音乐名称构成的时,类型即为“音乐”。
[0056]202:调用至少一个搜索引擎,触发所述搜索引擎将所述语料列表中的信息标识作为搜索关键词,按照所述类型进行搜索。
[0057]获取语料列表以及类型之后,本发明实施例中,即调用搜索引擎,在搜索引擎中进行搜索。
[0058]搜索引擎可以是第三方提供的搜素引擎。
[0059]搜索引擎可以是将信息标识以及所述类型均作为搜索关键词进行搜索。例如类型为音乐,信息标识为音乐名称时,假设音乐名称为“XX”,则搜索关键词可以包括“音乐”以及“XX”。因此即可以获得属于所述类型的搜索结果。
[0060]203:获取所述搜索引擎提供的属于所述类型的搜索结果。
[0061]204:根据所述搜索结果,检测每一个信息标识的搜索结果与所述信息标识是否满足匹配条件。
[0062]205:将不满足匹配条件的信息标识确定为错误标识。
[0063]步骤201?步骤205的操作与上述实施例中步骤101?步骤105的操作相同,在此不再赘述。
[0064]206:依据所述错误标识对应搜索结果,将所述错误标识进行修正。
[0065]在确定出错误标识之后,除了可以将错误标识从语料列表中删除,作为又一种可能的实现方式,还可以根据信息标识对应的搜索结果,将所述信息标识进行修正。
[0066]根据语料列表中的任一个信息标识调用搜索引擎进行搜索,如果该信息标识本身是一个错误标识,不存在对应的内容信息。则搜索结果可能为空,或者搜索结果为与信息标识相似度较高的内容信息,而这些内容信息为存在的内容信息,因此即可以根据该搜索结果中这些内容信息的信息标识来修正该错误标识。
[0067]也即依据所述信息标识对应的搜索结果,将所述错误标识进行修正可以是:
[0068]根据所述错误标识对应搜索结果中的内容信息,获取所述内容信息对应的信息标识;
[0069]利用所述内容信息对应的信息标识,将所述错误标识进行修正。
[0070]例如信息标识为音乐名称时,假设音乐名称为“可惜是你”,而并不存在“可惜是你”对应的歌曲音乐,搜索结果可能包括与“可惜是你”相似度较高的歌曲音乐,例如存在“可惜不是你”对应的歌曲音乐。因此利用“可惜是你”搜索不到对应的歌曲音乐,则确认其为错误名称,而搜索结果中包括与错误名称相似度较高的其他歌曲音乐,该歌曲音乐的音乐名称为“可惜不是你”,则可以利用“可惜不是你”对“可惜是你”进行修改,具体的可以将“可惜是你”从语料列表中删除,并将“可惜不是你”加入。
[0071]当然,利用信息标识进行搜索,获得的搜索结果即为信息标识时,如果信息标识为正确标识,那么搜素结果中存在该信息标识;而如果信息标识为错误标识,那么搜索结果中可能包括与该错误标识相似度较高的其他信息标识。则可以利用其它信息标识直接对该错误标识进行修改,如果其它信息标识包括多个,可以均加入语料列表中,并将错误标识删除。
[0072]在本实施例中,实现了对语料列表的自动检测,提高检测效率的同时,还可以实现对语料列表中错误标识的修正,丰富并提高了语料列表的准确度。
[0073]图3为本发明实施例提供的一种语料检测装置一个实施例的结构示意图,该装置可以包括:
[0074]语料获取模块301,获取语料列表以及所述语料列表中信息标识对应的类型。
[0075]语料列表中的信息标识对应的类型为内容信息的类型。
[0076]比如,语料列表为由音乐名称构成的时,类型即为“音乐”。
[0077]调用模块302,用于调用至少一个搜索引擎,触发所述搜索引擎将所述语料列表中的信息标识作为搜索关键词,按照所述类型进行搜索。
[0078]获取语料列表以及类型之后,本发明实施例中,即调用搜索引擎,在搜索引擎中进行搜索。
[0079]搜索引擎可以是第三方提供的搜素引擎。
[0080]作为一种可能的实现方式,调用模块可以具体是调用至少一个搜索引擎,触发所述搜索引擎将信息标识以及所述类型均作为搜索关键词进行搜索。例如类型为音乐,信息标识为音乐名称时,假设音乐名称为“XX”,则搜索关键词可以包括“音乐”以及“XX”。因此即可以获得属于所述类型的搜索结果。
[0081]其中,所述搜索引擎具体可以是对应所述类型的搜索引擎,比如类型为音乐时,搜索引擎可以是网络音乐播放器等、类型为电影或电视剧时,搜索引擎可以是网络视频播放器等。因此,该调用模块可以具体是:
[0082]调用至少一个与所述类型对应的搜索引擎,其中,通过所述搜索引擎获得的搜索结果均属于所述类型。
[0083]该搜索引擎可以为一个,为了进一步提高准确度,可以为多个。
[0084]结果获取模块303,用于获取所述搜索引擎提供的属于所述类型的搜索结果。
[0085]结果检测模块304,用于根据所述搜索结果,检测每一个信息标识的搜索结果与所述信息标识是否满足匹配条件。
[0086]错误确定模块305,用于将不满足匹配条件的信息标识确定为错误标识。
[0087]作为又一个实施例,所述结果检测模块可以具体用于:
[0088]根据所述搜索结果,检测每一个信息标识的搜索结果中是否存在与所述信息标识对应的内容信息。
[0089]也即匹配条件为搜索结果包括所述信息标识对应的内容信息。例如信息标识为电影名称,即查找搜索结果是否包括与所述电影名称对应的电影。如果没有与电影名称对应的电影,则该电影名称即为错误的。
[0090]在所述搜索引擎为对应所述类型的搜索引擎时,如果搜索结果包括信息标识对应的内容信息时,该内容信息同时会携带信息标识。因此作为又一种可能的实现方式检测模块可以是检测所述搜索结果是否包括所述信息标识。也即匹配条件为搜索结果包括所述信息标识。
[0091]在确定出信息标识为错误标识之后,可以自动将错误标识从所述语料列表中删除,以提高语料列表的准确度。
[0092]因此,该装置还可以包括:
[0093]第一修正模块,用于将错误标识从所述语料列表中删除。
[0094]在本实施例中,对于语料列表,可以通过调用至少一个搜索引擎,触发所述搜索引擎将所述语料列表中的信息标识作为搜索关键词,按照所述类型中进行搜索;从而可以根据所述搜索结果,检测每一个信息标识的搜索结果与所述信息标识是否满足匹配条件;将与搜索结果不满足匹配条件的信息标识确定为错误标识,从而实现了语料列表的自动检测,提尚检测效率。
[0095]图4为本发明实施例提供的一种语料检测装置又一个实施例的结构示意图,该装置可以包括:
[0096]语料获取模块401,获取语料列表以及所述语料列表中信息标识对应的类型。
[0097]调用模块402,用于调用至少一个搜索引擎,触发所述搜索引擎将所述语料列表中的信息标识作为搜索关键词,按照所述类型进行搜索。
[0098]结果获取模块403,用于获取所述搜索引擎提供的属于所述类型的搜索结果。
[0099]结果检测模块404,用于根据所述搜索结果,检测每一个信息标识的搜索结果与所述信息标识是否满足匹配条件。
[0100]错误确定模块405,用于将不满足匹配条件的信息标识确定为错误标识。
[0101]其中,所述语料获取模块、调用模块、结果获取模块以及结果检测模块与上述实施例中的语料获取模块、调用模块、结果获取模块以及结果检测模块功能相同,在此不再赘述。
[0102]此外,该装置还可以包括:
[0103]第二修正模块406,用于依据所述错误标识对应的搜索结果,将所述错误标识进行修正。
[0104]根据语料列表中的任一个信息标识调用搜索引擎进行搜索,如果该信息标识本身是一个错误标识,不存在对应的内容信息。则搜索结果可能为空,或者搜索结果为与信息标识相似度较高的内容信息,而这些内容信息为存在的内容信息,因此即可以根据该搜索结果中这些内容信息的信息标识来修正该错误标识。
[0105]因此,具体的,该第二修改模块可以用于:
[0106]根据所述错误标识对应搜索结果中的内容信息,获取所述内容信息对应的信息标识;
[0107]利用所述内容信息对应的信息标识,将所述错误标识进行修正。
[0108]在本实施例中,不仅实现了对语料列表的自动检测,提高了检测效率,同时还可以实现对语料列表中错误标识的修正,丰富并提高了语料列表的准确度。
[0109]以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
[0110]通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如R0M/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0111]最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
【主权项】
1.一种语料检测方法,其特征在于,包括: 获取语料列表以及所述语料列表中信息标识对应的类型; 调用至少一个搜索引擎,触发所述搜索引擎将所述语料列表中的信息标识作为搜索关键词,按照所述类型进行搜索; 获取所述搜索引擎提供的属于所述类型的搜索结果; 根据所述搜索结果,检测每一个信息标识的搜索结果与所述信息标识是否满足匹配条件; 将不满足所述匹配条件的信息标识确定为错误标识。2.根据权利要求1所述的方法,其特征在于,所述调用至少一个搜索引擎包括: 调用至少一个与所述类型对应的搜索引擎,通过所述搜索引擎获得的搜索结果均属于所述类型。3.根据权利要求1所述的方法,其特征在于,所述根据所述搜索结果,检测每一个信息标识的搜索结果与所述信息标识是否满足匹配条件包括: 根据所述搜索结果,检测每一个信息标识的搜索结果中是否存在与所述信息标识对应的内容信息。4.根据权利要求1所述的方法,其特征在于,调用至少一个搜索引擎,触发所述搜索引擎将所述语料列表中的信息标识作为搜索关键词,在所述类型中进行搜索包括: 调用至少一个搜索引擎,触发所述搜索引擎将所述语料列表中的信息标识,以及所述类型作为搜索关键词进行搜索。5.根据权利要求1所述的方法,其特征在于,所述将与搜索结果不满足匹配条件的信息标识确定为错误标识之后,所述方法还包括: 将错误标识从所述语料列表中删除; 或者依据所述错误标识对应的搜索结果,将所述错误标识进行修正。6.一种语料检测装置,其特征在于,包括: 语料获取模块,获取语料列表以及所述语料列表中信息标识对应的类型; 调用模块,用于调用至少一个搜索引擎,触发所述搜索引擎将所述语料列表中的信息标识作为搜索关键词,按照所述类型进行搜索; 结果获取模块,用于获取所述搜索引擎提供的属于所述类型的搜索结果; 结果检测模块,用于根据所述搜索结果,检测每一个信息标识的搜索结果与所述信息标识是否满足匹配条件; 错误确定模块,用于将不满足匹配条件的信息标识确定为错误标识。7.根据权利要求6所述的装置,其特征在于,所述调用模块具体用于: 调用至少一个与所述类型对应的搜索引擎,通过所述搜索引擎获得的搜索结果均属于所述类型。8.根据权利要求6所述的装置,其特征在于,所述结果检测模块具体用于: 根据所述搜索结果,检测每一个信息标识的搜索结果中是否存在与所述信息标识对应的内容信息。9.根据权利要求6所述的装置,其特征在于,所述调用模块具体用于: 调用至少一个搜索引擎,触发所述搜索引擎将所述语料列表中的信息标识,以及所述类型作为搜索关键词进行搜索。10.根据权利要求6所述的装置,其特征在于,还包括: 第一修正模块,用于将错误标识从所述语料列表中删除; 或者, 第二修正模块,用于依据所述错误标识对应的搜索结果,将所述错误标识进行修正。
【文档编号】G06F17/30GK105868356SQ201610187354
【公开日】2016年8月17日
【申请日】2016年3月29日
【发明人】张俊博
【申请人】乐视控股(北京)有限公司, 乐视致新电子科技(天津)有限公司