本申请涉及通信,尤其是涉及一种语料库的共享建立方法、系统及存储介质。
背景技术:
1、语料库即用于存放语言材料的数据库,语言材料为在实际使用中真实使用过的语言数据,并根据语言材料进行存储、处理、统计、分析,已存储在语料库中,以供在进行某一语言方面进行研究时提供帮助。然而在日常使用中,当对他人的语料库进行调用共享时,由于调用的语料库的创建者与调用者对语料库中的语料信息的分类和处理方式不同,导致在使用他人的语料库时需要对调用的语料库进行了解和更改自身的使用习惯,而语料库的多样性使得调用者需要经常性变更自身的使用习惯,为日常使用增加了不便性,存在改进之处。
技术实现思路
1、为了提高语料库的配置效率,本申请提供了一种语料库的共享建立方法、系统及存储介质。
2、第一方面,本申请提供了一种语料库的共享建立方法,采用如下的技术方案:
3、一种语料库的共享建立方法,包括
4、建立自身使用的语料库,以得到自语料库;
5、获取他人的语料库,以得到他语料库的语言材料数据;
6、基于自身语料库的分类项目,对他语料库中的语料数据进行自匹配,以得到匹配结果;
7、根据匹配结果对他人语料库进行修改划分,以生成自适应的自适应语料库。
8、优选的,录入并存储语言材料;
9、基于语言材料对语言信息进行分类,以得到分类数据;所述分类包括使用语气分类和使用场景分类;
10、基于分类数据建立自语料库。
11、优选的,下载并录入他人语料库,以得到他语料库;
12、获取语料库中的语言材料数据;
13、基于自语料库的应用领域对他语料库中的语言材料数据进行筛选;所述筛选结果为他语料库中满足自语料库所需应用领域的语言材料数据。
14、优选的,获取自语料库的语言材料数据和他语料库的语言材料数据;
15、将他语料库的语言材料数据和自语料库中的语言材料数据进行比对,以得到他语料库中的剩余语言材料数据;所述剩余语言材料数据为他语料库中去除自语料库中语言材料数据的剩余语言材料数据;
16、获取自语料库的分类数据和分类原则;
17、基于自语料库的分类数据和分类原则,将剩余语言材料数据与自语料库中的语言材料数据进行匹配分析,以得到匹配结果。
18、优选的,根据匹配结果,将匹配结果中语言材料相似的添加到同一分类项中;所述的语言材料相似的包括语言文本相似、语言注解相似的语言材料;
19、将匹配结果中语言材料中语言文本不同但语言注解相同的进行文本组合,并分配至同一注解分类项中;
20、将匹配结果中语言材料中语言文本相同但语言注解不同的进行注解合并,并分布到同一文本分类项中。
21、优选的,所述的获取自语料库的分类数据和分类原则具体为根据自语料库中语言材料的语言信息的注解以及语言标签等信息进行应用领域分类和应用场景分类,同时根据相似注解、相同语言标签的分类确定分类原则。
22、优选的,所述的基于自语料库的分类数据和分类原则,将剩余语言材料数据与自语料库中的语言材料数据进行匹配分析,以得到匹配结果具体为根据他语料库中剩余语言材料数据中的语言标注信息,对自语料库中的全部语言材料数据进行一一比对,以得到匹配度数据。
23、第二方面,本申请提供了一种语料库的共享建立系统,采用的技术方案:
24、一种语料库的共享建立系统,包括:
25、数据读取模块,用于读取自语料库的语言材料文本和他语料库中的语言材料文本并对应输出自语料库语言材料数据和他语料库语言材料数据;
26、语料库生成模块,配置为与所述数据读取模块信号连接,用于接收所述自语料库语言材料数据并对应生成自语料库;
27、数据处理模块,配置为与所述数据读取模块信号连接,用于接收所述自语料库语言材料数据和他语料库语言材料数据,并对所述他语料库语言材料数据进行筛选,并输出筛选结果数据;以及,
28、数据整理模块,配置为与所述数据读取模块和数据处理模块信号连接,用于接收所述自语料库语言材料数据和筛选结果数据,并将所述筛选结果数据与所述自语料库数据进行匹配,以整理生成自适应语料库。。
29、第三方面,本申请提供了一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令运行时执行上述的语料库的共享建立方法的步骤。
30、综上所述,本申请包括以下至少一种有益技术效果:
31、1.通过对自身使用的语料库进行构建,以得到自语料库框架,再通过获取他人的语料库数据,并根据自语料库对他语料库中的语言材料数据进行数据匹配和分类,以确定匹配结果,再根据匹配结果生成自适应语料库,通过将他语料库以自语料库为框架进行匹配分类,使得在调用他语料库时,减少与自语料库之间的冲突,从而提高了语料库的配置效率;
32、2.借助自语料库的应用场景和应用领域对他语料库进行数据筛选,使得筛选出的数据与应用领域相适配,减少了其余数据的干扰,以及通过对他语料库中的语言材料数据与自语料库中的语言材料数据进行匹配,去除语言材料相同的语言材料数据,以使得减少语言材料数据的冗余,减少干扰性;
33、3.综合利用自语料库与他语料库中的语言材料数据进行对比,使得对语言材料数据中语言文本相似、语言注解相似的进行添加,对语言材料中语言文本不同而语言注解相同的进行文本组合,对语言材料中的语言文本相同但注解不同的进行注解合并以得到新的注解数据,进而扩充语言材料数据,增加检索结果的可信度。
1.一种语料库的共享建立方法,其特征在于,包括:
2.根据权利要求1所述的一种语料库的共享建立方法,其特征在于:所述的建立自身使用的语料库,以得到自语料库的步骤,具体包括:
3.根据权利要求1所述的一种语料库的共享建立方法,其特征在于:所述的获取他人的语料库,以得到他语料库的语言材料数据的步骤,具体包括:
4.根据权利要求1所述的一种语料库的共享建立方法,其特征在于:所述的基于自语料库的分类项目,对他语料库中的语料数据进行自匹配,以得到匹配结果的步骤,具体包括:
5.根据权利要求1所述的一种语料库的共享建立方法,其特征在于:所述的根据匹配结果对他语料库进行修改划分,以生成自适应的自适应语料库的步骤,具体包括:
6.根据权利要求4所述的一种语料库的共享建立方法,其特征在于:所述的获取自语料库的分类数据和分类原则具体为根据自语料库中语言材料的语言信息的注解以及语言标签等信息进行应用领域分类和应用场景分类,同时根据相似注解、相同语言标签的分类确定分类原则。
7.根据权利要求4所述的一种语料库的共享建立方法,其特征在于:所述的基于自语料库的分类数据和分类原则,将剩余语言材料数据与自语料库中的语言材料数据进行匹配分析,以得到匹配结果具体为根据他语料库中剩余语言材料数据中的语言标注信息,对自语料库中的全部语言材料数据进行一一比对,以得到匹配度数据。
8.一种语料库的共享建立系统,应用于上述权利要求1-7中的任一所述的方法,其特征在于,包括:
9.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,所述计算机指令运行时执行权利要求1-7中任一项所述的语料库的共享建立方法的步骤。