文本纠错模型训练方法及其装置、电子设备、存储介质与流程

文档序号:33364644发布日期:2023-03-07 22:06阅读:37来源:国知局
文本纠错模型训练方法及其装置、电子设备、存储介质与流程

1.本技术涉及自然语言处理技术领域,尤其是一种文本纠错模型训练方法及其装置、电子设备、存储介质。


背景技术:

2.文本纠错技术是计算机自然语言处理中的一个重要研究方向,通过计算机算法可以纠错文本中人为因素产生的错误,比如,错别字、错误语序等。在日常生活中,会发现公众号推文、电子杂志和出版书籍的文本中会存在错误,如病句、拼写错误等等。文本错误会导致文章表达歧义,也使得阅读者的阅读体验不佳。通过文本纠错技术能够实现中文语句自动检查、自动纠错,有利于提高语言表达正确性,减少人工校验成本。
3.相关技术中,为了修正中文写作中的错别字之类的拼写错误,主要是通过编码-解码的方式训练文本纠错模型,并对所有训练样本进行学习得到正确语言规律,利用文本纠错模型将包含错别字的文本纠正为正确文本。但是,受到所使用的的训练样本的限制,当所使用的训练样本的质量不高时,会导致训练得到的文本纠错模型偏差较大,进而导致文本纠错模型的纠错效果不佳。


技术实现要素:

4.本技术实施例提供了一种文本纠错模型训练方法及其装置、电子设备、存储介质,能够以较大的概率选择贡献度较大的历史训练样本用于文本纠错模型的训练中,使得训练得到的文本纠错模型的纠错效果更佳。
5.第一方面,本技术实施例提供了一种文本纠错模型训练方法,所述方法包括:
6.对从样本缓存库中抽取的多个第一历史样本进行贡献度计算处理,得到贡献度;
7.根据所述贡献度从高到低的排序信息和预设划定级别k对所述样本缓存库进行等距划分,得到k级样本缓存库,其中,所述k级样本缓存库中,各级样本缓存库内贡献度最高的所述第一历史样本的被选概率逐级减小;
8.分别以所述被选概率对所述各级样本缓存库中贡献度最高的所述第一历史样本进行选择,得到k个用于更新训练集的第二历史样本;
9.根据k个所述第二历史样本对本次使用的原训练集进行更新处理,得到更新训练集,并根据所述更新训练集对文本纠错模型进行训练。
10.第二方面,本技术实施例还提供了一种文本纠错模型训练装置,包括:
11.贡献度计算模块,用于对从样本缓存库中抽取的多个第一历史样本进行贡献度计算处理,得到贡献度;
12.样本缓存库划分模块,用于根据所述贡献度从高到低的排序信息和预设划定级别k对所述样本缓存库进行等距划分,得到k级样本缓存库,其中,所述k级样本缓存库中,各级样本缓存库内贡献度最高的所述第一历史样本的被选概率逐级减小;
13.历史样本选取模块,用于分别以所述被选概率对所述各级样本缓存库中贡献度最
高的所述第一历史样本进行选择,得到k个用于更新训练集的第二历史样本;
14.训练更新模块,用于根据k个所述第二历史样本对本次使用的原训练集进行更新处理,得到更新训练集,并根据所述更新训练集对文本纠错模型进行训练。
15.第三方面,本技术实施例还提供了一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上第一方面所述的文本纠错模型训练方法。
16.第四方面,本技术实施例还提供了一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行如上所述的文本纠错模型训练方法。
17.本技术实施例包括:文本纠错模型训练装置在对从样本缓存库中抽取的多个第一历史样本进行贡献度计算处理,得到贡献度之后,根据贡献度从高到低的排序信息和预设划定级别k对样本缓存库进行等距划分,得到k级样本缓存库,其中,k级样本缓存库中,各级样本缓存库内贡献度最高的第一历史样本的被选概率逐级减小;接着,分别以被选概率对各级样本缓存库中贡献度最高的第一历史样本进行选择,得到k个用于更新训练集的第二历史样本;最后,根据k个第二历史样本对本次使用的原训练集进行更新处理,得到更新训练集,并根据更新训练集对文本纠错模型进行训练。根据本技术实施例的方案,利用文本纠错模型训练装置,根据历史样本的贡献度的高低排序将样本缓存库划分为k级样本缓存库,各级样本缓存库中贡献度最高的第一历史样本的被选概率逐级减小,而后以被选概率进行选择得到k个第二历史样本,用k个第二历史样本更新原训练集,得到更新训练集,基于更新训练集训练文本纠错模型,优化该模型的纠错效果。即是说,本技术实施例的方案能够以较大的概率选择贡献度较大的历史训练样本用于文本纠错模型的训练中,使得训练得到的文本纠错模型的纠错效果更佳。
附图说明
18.附图用来提供对本技术技术方案的进一步理解,并且构成说明书的一部分,与本技术的实施例一起用于解释本技术的技术方案,并不构成对本技术技术方案的限制。
19.图1是本技术一个实施例提供的用于执行文本纠错模型训练方法的系统架构的示意图;
20.图2是本技术一个实施例提供的文本纠错模型训练方法的流程图;
21.图3是图2中步骤s210的具体方法的流程图;
22.图4是图3中步骤s310的具体方法的流程图;
23.图5是图3中步骤s320的具体方法的流程图;
24.图6是本技术一个实施例提供的文本纠错模型训练装置的结构示意图;
25.图7是本技术一个实施例提供的电子设备的硬件结构示意图。
具体实施方式
26.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本技术,并不用于限定本技术。
27.需要说明的是,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同
于流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
28.本技术提供了一种文本纠错模型训练方法、文本纠错模型训练装置、电子设备及计算机可读存储介质,利用文本纠错模型训练装置,根据历史样本的贡献度的高低排序将样本缓存库划分为k级样本缓存库,各级样本缓存库中贡献度最高的第一历史样本的被选概率逐级减小,而后以被选概率进行选择得到k个第二历史样本,用k个第二历史样本更新原训练集,得到更新训练集,基于更新训练集训练文本纠错模型,优化该模型的纠错效果。即是说,本技术实施例的方案能够以较大的概率选择贡献度较大的历史训练样本用于文本纠错模型的训练中,使得训练得到的文本纠错模型的纠错效果更佳。
29.下面结合附图,对本技术实施例作进一步阐述。
30.如图1所示,图1是本技术一个实施例提供的用于执行文本纠错模型训练方法的系统架构的示意图。在图1的示例中,该文本纠错模型训练系统的系统框架包括训练样本库110、样本缓存库120、模型训练装置130和部署装置140,其中,模型训练装置130分别与训练样本库110、样本缓存库120、部署装置140通信连接。
31.训练样本库110用于存储文本序列,即存储用于文本纠错模型训练、验证和测试的所有样本,每个样本由真样本(无错误的样本)和训练样本(包含一定错误的样本)组成;样本来源可以是互联网公开的文本纠错样本集,如sighan2013/2014/2015等,也可以自行构造。样本缓存库120用于存放训练过程中被使用过的样本,即存放历史样本。模型训练装置130中配置了训练文本纠错模型的代码,用于从训练样本库110中获取训练样本对文本纠错模型进行训练,并能够对样本缓存库120中的历史样本进行抽取处理或存入处理。部署装置140用于将文本纠错模型部署到生产环境供其它程序调用。
32.需要说明的是,当图1所示的文本纠错模型训练系统工作时,模型训练装置130需要训练文本纠错模型,假设该文本纠错模型为clm
θ
,其中,θ代表文本纠错模型中神经网络的权重参数。文本纠错模型由用户自行设计,并对训练权重参数进行初始化。在模型训练过程中,权重参数不断被调整直至达到收敛条件。设训练样本总数为n,样本s(i)对应的表征向量为vsi,vsi可由各种词嵌入向量模型(如glove模型)得到,是一个固定维度的向量。在本技术中视表征向量作为文本纠错模型的输入。
33.具体地,当图1所示的文本纠错模型训练系统工作时,模型训练装置130从训练样本库110中获取训练集对文本纠错模型进行训练,将使用过的训练样本作为历史样本存入样本缓存库120中。在完成本次训练后,模型训练装置130按照训练步数从样本缓存库120中抽取多个第一历史样本,对抽取的多个第一历史样本进行贡献度计算处理,得到贡献度;而后根据贡献度从高到低的排序信息和预设划定级别k对样本缓存库120进行等距划分,得到k级样本缓存库,其中,k级样本缓存库中,各级样本缓存库内贡献度最高的第一历史样本的被选概率逐级减小;而后,分别以被选概率对各级样本缓存库中贡献度最高的第一历史样本进行选择,得到k个用于更新训练集的第二历史样本;最后,根据k个第二历史样本更新本次训练使用的原训练集,得到更新训练集。基于更新训练集对文本纠错模型进行训练,更新文本纠错模型中的权重参数,以优化该模型的纠错效果。因此,文本纠错模型训练系统能够以较大的概率选择贡献度较大的历史训练样本用于文本纠错模型的训练中,使得训练得到的文本纠错模型的纠错效果更佳。
34.本技术实施例描述的系统架构以及应用场景是为了更加清楚的说明本技术实施例的技术方案,并不构成对于本技术实施例提供的技术方案的限定,本领域技术人员可知,随着系统架构的演变和新应用场景的出现,本技术实施例提供的技术方案对于类似的技术问题,同样适用。
35.本领域技术人员可以理解的是,图1中示出的系统架构并不构成对本技术实施例的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
36.基于上述系统架构,下面提出本技术的文本纠错模型训练方法的各个实施例。
37.第一方面,如图2所示,图2是本技术一个实施例提供的文本纠错模型训练方法的流程图。该文本纠错模型训练方法可以包括但不限于有步骤s210至步骤s240。
38.步骤s210:对从样本缓存库中抽取的多个第一历史样本进行贡献度计算处理,得到贡献度。
39.步骤s220:根据贡献度从高到低的排序信息和预设划定级别k对样本缓存库进行等距划分,得到k级样本缓存库,其中,k级样本缓存库中,各级样本缓存库内贡献度最高的第一历史样本的被选概率逐级减小。
40.步骤s230:分别以被选概率对各级样本缓存库中贡献度最高的第一历史样本进行选择,得到k个用于更新训练集的第二历史样本。
41.步骤s240:根据k个第二历史样本对本次使用的原训练集进行更新处理,得到更新训练集,并根据更新训练集对文本纠错模型进行训练。
42.通过步骤s210至步骤s240,能够在对从样本缓存库中抽取的多个第一历史样本进行贡献度计算处理得到贡献度之后,根据贡献度从高到低的排序信息和预设划定级别k对样本缓存库进行等距划分,得到k级样本缓存库,其中,k级样本缓存库中,各级样本缓存库内贡献度最高的第一历史样本的被选概率逐级减小;接着,分别以被选概率对各级样本缓存库中贡献度最高的第一历史样本进行选择,得到k个用于更新训练集的第二历史样本;最后,根据k个第二历史样本对本次使用的原训练集进行更新处理,得到更新训练集,并根据更新训练集对文本纠错模型进行训练,更新文本纠错模型中的权重参数,以优化该模型的纠错效果。
43.需要说明的是,步骤s240中,在统计所有参与训练历史样本的贡献度之后,通过预设划定级别k,按贡献度从高到低的排序将样本缓存库从高到低等距划分为k个区间,从而将样本缓存库划分为k级样本缓存库,历史样本被分别划分至各级样本缓存库中。分别以概率pk获得第k级样本缓存库中贡献值最高的第一历史样本用于后续训练,排序越靠后的某一级样本缓存库中的贡献值最高的第一历史样本被选择的概率越低,但所有缓存库中样本的被选概率值之和等于1。具体地,k级样本缓存库中各级样本缓存库被选中的概率逐级减小,即是说,k个不同级别的样本缓存库中,一级样本缓存库被选中的概率为p1;二级样本缓存库被选中的概率为p2;三级样本缓存库被选中的概率为p3;k级样本缓存库被选中的概率为pk,其中,p1》p2》p3》
……
》pk。而对于各级样本缓存库而言,从中选取贡献值最高的历史样本的概率为1,对于整体k级样本缓存库而言,排序越靠后的某一级样本缓存库中的贡献值最高的第一历史样本的被选概率越低。基于此,能够以较大的概率选择贡献度较大的历史训练样本用于文本纠错模型的训练中,使得训练得到的文本纠错模型的纠错效果更佳。
44.在本技术的一些实施例中,在步骤s210之前,还可以包括但不限于有以下步骤:获
取训练样本总数和历史样本总数;将训练样本总数减去历史样本总数得到样本数量差值;对样本数量差值与训练样本总数的比值进行取整处理,得到训练步数;根据训练步数从样本缓存库中抽取多个第一历史样本。能够以更高频次使用历史样本,提高历史样本利用率。
45.具体地,从第1步训练开始,每隔训练步数t从样本缓存库中抽取第一历史样本,t=(训练总样本数-已使用历史样本总数)/训练总样本数,再对t取整数(例如计算得到结果3.5,则取3),目的是尽可能以更高频次使用历史样本,从样本缓存库中选择多个曾经被用来训练模型的历史样本。历史样本数量只需小于样本集的样本数阈值(即batch_size)即可,本技术对被抽取的历史样本数量不做进一步的限定。
46.在本技术的一些实施例中,步骤s240可以包括但不限于有以下步骤:从本次使用的原训练集中随机去除k个样本;将k个第二历史样本添加至原训练集中,得到更新训练集。利用选择出的历史样本输入文本纠错模型中进行训练,有利于利用历史样本的表征向量中蕴含的大量语义信息,提升文本纠错模型的效果。
47.具体地,在文本纠错模型输出下一个词前,从用于本次训练使用的原样本集中随机去除k个样本,再将从样本缓存库中选择的k个第二历史样本得加入原训练集中,得到更新训练集,进行联合训练更新文本纠错模型中的权重参数,其中,原训练集和更新训练集中均具有batch_size个样本。
48.如图3所示,图3是图2中步骤s210的具体方法的流程图。贡献度包括动态贡献度和固定贡献度,该步骤s210可以包括但不限于有步骤s310至步骤s330。
49.步骤s310:确定第一历史样本的动态贡献度。
50.步骤s320:计算第一历史样本的固定贡献度。
51.步骤s330:根据预设加权系数对动态贡献度和固定贡献度进行加权求和,得到贡献度,贡献度用于指示第一历史样本在文本纠错模型训练过程中的贡献程度。
52.通过步骤s310至步骤s330,通过对动态贡献度和固定贡献度进行加权求和,得到第一历史样本的贡献度,有利于通过比较贡献度的高低选取更有价值的历史样本,以提高文本纠错模型的纠错效果。
53.可以理解的是,在文本纠错模型训练过程中,需不断地将文本序列映射为固定维度的表征向量;然后输入表征向量到文本纠错模型中,预测已产生的文本序列中的后续词;这样一来就产生了大量的历史表征向量。历史样本的表征向量中蕴含了大量的语义信息,利用历史样本训练模型可以提升文本纠错模型的效果。若对历史样本进行简单的随机抽取,则难以体现历史样本对训练的价值。而本技术实施例的方案,能够从多个维度衡量历史样本对文本纠错模型的贡献度,以较大的概率选择贡献度较大的历史训练样本用于文本纠错模型的训练中,使得训练得到的文本纠错模型的纠错效果更佳。
54.具体地,设历史样本为s(i),历史样本的固定贡献度为cf_s(i),历史样本的动态贡献度为cuf_s(i),最终历史训练样本s(i)的贡献度由固定贡献度cf_s(i)和动态贡献度cuf_s(i)两者加权求和得到。其中,预设加权系数χ和δ均为取值为0到1之间的数。可以理解的是,本技术对预设加权系数的取值不做具体限制。
55.如图4所示,图4是图3中步骤s310的具体方法的流程图。该步骤s310可以包括但不限于有步骤s410至步骤s420。
56.步骤s410:在采用第一历史样本进行训练,使得文本纠错模型的显著值增加的情
况下,确定动态贡献度为1。
57.步骤s420:在采用第一历史样本进行训练,未使得文本纠错模型的显著值增加的情况下,确定动态贡献度为0。
58.通过步骤s410至步骤s420,确定第一历史样本的动态贡献度,通过文本纠错模型的显著值的变化衡量第一历史样本的价值。
59.需要说明的是,在获取用于训练的训练集的过程中,首先对所有训练样本的表征向量进行聚类,形成不同样本簇,按照每个样本簇中拥有的样本数量,降序排列得到样本簇队列。当前主流神经网络模型训练方法均采用迷你批次(mini-batch)方法。在本技术的一个实施例中,每次选取一个训练所用的训练集的方式为:依次从样本簇队列中的每一个样本簇中随机选择一个样本构成训练集;若训练集的样本数量阈值(即batch_size)大于样本簇数量时,重复上述操作直至样本数量等于batch_size。本技术对采用的聚类算法不做具体的限制。
60.可以理解的是,每步训练结束后本次训练所使用的训练样本被视为历史样本,历史样本将被暂存于样本缓存库中。若该历史样本使得本步训练结束后的文本纠错模型的显著值(f1值)增加,则认为该历史样本产生了动态贡献度cuf_s(i),将动态贡献度赋值为1;反之,若该历史样本使得本步训练结束后的文本纠错模型的显著值(f1值)未增加,将动态贡献度赋值为0。
61.如图5所示,图5是图3中步骤s320的具体方法的流程图。该步骤s320可以包括但不限于有步骤s510至步骤s540。
62.步骤s510:采用命名实体识别算法对训练样本库中的所有样本进行识别处理和统计处理,得到命名实体贡献度。
63.步骤s520:对所有样本进行语法成分识别处理和统计处理,得到句子语法成分贡献度。
64.步骤s530:对第一历史样本和训练样本库中的其余样本,进行表征向量相似度计算和统计处理,得到文本序列贡献度。
65.步骤s540:根据预设加权系数对命名实体贡献度、句子语法成分贡献度和文本序列贡献度进行加权求和,得到固定贡献度。
66.通过步骤s510至步骤s540,从命名实体、句子语法和文本序列三个方面计算得到第一历史样本的固定贡献度,多维度地体现第一历史样本的价值。
67.一些实施例中,统计命名实体贡献度包括:对训练样本库中所有样本进行命名实体识别,若某个字在一个真样本中属于某个命名实体,但却在一个训练样本中未能被识别,则做进行统计处理,具体地,统计所有未能识别的命名实体个数ur_ne(i),设所有样本中被识别出的命名实体总数为s_ne。
68.可以理解的是,命名实体包含人名、机构名、地名几种类型的实体。考虑到不同命名实体类型识别的难度,以人名识别难度最高、例如“南京市长江大桥”,按照不同识别方法,其既可能是地名,也可能是人名。因此,本技术实施例采用m种(m为3的倍数)命名实体识别算法分别对样本进行识别,以超过2/3数共同认为的命名实体类型为最终某个实体的类型。在这一过程中,当每种实体类型最终被确定时,记录所有命名实体识别算法的识别一致性:若全部识别算法均认为该实体属于某一类别,则一致性指数nd(最开始为0)增加1。计算
命名实体贡献度为:
[0069][0070]
一些实施例中,统计句子语法成分贡献度包括:对训练样本库中所有样本识别样本中的语法成分,即主谓宾等成分识别,若某个字在一个真样本中属于某个语法成分,但却在一个训练样本中未能被识别,则进行统计处理,具体地,统计所有未能识别的语法角色个数ur_sy(i),设所有样本中语法角色总数为s_sy,计算得到句子语法成分贡献度为:
[0071][0072]
在本技术的一些实施例中,步骤s540可以包括但不限于有以下步骤:通过词嵌入向量模型,获取第一历史样本的第一表征向量和训练样本库中的其余样本的第二表征向量;分别计算各个第二表征向量与第一表征向量之间的余弦相似度和汉明距离;统计余弦相似度大于第一预设阈值的第一样本数量和汉明距离大于第二预设阈值的第二样本数量;将第一样本数量与第二样本数量相加,得到相似样本数量和值;计算相似样本数量和值与训练样本总数的比值,得到文本序列贡献度。
[0073]
具体地,统计文本序列贡献度包括:在将历史训练样本s(i)转化为表征向量vsi后,通过相似度函数,可采用余弦相似度和汉明(hamming)距离,计算训练样本库中其它样本的表征向量与vsi的相似度,统计与vsi的余弦相似度超过第一预设阈值s_t1的样本数量simc_n(i),统计与vsi的汉明距离超过第二预设阈值s_t2的样本数量simh_n(i),得到s(i)的文本序列贡献度cf_ss(i):
[0074][0075]
由cf_ne(i)、cf_sy(i)与cf_ss(i)加权求和得到历史训练样本s(i)的固定贡献度:
[0076]
cf_s(i)=αcf_ne(i)+βcf_sy(i)+γcf_ss(i);其中系数α、β和γ均是取值0到1之间的数。
[0077]
第二方面,如图6所示,图6是本技术一个实施例提供的文本纠错模型训练装置的结构示意图。该文本纠错模型训练装置600包括:贡献度计算模块610、样本缓存库划分模块620、历史样本选取模块630和训练更新模块640。
[0078]
其中,贡献度计算模块610,用于对从样本缓存库中抽取的多个第一历史样本进行贡献度计算处理,得到贡献度。
[0079]
样本缓存库划分模块620,用于根据贡献度从高到低的排序信息和预设划定级别k对样本缓存库进行等距划分,得到k级样本缓存库,其中,k级样本缓存库中,各级样本缓存库内贡献度最高的第一历史样本的被选概率逐级减小。
[0080]
历史样本选取模块630,用于分别以被选概率对各级样本缓存库中贡献度最高的第一历史样本进行选择,得到k个用于更新训练集的第二历史样本。
[0081]
训练更新模块640,用于根据k个第二历史样本对本次使用的原训练集进行更新处理,得到更新训练集,并根据更新训练集对文本纠错模型进行训练。
[0082]
因此,文本纠错模型训练装置600在利用贡献度计算模块610对从样本缓存库中抽
取的多个第一历史样本进行贡献度计算处理,得到贡献度之后,利用样本缓存库划分模块620根据贡献度从高到低的排序信息和预设划定级别k对样本缓存库进行等距划分,得到k级样本缓存库,其中,k级样本缓存库中,各级样本缓存库内贡献度最高的第一历史样本的被选概率逐级减小;接着,通过历史样本选取模块630分别以被选概率对各级样本缓存库中贡献度最高的第一历史样本进行选择,得到k个用于更新训练集的第二历史样本;最后,通过训练更新模块640根据k个第二历史样本对本次使用的原训练集进行更新处理,得到更新训练集,并根据更新训练集对文本纠错模型进行训练,以优化该模型的纠错效果。因此,本技术实施例的文本纠错模型训练装置600能够以较大的概率选择贡献度较大的历史训练样本用于文本纠错模型的训练中,使得训练得到的文本纠错模型的纠错效果更佳。
[0083]
需要说明的是,由于本实施例的文本纠错模型训练装置能够实现如前面任意实施例的文本纠错模型训练方法,因此本实施例的文本纠错模型训练装置与前面任意实施例的文本纠错模型训练方法,具有相同的技术原理以及相同的技术效果,为了避免内容重复冗余,此处不再赘述。
[0084]
在一些实施例中,图1所示的系统框架中的模型训练装置130可以实施为图6所示的文本纠错模型训练装置600。即是说,文本纠错模型训练装置600能够构成例如图1所示实施例中的系统架构中的一部分,这些实施例均属于相同的发明构思,因此这些实施例具有相同的实现原理以及技术效果,此处不再详述。
[0085]
以上所描述的装置实施例或者系统实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
[0086]
第三方面,如图所示,图7是本技术一个实施例提供的电子设备的硬件结构示意图。该电子设备700包括:存储器720、处理器710及存储在存储器上并可在处理器710上运行的计算机程序。
[0087]
处理器710和存储器720可以通过总线或者其他方式连接。
[0088]
处理器710,可以采用通用的cpu(centralprocessingunit,中央处理器)、微处理器、应用专用集成电路(applicationspecificintegratedcircuit,asic)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本技术实施例所提供的技术方案;
[0089]
存储器720作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外,存储器720可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器720可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0090]
实现上述实施例的文本纠错模型训练方法所需的非暂态软件程序以及指令存储在存储器720中,当被处理器710执行时,执行上述实施例中的文本纠错模型训练方法,例如,执行以上描述的图2中的方法步骤s210至步骤s240、图3中的方法步骤s310至步骤s330、图4中的方法步骤s410至步骤s420、图5中的方法步骤s510至步骤s540。
[0091]
第四方面,本技术的一个实施例还提供了一种计算机可读存储介质,该计算机可
读存储介质存储有计算机可执行指令,该计算机可执行指令被一个处理器或控制器执行,例如,被上述装置实施例中的一个处理器执行,可使得上述处理器执行上述实施例中的文本纠错模型训练方法,例如,执行以上描述的图2中的方法步骤s210至步骤s240、图3中的方法步骤s310至步骤s330、图4中的方法步骤s410至步骤s420、图5中的方法步骤s510至步骤s540。
[0092]
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于ram、rom、eeprom、闪存或其他存储器技术、cd-rom、数字多功能盘(dvd)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
[0093]
以上是对本技术的较佳实施进行了具体说明,但本技术并不局限于上述实施方式,熟悉本领域的技术人员在不违背本技术精神的前提下还可作出种种的等同变形或替换,这些等同的变形或替换均包含在本技术所限定的范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1