文本比对方法、装置、设备及介质与流程

文档序号：30378967发布日期：2022-06-11 03:00阅读：来源：国知局

技术特征：
1.一种文本比对方法，其特征在于，所述方法包括：接收用户输入的图片文本和校对文本，将所述图片文本进行光学字符识别得到识别文本，再将识别文本输入预设语言模型组进行纠错得到纠错文本；根据第一预设编辑距离公式对所述校对文本与所述识别文本进行计算，得到所述校对文本与所述识别文本中的不同位置的字符串的第一编辑次数；当所述不同位置的字符串的第一编辑次数大于预设值时，根据第二预设编辑距离公式计算所述校对文本与所述纠错文本在所述不同位置的字符串的第二编辑次数；根据所述第二编辑次数与所述预设值的大小关系，判断所述不同位置的字符串在识别文本中为被改动过的内容或识别错误的内容，将所述不同位置的字符串在所述校对文本与所述识别文本中进行定位标记，将定位标记后的所述校对文本与所述识别文本反馈至所述用户。2.如权利要求1所述的文本比对方法，其特征在于，所述预设语言模型组包括第一预训练语言模型与第二预训练语言模型，所述第一预训练语言模型为bert4csc预训练语言模型，所述第二预训练语言模型为macbert预训练语言模型，所述再将识别文本输入预设语言模型组进行纠错得到纠错文本，包括：将所述识别文本分别输入所述第一预训练语言模型、所述第二预训练语言模型进行分词得到多个词，根据所述预设语言模型组的预设纠错文本公式对每个词进行计算，得到所述每个词对应的所有预测词的目标概率；从所述每个词对应的所有预测词中选取最大目标概率的预测词，根据所述最大目标概率的预测词将所述每个词进行替换得到所述纠错文本。3.如权利要求2所述的文本比对方法，其特征在于，所述预设纠错文本公式包括：text_a＝α
×
softmax(bert4 csc(text))+β
×
softmax(macbert(text))其中，text_a为所述纠错文本，bert4csc(text)为所述第一预训练语言模型中的识别文本，macbert(text)为所述第二预训练语言模型中的识别文本，α、β为加权系数，softmax为归一化函数。4.如权利要求1所述的文本比对方法，其特征在于，在所述根据第一预设编辑距离公式对所述校对文本与所述识别文本进行计算之前，还包括：根据预先构建好的特殊字符词典对所述校对文本、所述识别文本及所述纠错文本的所有特殊字符进行统一的标准化格式。5.如权利要求1所述的文本比对方法，其特征在于，所述根据第二预设编辑距离公式计算所述校对文本与所述纠错文本在所述不同位置的字符串的第二编辑次数，包括：读取所述校对文本与所述纠错文本在所述不同位置的字符串进行长度比对；根据所述第二预设编辑距离公式计算所述纠错文本的字符串的长度变换成所述校对文本的字符串的长度，得到不同操作方式的编辑次数；选取所述不同操作方式中最小的编辑次数作为所述校对文本与所述纠错文本在所述不同位置的字符串的第二编辑次数。6.如权利要求1或5所述的文本比对方法，其特征在于，所述第二预设编辑距离公式包括：
其中，ed(i，j)为所述校对文本的第i个字符与所述识别文本、所述纠错文本的第j个字符的编辑次数，a(i)为所述校对文本的第i个字符，b(j)为所述识别文本的第j个字符，c(j)为所述纠错文本的第j个字符，if a(i)＝b(j)or a(i)＝c(j)为第二条件语句。7.如权利要求1所述的文本比对方法，其特征在于，所述将所述不同位置的字符串在所述校对文本与所述识别文本中进行定位标记，包括：当所述第二编辑次数小于或等于所述预设值时，根据预设标记方法将所述不同位置的字符串在所述校对文本与所述识别文本中进行第一标记；当所述第二编辑次数大于所述预设值时，根据预设标记方法将所述不同位置的字符串在所述校对文本与所述识别文本中进行第二标记。8.一种文本比对装置，其特征在于，所述装置包括：纠错模块：用于接收用户输入的图片文本和校对文本，将所述图片文本进行光学字符识别得到识别文本，再将识别文本输入预设语言模型组进行纠错得到纠错文本；计算模块：用于根据第一预设编辑距离公式对所述校对文本与所述识别文本进行计算，得到所述校对文本与所述识别文本中的不同位置的字符串的第一编辑次数；输出模块：用于当所述不同位置的字符串的第一编辑次数大于预设值时，根据第二预设编辑距离公式计算所述校对文本与所述纠错文本在所述不同位置的字符串的第二编辑次数；反馈模块：用于根据所述第二编辑次数与所述预设值的大小关系，判断所述不同位置的字符串在识别文本中为被改动过的内容或识别错误的内容，将所述不同位置的字符串在所述校对文本与所述识别文本中进行定位标记，将定位标记后的所述校对文本与所述识别文本反馈至所述用户。9.一种电子设备，其特征在于，所述电子设备包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的程序，所述程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至7中任一项所述文本比对方法。10.一种计算机可读介质，其特征在于，所述计算机可读介质存储有文本比对程序，所述文本比对程序被处理器执行时，实现如权利要求1至7中任一项所述文本比对方法的步骤。

技术总结
本发明涉及人工智能技术领域，提供了一种文本比对方法、装置、设备及介质。该方法包括：将图片文本进行光学字符识别得到识别文本，将识别文本输入预设语言模型组进行纠错得到纠错文本；对校对文本与识别文本进行计算得到校对文本与纠错文本在不同位置的字符串的第一编辑次数；当字符串的第一编辑次数大于预设值时，计算校对文本与纠错文本在该字符串的第二编辑次数；根据第二编辑次数与预设值的大小关系，判断该字符串在识别文本中为被改动过的内容或识别错误的内容，将字符串在校对文本与识别文本中进行定位标记并反馈至用户。本发明还涉及区块链技术领域，上述第一编辑次数、第二编辑次数还可以存储于一区块链的节点中。编辑次数还可以存储于一区块链的节点中。编辑次数还可以存储于一区块链的节点中。

技术研发人员：林莉芳
受保护的技术使用者：平安证券股份有限公司
技术研发日：2022.03.22
技术公布日：2022/6/10

完整全部详细技术资料下载

当前第2页1 2