文本处理方法、装置、计算机设备和计算机可读存储介质与流程

文档序号:30447768发布日期:2022-06-18 01:07阅读:来源:国知局

技术特征:
1.一种文本处理方法,其特征在于,包括:获取输入文本的至少一个分词结果,各所述分词结果包括所述输入文本中至少一种类型的词组;根据各所述分词结果获取标准文本数据库中的至少一个待处理文本,所述标准文本数据库用于保存多个标准化文本,各标准化文本分别用于标识地址信息;分别确定所述输入文本和各所述待处理文本之间的差异值;根据各所述差异值,输出与所述输入文本匹配的标准文本。2.如权利要求1所述的文本处理方法,其特征在于,所述根据各所述分词结果获取标准文本数据库中的至少一个待处理文本,包括:根据各所述分词结果遍历所述标准文本数据库,获取与各所述分词结果匹配的至少一个标准词组,所述标准词组为根据各所述标准化文本切分得到的词组;根据各所述标准词组生成所述至少一个待处理文本。3.如权利要求1所述的文本处理方法,其特征在于,所述根据各所述分词结果获取标准文本数据库中的至少一个待处理文本,包括:按照各所述分词结果和预设顺序,依次从所述标准文本数据库中获取与各所述分词结果匹配的至少一个第一文本;基于各所述分词结果所指示的地址对应的变更后地址得到更新后分词结果,并按照所述更新后分词结果和所述预设顺序从所述标准文本数据库中获取与所述更新后分词结果匹配的至少一个第二文本;对各所述分词结果进行补齐处理,得到补齐后分词结果,并按照所述补齐后分词结果和所述预设顺序,依次从所述标准文本数据库中获取与所述更新后分词结果匹配的至少一个第三文本;根据各所述第一文本、各所述第二文本和各所述第三文本确定各所述待处理文本。4.如权利要求3所述的文本处理方法,其特征在于,所述基于各所述分词结果所指示的地址对应的变更后地址得到更新后分词结果,并按照所述更新后分词结果和所述预设顺序从所述标准文本数据库中获取与所述更新后分词结果匹配的至少一个第二文本,包括:从预设的地址变更数据库中获取各所述分词结果所指示的地址对应的变更后地址,基于所述变更后地址更新所述分词结果,得到更新后分词结果;按照所述更新后分词结果和所述预设顺序,依次从所述标准文本数据库中获取与所述更新后分词结果匹配的至少一个第二文本。5.如权利要求3所述的文本处理方法,其特征在于,所述根据各所述第一文本、各所述第二文本和各所述第三文本确定各所述待处理文本,包括:根据所述第一文本、所述第二文本和所述第三文本生成待处理文本库;确定所述待处理文本库中是否存在重复的文本;若存在,则将所述待处理文本库中除所述重复的文本之外的其他文本作为各所述待处理文本;若不存在,则将所述待处理文本库中的所有文本作为各所述待处理文本。6.如权利要求1所述的文本处理方法,其特征在于,所述分别确定所述输入文本和各所述待处理文本之间的差异值,包括:
确定将所述输入文本转换为所述待处理文本的最少单字符编辑次数;确定所述输入文本和各所述待处理文本之间的存在的相同词组数量;根据所述最少单字符编辑次数和所述相同词组数量计算所述差异值。7.如权利要求6所述的文本处理方法,其特征在于,所述根据所述最少单字符编辑次数和所述相同词组数量计算所述差异值,包括:根据将所述输入文本转换为所述待处理文本的最少单字符编辑次数计算所述输入文本和各所述待处理文本之间的最小编辑距离;根据所述输入文本和各所述待处理文本之间的存在的相同词组数量计算所述输入文本和各所述待处理文本之间的字符距离;根据所述字符距离和所述最小编辑距离计算所述差异值。8.一种文本处理装置,其特征在于,所述装置包括:第一获取模块,用于获取输入文本的至少一个分词结果;第二获取模块,用于根据各所述分词结果获取标准文本数据库中的至少一个待处理文本;确定模块,用于分别确定所述输入文本和各所述待处理文本之间的差异值;输出模块,用于根据各所述差异值,输出与所述输入文本匹配的标准文本。9.一种计算机设备,其特征在于,包括:存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现上述权利要求1至7任一项所述的方法的步骤。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时,实现权利要求1至7中任一项所述方法的步骤。

技术总结
本申请提供一种文本处理方法、装置、计算机设备和计算机可读存储介质,属于计算机技术领域。所述方法包括:获取输入文本的至少一个分词结果,各所述分词结果包括所述输入文本中至少一种类型的词组;根据各所述分词结果获取标准文本数据库中的至少一个待处理文本,所述标准文本数据库用于保存多个标准化文本,各标准化文本分别用于标识地址信息;分别确定所述输入文本和各所述待处理文本之间的差异值;根据各所述差异值,输出与所述输入文本匹配的标准文本。本申请可以达到降低输出的标准文本与输入文本的差异,进而达到文件处理的准确性的效果。效果。效果。


技术研发人员:祝莎莎 王琪 王文祥 唐力伟 赵大平 黄智勇 孙前方 黄克华 陈效华 李茜
受保护的技术使用者:卫宁健康科技集团股份有限公司
技术研发日:2022.03.29
技术公布日:2022/6/17
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1