本发明涉及信息处理领域,具体涉及一种司法案件涉案金额的归一化方法。
背景技术:
各类司法网站公布的司法案件都包含涉案金额一项,但各类司法网站的开发人员不同,编辑人员不同,标准不同,导致各个司法网站的涉案金额内容格式都不尽相同,为计算机解读带来困难。计算机无法识别数字,涉案金额就无法进行大小的对比,排序,汇总,统计等有价值的加工和分析,人工进行数字的转换低效而且容易出错,如何使得识别的数字内容让计算机认识,知道这是数字并知道是多少,是一个有待解决的问题。
技术实现要素:
本发明的目的是针对现有的技术存在的不足,提出了一种工作效率高的司法案件涉案金额的归一化方法。
本发明所解决的技术问题采用以下技术方案来实现一种司法案件涉案金额的归一化方法,包括以下步骤:步骤一:文本的预处理;步骤二:提取单位;步骤三:文本分类;步骤四:根据类型进行数字的格式化。
本发明的有益效果为:提出了一种司法案件涉案金额的归一化方法,能将司法案件中提取出的金额进行转化,使得计算机能够识别该金额,并同时提供了该金额的单位,为后续案件的进一步处理提供了数据保障。整个识别方法基于金额模型分类,覆盖面广,基本能覆盖现有司法案件中使用的所有金额文本类型,识别高效,不易出错,可干预性强,容易获得良好的结果。
具体实施方式
下面结合具体实施例对本发明的技术方案作详细说明:一种司法案件涉案金额的归一化方法,包括以下步骤:
1.文本的预处理
主要包含全半角的转换,如将“9”替换为“9”,保证文本中出现的数字都是半角形式的数字。
2.提取单位
将文本进行拆分,将与数字相关的文字剔除,如“0”“一”“贰”“千”“亿”等,剔除数字后剩余的文本就认为这是这个数字的单位。
3.文本分类
这个阶段我们挨个字符考察整个文本,将文本分为四类:
a)完全由阿拉伯数字和单位组成的文本
如:1255554元。
b)由数字小数点数字分隔符和单位组成的文本
如:123,456.1元。
c)文本由阿拉伯数字中文数字混合组成的文本
如:2.1万元,12万元。
d)文本由中文数字组成的文本
如:壹仟万零伍佰壹拾玖元捌角陆分。
4.根据四种类型分别进行数字的格式化:
a)第一种类型:
i.去除单位后直接转换为数字。
b)第二种类型:
i.移出数字文本中的数学分隔符,如:123,456.1=123456.1。
ii.将移出数学分隔符的文本转换为数字。
c)第三种类型:
i.将阿拉伯数字与中文数字分离,如:12,万。
ii.分段将“万”,“千”等数目词转换为对应的数量,如:万=10000。
iii.与修饰的数字进行乘积,如:12万=12*10000。
iv.求和,如:12万2千=12*10000+2*1000=122000。
d)第四种类型:
i.将文本中的“零”全部替去除,如:壹仟万零伍佰壹拾玖元捌角陆分=壹仟万伍佰壹拾玖元捌角陆分。
ii.从前往后从高数目开始拆分文本,如:壹仟万零伍佰壹拾玖元捌角陆分=壹仟万,伍佰,壹拾,玖元,捌角,陆分。
iii.将各部分的数词替换为阿拉伯数字,如:壹仟万,伍佰,壹拾,玖元,捌角,陆分=1仟万,5佰,1拾,9元,8角,6分。
iv.每一部分采用第三种类型的方法进行内部运算,如:1仟万,5佰,1拾,9元,8角,6分=10000000,500,10,6,0.8,0.06。
v.各部分求和,10000000+500+10+6+0.8+0.06=10000516.86。
所属领域的普通技术人员应当理解:以上,所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。