对混合证明材料相似比对的方法、系统、电子设备和介质与流程

文档序号：32337178发布日期：2022-11-26 08:26阅读：来源：国知局

技术特征：
1.一种对混合证明材料相似比对的方法，其特征在于，包括：s1、收集若干客户的客户数据以形成客户名单并存储在初始数据库中，所述客户数据包括客户id及其对应的证明材料类型、对应的证明材料的文字文本数据以及证明材料的真伪标识；s2、将所述客户名单中的所有所述证明材料的文字文本数据进行多轮数据清洗、分词，并将每个客户的每一类证明材料的文字文本数据对应构建一组均值单位词向量，且将每组均值单位词向量与对应的客户id绑定；s3、使用每一个所述证明文件的均值单位词向量以及对应的证明文件类型进行训练，从而构建证明材料类型分类器；s4、将需检测的各类待检测证明材料进行文字文本数据的识别，并获取识别的各文字文本数据对应的均值单位词向量，将得到的各均值单位词向量输入至证明材料类型分类器中，判断各所述待检测证明材料的类型，然后将各所述待检测证明材料与其同类型的已收集的客户数据进行向量余弦相似度对比，查找出与各所述待检测证明材料相似的相似文档，判别所述相似文档中是否有虚假资料。2.根据权利要求1所述的一种对混合证明材料相似比对的方法，其特征在于，所述证明材料类型包括工作证明类、交易明细类、收入证明类、病情描述类、健康检查类、案情通告类、身份说明类、居住证明类。3.根据权利要求1所述的一种对混合证明材料相似比对的方法，其特征在于，所述证明材料的文字文本数据可以通过人工或机器ocr识别的方式对原证明材料进行提取。4.根据权利要求1所述的一种对混合证明材料相似比对的方法，其特征在于，所述证明材料的真伪标识可通过调查判定该证明材料的真实性，若调查发现某一类证明材料为虚假，则在该证明材料的对应位置标记虚假标识，否则标记真实标识。5.根据权利要求1所述的一种对混合证明材料相似比对的方法，其特征在于，s2的具体步骤为：s2.1、采用分词工具将每个客户的每一类证明材料的文字文本数据进行分词处理得到若干组与每一类证明材料对应的第一数据组；s2.2、按照预设规则对分词处理后得到的若干所述第一数据组进行数据清洗以得到若干组由关键词或关键字组成的第二数据组；s2.3、通过查询已有的word2vec向量字典，将若干组所述第二数据组中的关键词或关键字分别表示成单个的300维度的第一词向量，并将属于同一组第二数据组中的若干第一词向量进行加权平均、单位向量化，从而得到均值单位词向量；s2.4、将每一类证明材料对应的所述均值单位词向量与对应的客户id进行映射绑定。6.根据权利要求1所述的一种对混合证明材料相似比对的方法，其特征在于，s4的具体步骤为：s4.1通过人工或机器ocr识别的方式对各待检测证明材料的文字文本数据进行提取；s4.2、对各所述待检测证明材料的文字文本数据进行清洗，并获取清洗后的各所述待检测证明材料的文字文本数据对应的均值单位词向量；s4.3、将各所述待检测证明材料的均值单位词向量输入至证明材料类型分类器中，判别出各所述待检测证明材料的类型；
s4.4、将各所述待检测证明材料与其同类型的已收集的客户数据进行向量余弦相似度对比，检索出余弦相似度>0.95和/或相似度最高的10个证明材料作为所述待检测证明材料对应的相似文件；s4.5、判断查找出来的相似文件中是否标记有虚假标识，若是，则判定该待检测证明材料为疑似虚假材料，否则，判定该待检测证明材料为真实材料。7.根据权利要求6所述的一种对混合证明材料相似比对的方法，其特征在于，还包括s5，对判定结果进行提示，具体为：s5.1、若判定所述待检测证明材料为疑似虚假材料，则提示发现疑似虚假材料的字样，同时提示有几个虚假材料与所述待检测证明材料相似；s5.2、若判断所述待检测证明材料为真实材料，则提示未发现虚假材料的字样。8.根据权利要求1所述的一种对混合证明材料相似比对的系统，其特征在于，包括：后端模块，包括收集模块、文档向量表示模块以及分类器构建模块，其中，收集模块，用于收集若干客户的客户数据以形成客户名单并存储在初始数据库中，所述客户数据包括客户id及其对应的证明材料类型、对应的证明材料的文字文本数据以及证明材料的真伪标识；文档向量表示模块，用于将所述客户名单中的所有所述证明材料的文字文本数据进行多轮数据清洗、分词，并将每个客户的每一类证明材料的文字文本数据对应构建一组均值单位词向量，且将每组均值单位词向量与对应的客户id绑定；分类器构建模块，用于使用每一个所述证明文件的均值单位词向量以及对应的证明文件类型进行训练，从而构建证明材料类型分类器；前端查询模块，用于接收需检测的各类待检测证明材料并对各类所述待检测证明材料进行文字文本数据的识别，通过文档向量表示模块获取识别的各文字文本数据对应的均值单位词向量，将得到的各均值单位词向量输入至证明材料类型分类器中，判断各所述待检测证明材料的类型，然后将各所述待检测证明材料与其同类型的已收集的客户数据进行向量余弦相似度对比，查找出与各所述待检测证明材料相似的相似文档，判别所述相似文档中是否有虚假资料。9.一种电子设备，其特征在于，包括至少一个处理器，以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至7中任一所述的一种对混合证明材料相似比对的方法。10.一种存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的一种对混合证明材料相似比对的方法。

技术总结
本发明涉及机器学习技术领域，公开了一种对混合证明材料相似比对的方法、系统、电子设备和介质，包括：S1、收集若干客户的客户数据以形成客户名单并存储在初始数据库中；S2、将所述客户名单中的所有所述证明材料的文字文本数据进行多轮数据清洗、分词，并将每个客户的每一类证明材料的文字文本数据对应构建一组均值单位词向量；S3、使用每一个所述证明文件的均值单位词向量以及对应的证明文件类型进行训练，从而构建证明材料类型分类器；S4、将需检测的各类待检测证明材料进行文字文本数据的识别，查找出与各所述待检测证明材料相似的相似文档，判别所述相似文档中是否有虚假资料。本发明加快处理人工难以归类分析的材料。本发明加快处理人工难以归类分析的材料。本发明加快处理人工难以归类分析的材料。

技术研发人员：周成卫浩王萍李思琪
受保护的技术使用者：四川新网银行股份有限公司
技术研发日：2022.07.29
技术公布日：2022/11/25

完整全部详细技术资料下载

当前第2页1 2