一种商业银行数据融合方法及装置与流程

文档序号:16390684发布日期:2018-12-22 11:30阅读:359来源:国知局
一种商业银行数据融合方法及装置与流程

本发明涉及数据处理技术领域,更具体地说,涉及一种商业银行数据融合方法及装置。

背景技术

数据融合,其本质是针对多源数据进行关联或综合分析,并通过选取适当的融合模式和处理算法来提高数据质量,为后续的知识发展奠定基础。

在商业银行大数据分析项目中,数据融合流程都是按照特定分析决策定制的,数据准备工作也是一次性的,这就导致数据融合灵活性很差,使得融合成本很高。



技术实现要素:

有鉴于此,为解决上述问题,本发明提供一种商业银行数据融合方法及装置,技术方案如下:

一种商业银行数据融合方法,包括:

从预先生成的内部数据的标签文件中选取被融合内部数据的目标标签文件,并获取所述目标标签文件的目标字段内容;

生成待融合外部数据的源标签文件,并获取所述源标签文件的源字段内容;

按照预设数据融合模式对所述目标字段内容和所述源字段内容进行融合处理。

优选的,所述方法还包括:

按照预设数据质量检测策略对所述源字段内容进行质量检测;

在质量检测结果为用于表征无误的第一结果的情况下,返回执行所述按照预设数据融合模式对所述目标字段内容和所述源字段内容进行融合处理;

在质量检测结果为用于表征错误的第二结果的情况下,对所述源字段内容进行修正处理,并返回执行所述按照预设数据质量检测策略对所述源字段内容进行质量检测。

优选的,所述方法还包括:

检测所述目标字段内容和所述源字段内容的冲突性;

在所述目标字段内容和所述源字段内容不存在冲突的情况下,返回执行所述按照预设数据融合模式对所述目标字段内容和所述源字段内容进行融合处理;

在所述目标字段内容和所述源字段内容存在冲突的情况下,按照预设数据冲突解决策略处理所述目标字段内容,并返回执行所述检测所述目标字段内容和所述源字段内容的冲突性。

优选的,所述方法还包括:

计算所述源字段内容的可信度;

在所述可信度大于预设可信度阈值的情况下,返回执行所述按照预设数据融合模式对所述目标字段内容和所述源字段内容进行融合处理;

在所述可信度不大于预设可信度阈值的情况下,按照预设处理算法处理所述源字段内容,并返回执行所述计算所述源字段内容的可信度。

优选的,所述方法还包括:

对所述源字段内容进行可视化投影。

优选的,所述方法还包括:

对融合处理结果添加数据标签。

一种商业银行数据融合装置,包括:

第一选取模块,用于从预先生成的内部数据的标签文件中选取被融合内部数据的目标标签文件,并获取所述目标标签文件的目标字段内容;

第二选取模块,用于生成待融合外部数据的源标签文件,并获取所述源标签文件的源字段内容;

融合处理模块,用于按照预设数据融合模式对所述目标字段内容和所述源字段内容进行融合处理。

优选的,所述装置还包括:

质量检测模块,用于按照预设数据质量检测策略对所述源字段内容进行质量检测;在质量检测结果为用于表征无误的第一结果的情况下,触发所述融合处理模块;在质量检测结果为用于表征错误的第二结果的情况下,对所述源字段内容进行修正处理,并返回执行所述按照预设数据质量检测策略对所述源字段内容进行质量检测。

优选的,所述装置还包括:

冲突检测模块,用于检测所述目标字段内容和所述源字段内容的冲突性;在所述目标字段内容和所述源字段内容不存在冲突的情况下,触发所述融合处理模块;在所述目标字段内容和所述源字段内容存在冲突的情况下,按照预设数据冲突解决策略处理所述目标字段内容,并返回执行所述检测所述目标字段内容和所述源字段内容的冲突性。

优选的,所述装置还包括:

可信度计算模块,用于计算所述源字段内容的可信度;在所述可信度大于预设可信度阈值的情况下,触发所述融合处理模块;在所述可信度不大于预设可信度阈值的情况下,按照预设处理算法处理所述源字段内容,并返回执行所述计算所述源字段内容的可信度。

相较于现有技术,本发明实现的有益效果为:

以上本发明提供了一种商业银行数据融合方法及装置,该方法可以选取被融合内部数据的目标标签文件并获取目标标签文件的目标字段内容,以及生成被融合外部数据的源标签文件并获取源标签文件的源字段内容,进而对目标字段内容和源字段内容进行融合处理。本发明通过建立统一的数据规范,对商业银行的行内数据进行标签化管理,从而支持按决策目标定制数据。同时因分析决策过程是一个不断递进的过程,因此无需一次性准备数据,提高了数据融合灵活性,相应也就降低了融合成本。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的商业银行数据融合方法的方法流程图;

图2为本发明实施例中标签文件的主体结构示意图;

图3为本发明实施例提供的商业银行数据融合装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明实施例提供一种商业银行数据融合方法,该方法的方法流程图如图1所示,包括如下步骤:

s10,从预先生成的内部数据的标签文件中选取被融合内部数据的目标标签文件,并获取目标标签文件的目标字段内容。

本实施例中,商业银行的行内数据均以文件的方式定义,针对所有备选的内部数据,通过自动化分类全部生成对应的标签文件,也就是目标标签文件,以对内部数据进行解释和生命周期管理。标签文件由数据文件、维度文件、数据含义文件和指标文件构成,主体结构如图2所示。以下对数据文件、维度文件、数据含义文件和指标文件分别做简单介绍:

数据文件,是数据的本体,存储数据的主要内容;

维度文件,主要针对的数据文件是统计类的结果文件时候,需要标注统计口径;

数据含义文件,是解释数据属性的文件;

指标文件,是针对某些特殊数据,例如交叉分析的结果文件,可能源头数据有上百个字段,但参与交叉的字段只有一部分,此指标文件可以用来查找参与交叉分析的列。

此外,以具体的例子来说明图2所示的数据管理表中数据的特征:

文件格式:标准,非标准;

地图类型:地图,面积图,柱状图,热力图,气泡图;

计算口径:行政口径,地理口径,自定义口径;

计算范围:四川、湖北、......全国其他省市或直辖市;

计算层级:总行,一级分行,二级分行,支行,网点;

图形映射类型:地理投影,价值分布,网点排名,价值构成;

数据粒度:客户级别,机构级别,自定义组级;

文件类型:数据文件,维度文件,数据含义文件,指标文件。

在执行步骤s10的过程中,用户使用系统从前端界面发起融合命令,系统先根据融合命令中的输入条件,比如“业务日期:20170228,文件格式:标准,地图类型:地图,计算口径:行政口径,计算范围:全国,计算层级:一级分行,图形映射类型:地理投影,数据粒度:机构级别,文件类型:数据文件”选取对应目标标签文件,即目标数据文件、目标维度文件、目标数据含义文件和目标指标文件,进而对上述目标标签文件进行解析得到目标标签文件的目标字段内容。

当然,用户还可以在输入条件中指定某字段作为目标字段,比如“字段:代发工资收入”,本实施例对此不做限定,可根据实际需要进行设置。

本实施例中通过生成内部数据的标签文件,能够将所有的数据抽象,用户可以按照自身需求,通过输入类sql口令即可选取目标标签文件。因此,可以实现快速定位和查询,这样大缩减了找数据的耗费,大幅提升了数据融合的效率,保证了数据融合的稳定性。

s20,生成待融合外部数据的源标签文件,并获取源标签文件的源字段内容。

在执行步骤s20的过程中,通过对待融合外部数据进行分类生成其对应的标签文件,也就是源标签文件。对于标签文件的介绍参见步骤s10中对标签文件的介绍,本实施例不再赘述。

此外,由于源字段内容作为业务流程的属性数据是无法直接在地图上做投影的,必须要融合上地理数据。因此,可以进一步对源字段内容进行可视化投影,投影过程如下:

首先检测源字段内容的数据维度;如果数据维度为机构维度,则根据机构维度所对应的城市,融合地理坐标数据;如果数据维度为客户维度,则根据预先定义的统计维度文件统计客户所属机构的机构维度,进而根据机构维度所对应的城市,融合地理坐标数据;最后,在融合地理坐标数据之后,可以调用地图投影函数进行渲染。

此外,需要说明的是,根据统计维度文件统计客户所属机构的统计方法可以多样化,支持求和以及平均和占比计算等等。

s30,按照预设数据融合模式对目标字段内容和源字段内容进行融合处理。

在执行步骤s30的过程中,预设数据融合模式可以为关联拼接,还可以为统计运算,还可以为过滤运算等等,可以根据自定义的数据融合算法库按需调用。

此外,在其他一些实施例中,为方便对融合处理结果进行生命周期管理,还可以对融合处理结果添加数据标签,其中,该数据标签可以作为融合处理结果的版本号。

在其他一些实施例中,为保证数据的可靠性,在图1示出商业银行数据融合方法的基础上,还包括如下步骤:

按照预设数据质量检测策略对源字段内容进行质量检测;在质量检测结果为用于表征无误的第一结果的情况下,返回执行步骤s30;在质量检测结果为用于表征错误的第二结果的情况下,对源字段内容进行修正处理,并返回执行步骤s30。

本实施例中,预设数据质量检测策略可以为频度检测、缺失值检测、异常值检测、特定值(方差或者期望或者标准差)检测以及复杂规则检测等策略中的任意一个或多个,表1、表2、表3、表4和表5分别为上述频度检测、缺失值检测、异常值检测、特定值_期望检测以及复杂规则检测的示例,如果容忍偏度大于预设容忍偏度阈值,则报错:

表1

表2

表3

表4

表5

在实际应用过程中,预设数据质量检测策略支持自定义选择和配置,自动生成检测策略代码。检测部分时效性高,基于sas的统计分析模块,执行效率较高,对于千万量级的结果,能在两到三分钟内得到对应的质量检测结果。

在其他一些实施例中,为解决融合冲突的问题,在图1示出商业银行数据融合方法的基础上,还包括如下步骤:

检测目标字段内容和源字段内容的冲突性;在目标字段内容和源字段内容不存在冲突的情况下,返回执行步骤s30;在目标字段内容和源字段内容存在冲突的情况下,按照预设数据冲突解决策略处理目标字段内容,并返回执行步骤s30。

本实施例中,检测冲突性的过程如下:首先按照预设数据质量检测策略对源字段内容进行质量检测,其中,质量检测的过程可以参数上述实施例公开内容,本实施例不再赘述。

在质量检测结果为用于表征无误的第一结果的情况下,判断目标标签文件和源标签文件中维度文件是否一致;如果不一致,则需要指定维度,并重新计算源字段内容,并返回执行“判断目标标签文件和源标签文件中维度文件是否一致”这一步骤;如果一致,则按照预设统计项(比如,数值类型的统计项为均值、方差、空值率、频数、分位数等,再比如字符类型的统计项为空值率、频数、特定值占比等)统计目标字段内容和源字段内容各自的字段分布,此时综合两字段分布结果进一步确定是否存在冲突。

在质量检测结果为用于表征错误的第二结果的情况下,直接舍弃源字段内容,并确定目标字段内容和源字段内容存在冲突;

需要说明的是,预设数据冲突解决策略可以根据自定义的冲突解决算法库按需调用。

在其他一些实施例中,为解决由于无法甄别数据好坏所出现的数据多帧的问题,在图1示出商业银行数据融合方法的基础上,还包括如下步骤:

计算源字段内容的可信度;在可信度大于预设可信度阈值的情况下,返回执行步骤s30;在可信度不大于预设可信度阈值的情况下,按照预设处理算法处理源字段内容,并返回执行“计算源字段内容的可信度”这一步骤。

本实施例中,可以采用贝叶斯方法计算源字段内容的可信度。而预设处理算法则可以采用基于信息检索、web链接分析以及贝叶斯模型等方法中的任意一个或多个。

本发明实施例提供的商业银行数据融合方法,通过建立统一的数据规范,对商业银行的行内数据进行标签化管理,从而支持按决策目标定制数据。同时因分析决策过程是一个不断递进的过程,因此无需一次性准备数据,提高了数据融合灵活性,相应也就降低了融合成本。

基于上述实施例提供的商业银行数据融合方法,本发明实施例则对应提供一种执行上述商业银行数据融合方法的装置,该装置的结构示意图如图3所示,包括:

第一选取模块10,用于从预先生成的内部数据的标签文件中选取被融合内部数据的目标标签文件,并获取目标标签文件的目标字段内容;

第二选取模块20,用于生成待融合外部数据的源标签文件,并获取源标签文件的源字段内容;

融合处理模块30,用于按照预设数据融合模式对目标字段内容和源字段内容进行融合处理。

在其他一些实施例中,为保证数据的可靠性,在图3示出商业银行数据融合装置的基础上,还包括如下模块:

质量检测模块,用于按照预设数据质量检测策略对源字段内容进行质量检测;在质量检测结果为用于表征无误的第一结果的情况下,触发融合处理模块30;在质量检测结果为用于表征错误的第二结果的情况下,对源字段内容进行修正处理,并返回执行所述按照预设数据质量检测策略对源字段内容进行质量检测。

在其他一些实施例中,为解决融合冲突的问题,在图3示出商业银行数据融合装置的基础上,还包括如下模块:

冲突检测模块,用于检测目标字段内容和源字段内容的冲突性;在目标字段内容和源字段内容不存在冲突的情况下,触发融合处理模块30;在目标字段内容和源字段内容存在冲突的情况下,按照预设数据冲突解决策略处理目标字段内容,并返回执行所述检测目标字段内容和源字段内容的冲突性。

在其他一些实施例中,为解决由于无法甄别数据好坏所出现的数据多帧的问题,在图3示出商业银行数据融合装置的基础上,还包括如下模块:

可信度计算模块,用于计算源字段内容的可信度;在可信度大于预设可信度阈值的情况下,触发融合处理模块30;在可信度不大于预设可信度阈值的情况下,按照预设处理算法处理源字段内容,并返回执行所述计算源字段内容的可信度。

本发明实施例提供的商业银行数据融合装置,通过建立统一的数据规范,对商业银行的行内数据进行标签化管理,从而支持按决策目标定制数据。同时因分析决策过程是一个不断递进的过程,因此无需一次性准备数据,提高了数据融合灵活性,相应也就降低了融合成本。

以上对本发明所提供的一种商业银行数据融合方法及装置进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。

还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备所固有的要素,或者是还包括为这些过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1