数据分类方法、装置、电子设备及存储介质与流程

文档序号:23651843发布日期:2021-01-15 13:48阅读:89来源:国知局
本发明涉及大数据
技术领域
:,尤其涉及一种数据分类方法、装置、电子设备及计算机可读存储介质。
背景技术
::随着互联网大数据平台及技术的提升,各专业行业领域对大数据领域的业务数据分析及预测的应用需求日益激增。技术人员需要对多渠道、多源头数据进行清洗、整合、加工及标准化,以此来为管理者提供准确的业务分析和业务预测。针对上述场景,现有技术存在以下缺陷:1、市面上主要是基于一般源数据的加工和应用,技术人员需要了解数据所属的具体业务才能进行数据处理。2、针对一些要求较高的领域,缺乏具体的数据自动处理方法。比如司法领域的业务数据,需要对业务数据进行数据建模,分类分层和完成行业标准化,现有技术缺乏对此种复杂业务数据的处理方法。技术实现要素:本发明提供一种数据分类方法、装置及计算机可读存储介质,其主要目的在于解决技术人员需要了解具体业务才能进行数据分类的问题。为实现上述目的,本发明提供的一种数据分类方法,包括:获取原始数据字典集及预设的业务主题集,抽取所述原始数据字典集中的数据字典至所述业务主题集,得到各业务主题下的原始业务实体表;对所述原始业务实体表进行缺失值检测及去重操作,得到标准业务实体表;获取标准数据表,根据所述标准业务实体表及所述标准数据表生成映射关系表;根据所述标准业务实体表及所述映射关系表生成查询语句;根据所述查询语句生成数据抽取脚本,利用所述数据抽取脚本抽取数据并分类,得到分类结果。可选地,所述获取原始数据字典集及预设的业务主题集,抽取所述原始数据字典集中的数据字典至所述业务主题集,得到各业务主题下的原始业务实体表,包括:利用预设的语言处理算法提取所述业务主题集中的关键词;根据所述关键词匹配所述原始数据字典集中相对应的数据字典,并提取所述数据字典中的元数据至所述业务主题集;汇总所述业务主题集中各业务主题下的所有数据字典中的元数据,得到所述原始业务实体表。可选地,所述利用预设的语言处理算法提取所述业务主题集中的关键词,包括:将所述业务主题集中的文本进行分词处理,并除去停用词,得到分词结果;从所述分词结果中选择出一个或者多个关键词。可选地,所述对所述原始业务实体表进行缺失值检测及去重操作,得到标准业务实体表,包括:对所述原始业务实体表中的数据进行缺失值检测并填充,得到填充原始业务实体表;对所述填充原始业务实体表中的数据进行去重操作,并根据预设的业务规则得到所述标准业务实体表。可选地,所述根据所述标准业务实体表及所述标准数据表生成映射关系表,包括:从所述标准业务实体表中找到与所述标准数据表中标准字段名称一样的数据;配置所述数据与所述标准字段对应的标准代码值的映射关系,并生成映射关系表。可选地,所述根据所述标准业务实体表及所述映射关系表生成查询语句,包括:利用预设的语句创建函数生成所述标准业务实体表的建表语句;获取所述标准业务实体表的映射id,查找所述映射关系表中同一映射id下的所有映射脚本;汇总所述建表语句及所述映射脚本得到所述查询语句。可选地,所述根据所述查询语句生成数据抽取脚本,利用所述数据抽取脚本抽取数据并分类,得到分类结果,包括:获取预设平台的运行脚本模板,利用所述运行脚本模板及所述查询语句生成所述数据抽取脚本;在预设的时间运行所述数据抽取脚本,并根据所述数据抽取脚本从数据库中抽取数据并分类,得到所述分类结果。为了解决上述问题,本发明还提供一种数据分类装置,所述装置包括:数据字典抽取模块,用于获取原始数据字典集及预设的业务主题集,抽取所述原始数据字典集中的数据字典至所述业务主题集,得到各业务主题下的原始业务实体表;实体表处理模块,用于对所述原始业务实体表进行缺失值检测及去重操作,得到标准业务实体表;关系映射模块,用于获取标准数据表,根据所述标准业务实体表及所述标准数据表生成映射关系表;语句生成模块,用于根据所述标准业务实体表及所述映射关系表生成查询语句;数据分类模块,用于根据所述查询语句生成数据抽取脚本,利用所述数据抽取脚本抽取数据并分类,得到分类结果。为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:存储器,存储至少一个指令;及处理器,执行所述存储器中存储的指令以实现上述所述的数据分类方法。为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个指令,所述至少一个指令被电子设备中的处理器执行以实现上述所述的数据分类方法。本发明实施例通过原始数据字典集及预设的业务主题集,可以准确的确定各业务主题下的原始业务实体表,对所述原始业务实体表进行缺失值检测及去重操作,得到标准业务实体表,可以提高所述标准业务实体表中数据的准确性,同时根据所述标准业务实体表及所述标准数据表生成映射关系表,并根据所述标准业务实体表及所述映射关系表生成查询语句,根据所述查询语句生成数据抽取脚本,可以直接进行数据标准化及数据分类。因此本发明提出的数据分类方法、装置、电子设备及计算机可读存储介质,可以解决技术人员需要了解具体业务才能进行数据分类的问题。附图说明图1为本发明一实施例提供的数据分类方法的流程示意图;图2为图1中其中一个步骤的详细实施流程示意图;图3为图1中另一个步骤的详细实施流程示意图;图4为图1中另一个步骤的详细实施流程示意图;图5为映射关系表示意图;图6为图1中另一个步骤的详细实施流程示意图;图7为映射脚本示意图;图8为图1中另一个步骤的详细实施流程示意图;图9为本发明一实施例提供的数据分类装置的功能模块图;图10为本发明一实施例提供的实现所述数据分类方法的电子设备的结构示意图。本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。本申请实施例提供一种数据分类方法。所述数据分类方法的执行主体包括但不限于服务端、终端等能够被配置为执行本申请实施例提供的该方法的电子设备中的至少一种。换言之,所述数据分类方法可以由安装在终端设备或服务端设备的软件或硬件来执行,所述软件可以是区块链平台。所述服务端包括但不限于:单台服务器、服务器集群、云端服务器或云端服务器集群等。参照图1所示,为本发明一实施例提供的数据分类方法的流程示意图。在本实施例中,所述数据分类方法包括:s1、获取原始数据字典集及预设的业务主题集,抽取所述原始数据字典集中的数据字典至所述业务主题集,得到各业务主题下的原始业务实体表。本发明实施例中,所述数据字典包含对数据的内容进行概括描述的元数据,所述原始数据字典包括多个所述数据字典。比如,在大数据平台中,“案件表”有案件id、案号、承办人等字段,其中,案件id、案号、承办人三个字段的值分别为23423546666、(2020)粤0308民初453号、张三,其中,“案件表”就是一种数据字典,而所述案件id、案号、承办人就是数据字典“案件表”中的元数据。所述预设的业务主题集可以为多种领域的业务主题,比如,司法领域中的司法业务主题集可以划分为:案件信息、法官信息、当事人信息、文书信息、证据信息等。优选地,参考图2所示,所述s1包括:s10、利用预设的语言处理算法提取所述业务主题集中的关键词;s11、根据所述关键词匹配所述原始数据字典集中相对应的数据字典,并提取所述数据字典中的元数据至所述业务主题集;s12、汇总所述业务主题集中各业务主题下的所有数据字典中的元数据,得到所述原始业务实体表。详细地,所述利用预设的语言处理算法提取所述业务主题集中的关键词,包括:将所述业务主题集中的文本进行分词处理,并除去停用词,得到分词结果;从所述分词结果中选择出一个或者多个关键词。其中,本发明实施例中所述预设的语言处理算法可以是目前已公开的textrank、基于语义的关键词提取算法等。比如,司法业务下,提取司法业务主题集中的关键词“案件信息”,根据所述关键词“案件”匹配所述原始数据字典集中的数据字典“案件表”,抽取所述数据字典中的元数据“案件id、案号、承办人”等字段至“案件信息”业务主题下,汇总得到“案件信息”下的原始业务实体表。本发明实施例利用所述预设的语言处理算法可以快速的识别所述原始数据字典中的数据,避免所述原始数据字典集中一些关键信息的遗漏。s2、对所述原始业务实体表进行缺失值检测及去重操作,得到标准业务实体表。较佳地,参考图3所示,所述s2包括:s20、对所述原始业务实体表中的数据进行缺失值检测并填充,得到填充原始业务实体表;s21、对所述填充原始业务实体表中的数据进行去重操作,并根据预设的业务规则得到所述标准业务实体表。本发明实施例中,可以通过missmapfunction缺失函数检测所述原始业务实体表中的数据是否有缺失值,若没有缺失值,则不作处理,若有缺失值,则利用预设的填充算法对所述缺失值进行填充,得到所述填充原始业务实体表。详细地,所述预设的填充算法可以为:其中,l(θ)表示填充的数据缺失值,xi表示第i个数据缺失值,θ表示填充的数据缺失值对应的概率参数,n表示所述原始业务实体表中的数据数量,p(xi|θ)表示填充的数据缺失值概率。进一步地,本发明实施例通过距离公式对所述填充原始业务实体表中的数据进行去重操作,其中,所述距离公式包括:其中,d表示所述填充原始业务实体表中任意两个数据的距离值,w1j和w2j表示所述填充原始业务实体表中任意两个数据。其中,当所述距离值小于预设的距离值时,则删除其中任意一个数据,若所述距离值不小于预设的距离值时,则同时保留两个数据。较佳地,所述预设的距离值可以为0.1。进一步地,本发明实施例中,所述预设的业务规则是指在不同的业务场景下,对所述原始业务实体表进行取舍的规则,比如,司法业务场景下,“书证数据”在“案件表”、“文书表”中会重复出现,则去除所述原始业务实体表中的“文书表”。本发明实施例通过对所述原始业务实体表中的数据进行缺失值检测、去重操作,同时根据预设的业务规则对所述原始业务实体表中的数据进行调整,提高了所述数据的准确性。s3、获取标准数据表,根据所述标准业务实体表及所述标准数据表生成映射关系表。较佳地,所述标准数据表可以为国家标准数据表,所述国家标准数据表规定了各个标准字段及所述标准字段的对应标准代码值。比如,所述国家标准数据表中,性别字段的值1表示男,值2表示女。详细地,参考图4所示,所述根据所述标准业务实体表及所述标准数据表生成映射关系表,包括:s30、从所述标准业务实体表中找到与所述标准数据表中标准字段名称一样的数据;s31、配置所述数据与所述标准字段对应的标准代码值的映射关系,并生成映射关系表。优选地,比如,标准业务实体表“当事人信息”中有性别字段,该字段可能融合了来自a系统的性别数据(值01表示男,值02表示女)、b系统的性别数据(值00表示男,值01表示女),通过所述映射关系表可以使得所述标准业务实体表中的数据统一标准,以提高了数据使用效率。示例性的,参阅图5所示的映射关系表,源字段“xb”以及“sex”均被映射为标准字段“xingbie”,以及源代码值“值00表示男,值01表示女”及“值01表示男,值02表示女”均被映射为“值1表示男,值2表示女”等等。s4、根据所述标准业务实体表及所述映射关系表生成查询语句。优选地,本发明实施例生成的所述查询语句可以为当前已公开的结构化查询语言(sql),所述sql是数据处理中使用最广泛的语言,允许用户简明扼要地声明需要的业务逻辑,sql属于设定式语言,只需将需求表达清楚即可,不需要了解具体做法;sql可优化,内置多种查询优化器,多种查询优化器可为sql翻译出最优执行计划。较佳地,参阅图6所示,所述s4包括:s40、利用预设的语句创建函数生成所述标准业务实体表的建表语句;s41、获取所述标准业务实体表的映射id,查找所述映射关系表中同一映射id下的所有映射脚本;s42、汇总所述建表语句及所述映射脚本得到所述查询语句。本发明实施中,所述预设的语句创建函数可以为,例如,creattableifnotexistsry_zp_htxx(idstringcomment‘xx’)。本发明实施例根据所述利用所述语句创建函数生成建表语句可以为creattableifnotexistsry_zp_htxx(idstringcomment‘id’),ryidstringcomment‘人员id’,scbsstringcomment‘删除标识’,…。其中“ryid”表示“人员id”,“scbs”表示“删除标识”,…。本发明实施例中,每个所述标准业务实体表都有一个唯一的映射id。例如,如图7所示的映射脚本,查找映射id“mp0001”下的所有映射脚本,得到完整的映射脚本:“selectcasewhena.xb=’00’then’1’,whena.xb=’01’then’2’elsenullendasa.xbfromdsrxxajoincd_yingsxx_ysldmxxbona.xb=bdmz”。本发明实施例通过所述唯一映射id及所述映射关系表生成映射脚本,映射更加准确的同时降低了所述映射脚本的修改难度,提高了可维护性。s5、根据所述查询语句生成数据抽取脚本,利用所述数据抽取脚本抽取数据并分类,得到分类结果。较佳地,参考图8所示,所述s5包括:s50、获取预设平台的运行脚本模板,利用所述运行脚本模板及所述查询语句生成所述数据抽取脚本;s51、在预设的时间运行所述数据抽取脚本,并根据所述数据抽取脚本从数据库中抽取数据并分类,得到所述分类结果。优选地,所述预设平台可以为预构建的大数据管理平台,所述数据抽取脚本可以为shell脚本,所述大数据管理平台有schedule调度任务管理模块,它提供了定时运行脚本模板。本发明实施例将所述查询语句输入所述大数据管理平台,新建一个调度任务,可以定时根据所述查询语句生成数据抽取脚本,并抽取数据至所述标准业务实体表内,同时利用所述查询语句中的映射脚本对所述标准业务实体表中的数据做标准化处理,得到最后的分类结果。比如,设置脚本每天凌晨抽取数据,可以直接得到分类结果。本发明实施例利用所述大数据管理平台,可以自动生成所述数据抽取脚本,同时降低了操作门槛,技术人员无需了解具体业务也可以操作。本发明实施例通过原始数据字典集及预设的业务主题集,可以准确的确定各业务主题下的原始业务实体表,对所述原始业务实体表进行缺失值检测及去重操作,得到标准业务实体表,可以提高所述标准业务实体表中数据的准确性,同时根据所述标准业务实体表及所述标准数据表生成映射关系表,并根据所述标准业务实体表及所述映射关系表生成查询语句,根据所述查询语句生成数据抽取脚本,可以直接进行数据标准化及数据分类。因此本发明实施例可以解决技术人员需要了解具体业务才能进行数据分类的问题。如图9所示,是本发明一实施例提供的数据分类装置的功能模块图。本发明所述数据分类装置100可以安装于电子设备中。根据实现的功能,所述数据分类装置100可以包括数据字典抽取模块101、实体表处理模块102、关系映射模块103、语句生成模块104及数据分类模块105。本发明所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。在本实施例中,关于各模块/单元的功能如下:所述数据字典抽取模块101,用于获取原始数据字典集及预设的业务主题集,抽取所述原始数据字典集中的数据字典至所述业务主题集,得到各业务主题下的原始业务实体表。本发明实施例中,所述数据字典包含对数据的内容进行概括描述的元数据,所述原始数据字典包括多个所述数据字典。比如,在大数据平台中,“案件表”有案件id、案号、承办人等字段,其中,案件id、案号、承办人三个字段的值分别为23423546666、(2020)粤0308民初453号、张三,其中,“案件表”就是一种数据字典,而所述案件id、案号、承办人就是数据字典“案件表”中的元数据。所述预设的业务主题集可以为多种领域的业务主题,比如,司法领域中的司法业务主题集可以划分为:案件信息、法官信息、当事人信息、文书信息、证据信息等。较佳地,所述数据字典抽取模块101通过下述操作得到所述原始业务实体表:利用预设的语言处理算法提取所述业务主题集中的关键词;根据所述关键词匹配所述原始数据字典集中相对应的数据字典,并提取所述数据字典中的元数据至所述业务主题集;汇总所述业务主题集中各业务主题下的所有数据字典中的元数据,得到所述原始业务实体表。详细地,所述数据字典抽取模块101通过下述操作得到所述业务主题集中的关键词:将所述业务主题集中的文本进行分词处理,并除去停用词,得到分词结果;从所述分词结果中选择出一个或者多个关键词。其中,本发明实施例中所述预设的语言处理算法可以是目前已公开的textrank、基于语义的关键词提取算法等。比如,司法业务下,提取司法业务主题集中的关键词“案件信息”,根据所述关键词“案件”匹配所述原始数据字典集中的数据字典“案件表”,抽取所述数据字典中的元数据“案件id、案号、承办人”等字段至“案件信息”业务主题下,汇总得到“案件信息”下的原始业务实体表。本发明实施例利用所述预设的语言处理算法可以快速的识别所述原始数据字典中的数据,避免所述原始数据字典集中一些关键信息的遗漏。所述实体表处理模块102,用于对所述原始业务实体表进行缺失值检测及去重操作,得到标准业务实体表。较佳地,所述实体表处理模块102通过下述操作得到所述标准业务实体表:对所述原始业务实体表中的数据进行缺失值检测并填充,得到填充原始业务实体表;对所述填充原始业务实体表中的数据进行去重操作,并根据预设的业务规则得到所述标准业务实体表。本发明实施例中,可以通过missmapfunction缺失函数检测所述原始业务实体表中的数据是否有缺失值,若没有缺失值,则不作处理,若有缺失值,则利用预设的填充算法对所述缺失值进行填充,得到所述填充原始业务实体表。详细地,所述预设的填充算法可以为:其中,l(θ)表示填充的数据缺失值,xi表示第i个数据缺失值,θ表示填充的数据缺失值对应的概率参数,n表示所述原始业务实体表中的数据数量,p(xi|θ)表示填充的数据缺失值概率。进一步地,本发明实施例通过距离公式对所述填充原始业务实体表中的数据进行去重操作,其中,所述距离公式包括:其中,d表示所述填充原始业务实体表中任意两个数据的距离值,w1j和w2j表示所述填充原始业务实体表中任意两个数据。其中,当所述距离值小于预设的距离值时,则删除其中任意一个数据,若所述距离值不小于预设的距离值时,则同时保留两个数据。较佳地,所述预设的距离值可以为0.1。进一步地,本发明实施例中,所述预设的业务规则是指在不同的业务场景下,对所述原始业务实体表进行取舍的规则,比如,司法业务场景下,“书证数据”在“案件表”、“文书表”中会重复出现,则去除所述原始业务实体表中的“文书表”。本发明实施例通过对所述原始业务实体表中的数据进行缺失值检测、去重操作,同时根据预设的业务规则对所述原始业务实体表中的数据进行调整,提高了所述数据的准确性。所述关系映射模块103,用于获取标准数据表,根据所述标准业务实体表及所述标准数据表生成映射关系表。较佳地,所述标准数据表可以为国家标准数据表,所述国家标准数据表规定了各个标准字段及所述标准字段的对应标准代码值。比如,所述国家标准数据表中,性别字段的值1表示男,值2表示女。详细地,所述关系映射模块103通过下述操作生成所述映射关系表:从所述标准业务实体表中找到与所述标准数据表中标准字段名称一样的数据;配置所述数据与所述标准字段对应的标准代码值的映射关系,并生成映射关系表。优选地,比如,标准业务实体表“当事人信息”中有性别字段,该字段可能融合了来自a系统的性别数据(值01表示男,值02表示女)、b系统的性别数据(值00表示男,值01表示女),通过所述映射关系表可以使得所述标准业务实体表中的数据统一标准,以提高了数据使用效率。所述语句生成模块104,用于根据所述标准业务实体表及所述映射关系表生成查询语句。优选地,本发明实施例生成的所述查询语句可以为当前已公开的结构化查询语言(sql),所述sql是数据处理中使用最广泛的语言,允许用户简明扼要地声明需要的业务逻辑,sql属于设定式语言,只需将需求表达清楚即可,不需要了解具体做法;sql可优化,内置多种查询优化器,多种查询优化器可为sql翻译出最优执行计划。较佳地,所述语句生成模块104通过下述操作生成所述查询语句:利用预设的语句创建函数生成所述标准业务实体表的建表语句;获取所述标准业务实体表的映射id,查找所述映射关系表中同一映射id下的所有映射脚本;汇总所述建表语句及所述映射脚本得到所述查询语句。本发明实施中,比如,所述预设的语句创建函数可以为creattableifnotexistsry_zp_htxx(idstringcomment‘xx’),所述建表语句可以为creattableifnotexistsry_zp_htxx(idstringcomment‘id’),ryidstringcomment‘人员id’,scbsstringcomment‘删除标识’,…。其中“ryid”表示“人员id”,“scbs”表示“删除标识”,…。进一步地,本发明实施例中,每个所述标准业务实体表都有一个唯一的映射id。本发明实施例通过所述唯一映射id及所述映射关系表生成映射脚本,映射更加准确的同时降低了所述映射脚本的修改难度,提高了可维护性。所述数据分类模块105,用于根据所述查询语句生成数据抽取脚本,利用所述数据抽取脚本抽取数据并分类,得到分类结果。较佳地,所述数据分类模块105通过下述操作得到所述分类结果:获取预设平台的运行脚本模板,利用所述运行脚本模板及所述查询语句生成所述数据抽取脚本;在预设的时间运行所述数据抽取脚本,并根据所述数据抽取脚本从数据库中抽取数据并分类,得到所述分类结果。优选地,所述预设平台可以为预构建的大数据管理平台,所述数据抽取脚本可以为shell脚本,所述大数据管理平台有schedule调度任务管理模块,它提供了定时运行脚本模板。本发明实施例将所述查询语句输入所述大数据管理平台,新建一个调度任务,可以定时根据所述查询语句生成数据抽取脚本,并抽取数据至所述标准业务实体表内,同时利用所述查询语句中的映射脚本对所述标准业务实体表中的数据做标准化处理,得到最后的分类结果。比如,设置脚本每天凌晨抽取数据,可以直接得到分类结果。本发明实施例利用所述大数据管理平台,可以自动生成所述数据抽取脚本,同时降低了操作门槛,技术人员无需了解具体业务也可以操作。如图10所示,是本发明一实施例提供的实现数据分类方法的电子设备的结构示意图。所述电子设备1可以包括处理器10、存储器11和总线,还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序,如数据分类程序12。其中,所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:sd或dx存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备1的内部存储单元,例如该电子设备1的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备1的外部存储设备,例如电子设备1上配备的插接式移动硬盘、智能存储卡(smartmediacard,smc)、安全数字(securedigital,sd)卡、闪存卡(flashcard)等。进一步地,所述存储器11还可以既包括电子设备1的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备1的应用软件及各类数据,例如数据分类程序12的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。所述处理器10在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(centralprocessingunit,cpu)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(controlunit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块(例如数据分类程序等),以及调用存储在所述存储器11内的数据,以执行电子设备1的各种功能和处理数据。所述总线可以是外设部件互连标准(peripheralcomponentinterconnect,简称pci)总线或扩展工业标准结构(extendedindustrystandardarchitecture,简称eisa)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。图10仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图10示出的结构并不构成对所述电子设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。例如,尽管未示出,所述电子设备1还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器10逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备1还可以包括多种传感器、蓝牙模块、wi-fi模块等,在此不再赘述。进一步地,所述电子设备1还可以包括网络接口,可选地,所述网络接口可以包括有线接口和/或无线接口(如wi-fi接口、蓝牙接口等),通常用于在该电子设备1与其他电子设备之间建立通信连接。可选地,该电子设备1还可以包括用户接口,用户接口可以是显示器(display)、输入单元(比如键盘(keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是led显示器、液晶显示器、触控式液晶显示器以及oled(organiclight-emittingdiode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。所述电子设备1中的所述存储器11存储的数据分类程序12是多个指令的组合,在所述处理器10中运行时,可以实现:获取原始数据字典集及预设的业务主题集,抽取所述原始数据字典集中的数据字典至所述业务主题集,得到各业务主题下的原始业务实体表;对所述原始业务实体表进行缺失值检测及去重操作,得到标准业务实体表;获取标准数据表,根据所述标准业务实体表及所述标准数据表生成映射关系表;根据所述标准业务实体表及所述映射关系表生成查询语句;根据所述查询语句生成数据抽取脚本,利用所述数据抽取脚本抽取数据并分类,得到分类结果。具体地,所述处理器10对上述指令的具体实现方法可参考图1至图8对应实施例中相关步骤的描述,在此不赘述。进一步地,所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个非易失性计算机可读取存储介质中。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-onlymemory)。在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1