数据处理方法、计算机设备及计算机存储介质与流程

文档序号:32838471发布日期:2023-01-06 19:59阅读:23来源:国知局
数据处理方法、计算机设备及计算机存储介质与流程

1.本技术实施例涉及数据处理领域,具体涉及一种数据处理方法、计算机设备及计算机存储介质。


背景技术:

2.在对财务报表进行分析的场景中,通常只能获取图像、扫描文档之类的图像式电子文档,然后人工耗费大量精力将图像式的电子文档中的信息手动还原成可编辑和计算的数据信息后,再手动编辑财务指标的计算公式,根据该计算公式对还原得到的数据信息进行计算处理,以分析企业的财务经营状况。
3.由于财务报表纷繁复杂的数据信息通常以各式各样的表格展现出来,将其手动转化成可计算、可分析的数据源,十分耗时耗力,且人工还原的准确性无法保证。另外,对于需要分析大量财务数据的场景,重复编辑财务指标的计算公式,也颇为繁琐,且若选作分析的指标发生变更,还需手动更新所有财务数据的计算公式,耗费大量的人力物力。


技术实现要素:

4.本技术实施例提供了一种数据处理方法、计算机设备及计算机存储介质,用于对源数据中的表格进行识别和提取文本数据进而对文本数据进行分析处理,节省人力物力的同时提升数据提取的准确性以及数据分析的准确性。
5.本技术实施例第一方面提供了一种数据处理方法,所述方法包括:
6.获取源数据,所述源数据包括表格;
7.对所述源数据中的表格进行识别,以提取出所述源数据的表格中的文本数据;
8.根据预设处理算法对提取到的所述文本数据进行处理,获得数据处理结果。
9.本技术实施例第二方面提供了一种计算机设备,所述计算机设备包括:
10.获取单元,用于获取源数据,所述源数据包括表格;
11.识别单元,用于对所述源数据中的表格进行识别,以提取出所述源数据的表格中的文本数据;
12.数据处理单元,用于根据预设处理算法对提取到的所述文本数据进行处理,获得数据处理结果。
13.本技术实施例第三方面提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现前述第一方面的方法。
14.本技术实施例第四方面提供了一种计算机存储介质,计算机存储介质中存储有指令,该指令在计算机上执行时,使得计算机执行前述第一方面的方法。
15.从以上技术方案可以看出,本技术实施例具有以下优点:
16.计算机设备获取源数据,并对源数据中的表格进行识别,以提取出源数据的表格中的文本数据,根据预设处理算法对提取到的文本数据进行处理,获得数据处理结果。因此,无需再由人工手动将表格转化为可计算分析的数据源,从而节省人力成本,也无需人工
重复编辑数据的计算公式,只需由计算机设备根据预设处理算法对表格中提取到的文本数据进行处理即可,可节省大量的人力物力,同时也能确保数据提取的准确性以及确保数据分析的准确性。
附图说明
17.图1为本技术实施例中网络框架示意图;
18.图2为本技术实施例中数据处理方法一个流程示意图;
19.图3为本技术实施例中数据处理方法另一流程示意图;
20.图4为本技术实施例中计算机设备一个结构示意图;
21.图5为本技术实施例中计算机设备另一结构示意图。
具体实施方式
22.本技术实施例提供了一种数据处理方法、计算机设备及计算机存储介质,用于对源数据中的表格进行识别和提取文本数据进而对文本数据进行分析处理,节省人力物力的同时提升数据提取的准确性以及数据分析的准确性。
23.请参阅图1,本技术实施例中网络框架包括:
24.业务服务器100以及终端集群;终端集群可以包括:终端设备200a、终端设备200b、终端设备200c、
……
、终端设备200n等终端设备。
25.其中,上述业务服务器100可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云数据库、云服务、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备(包括终端设备200a、终端设备200b、终端设备200c、
……
、终端设备200n)可以是智能手机、平板电脑、笔记本电脑、台式计算机、掌上电脑、移动互联网设备(mobile internet device,mid)、可穿戴设备(例如智能手表、智能手环等)、智能电脑、智能车载等智能终端。
26.其中,业务服务器100与终端集群中的各终端设备可以建立通信连接,终端集群中的各终端设备之间也可建立通信连接。换句话说,业务服务器100可与终端设备200a、终端设备200b、终端设备200c、
……
、终端设备200n中的各终端设备建立通信连接,例如终端设备200a与业务服务器100之间可建立通信连接。终端设备200a与终端设备200b之间可建立通信连接,终端设备200a与终端设备200c之间也可建立通信连接。其中,上述通信连接不限定连接方式,可以通过有线通信方式进行直接或间接地连接,也可以通过无线通信方式进行直接或间接地连接等,具体可根据实际应用场景确定,本技术在此不做限制。
27.应该理解,如图1所示的终端集群中的每个终端设备均可以安装有应用客户端,当该应用客户端运行于各终端设备中时,可分别与业务服务器100之间进行数据交互,使得业务服务器100可以接收来自于每个终端设备的业务数据(比如用户通过终端设备上传的财务管理数据)。其中,该应用客户端可以为财务管理应用、企业事务管理应用、社交应用、即时通信应用、直播应用、游戏应用、短视频应用、视频应用、音乐应用、购物应用、小说应用、支付应用等具有显示文字、图像、音频以及视频等数据信息功能的应用客户端,具体可根据实际应用场景需求确定,在此不做限制。其中,该应用客户端可以为独立的客户端,也可以
为集成在某客户端(例如财务管理客户端、企业事务管理客户端等)中的嵌入式子客户端,具体可根据实际应用场景确定,在此不做限定。
28.下面结合图1的网络框架,对本技术实施例中的数据处理方法进行描述:
29.请参阅图2,本技术实施例中数据处理方法一个实施例包括:
30.201、获取源数据,所述源数据包括表格;
31.本实施例的方法可应用于计算机设备,该计算机设备可以是图1所示网络框架中的业务服务器100或者各终端设备。计算机设备可获取源数据以便对该源数据进行数据处理并向用户返回数据处理结果。其中,该源数据包括待处理的表格,表格包含需要提取出的文本数据,计算机设备需要识别出表格中的文本数据并处理该文本数据以获得数据处理结果。
32.202、对所述源数据中的表格进行识别,以提取出所述源数据的表格中的文本数据;
33.计算机设备对源数据中的表格进行识别,以提取出表格中的文本数据。其中,识别出源数据中的表格的方式有多种方式,例如可以通过图像识别的方式识别出源数据中的表格,也可以通过识别源数据中的提示文字来识别出表格,如源数据中的表格介绍文字“表1”、“表2”等用于介绍表格和描述表格属性或者名称的文字和字段,识别此文字和字段可确定出源数据中的表格。本实施例对识别出源数据中的表格的方式不作限定。
34.在识别到表格之后,可提取出表格中的文本数据,以便对表格中的文本数据进行计算处理以获得数据处理结果。
35.203、根据预设处理算法对提取到的所述文本数据进行处理,获得数据处理结果;
36.本实施例中,可以根据任意处理指标来对表格的文本数据进行处理,以获得处理指标对应的数据处理结果。其中,该预设处理算法可以是任意的数据处理算法,例如可以是数据拟合、hash法、bit-map法、bloom filter法、数据库优化法、倒排索引法、外排序法、trie树、堆、双层桶法以及mapreduce法等多种数据处理算法,本实施例对该预设处理算法的类型不作限定。
37.计算机设备获取源数据,并对源数据中的表格进行识别,以提取出源数据的表格中的文本数据,根据预设处理算法对提取到的文本数据进行处理,获得数据处理结果。因此,无需再由人工手动将表格转化为可计算分析的数据源,从而节省人力成本,也无需人工重复编辑数据的计算公式,只需由计算机设备根据预设处理算法对表格中提取到的文本数据进行处理即可,可节省大量的人力物力,同时也能确保数据提取的准确性以及确保数据分析的准确性。
38.下面将在前述图2所示实施例的基础上,进一步详细地描述本技术实施例。请参阅图3,本技术实施例中数据处理方法另一实施例包括:
39.301、获取源数据,所述源数据包括表格;
40.本实施例中,计算机设备可以是终端或者服务器,或者是c/s架构下的服务端-客户端系统。当其为c/s架构下的服务端-客户端系统时,本实施例的方法可配置为终端的软件程序,即终端安装app并运行此app以实现本实施例的方法。因此,在需要处理源数据时,用户可在app上一键上传源数据,此源数据会被上传至服务端,服务端根据本实施例的方法执行对该源数据的处理。其中,源数据可以是任意领域、任意类型的数据,例如可以是财务
会计领域的财务报表,服务端例如可以是gpu服务器、云服务器等具备数据处理能力的服务器设备。
41.302、对所述源数据中的表格进行识别,以提取出所述源数据的表格中的文本数据;
42.在获取到源数据之后,计算机设备可对源数据中的表格进行识别,并从识别到的表格中提取出文本数据。具体的,识别出源数据中的表格以及提取表格中的文本数据,其一种优选的实施方式可以是,将源数据转换为目标图像,采用图像矫正算法对目标图像进行矫正,获得矫正图像,采用文本识别算法对矫正图像进行文本识别,以提取出矫正图像中的表格的文本数据。其中,对目标图像的矫正例如可以是检测文本倾斜角度,根据此倾斜角度对倾斜的目标图像进行旋转,以此实现图像矫正。
43.在获得表格的文本数据之后,可将提取到的文本数据按照预设格式存储在数据仓库中,以方便文本数据的调用和保存,防止数据丢失。
44.其中,采用文本识别算法对矫正图像进行文本识别,以提取出矫正图像中的表格的文本数据,其一种优选的实施方式可以是,采用文本识别算法对矫正图像进行文本识别,根据矫正图像建立坐标系,在坐标系中确定矫正图像对应的文本数据的坐标,将矫正图像对应的文本数据的坐标与预设类型文本的坐标进行比对,将矫正图像中坐标与预设类型文本的坐标相匹配的文本数据确定为矫正图像中的表格的文本数据。
45.例如,用户向客户端一键导入财务报表,客户端将财务报表上传至gpu服务器,由部署在gpu服务器上的表格提取算法,针对上传的财务报表文档,将财务报表文档处理为图像;其次,逐张对图像执行矫正、表格判断、文本识别、表格提取等一系列工作;将识别和还原的财务报表数据按照预先设置好的格式储存在数据仓库中。
46.303、根据预设处理算法对提取到的文本数据进行处理,获得数据处理结果;
47.在获得表格的文本数据之后,可根据预设处理算法对提取到的文本数据进行处理,获得数据处理结果。具体的,根据预设处理算法对提取到的文本数据进行处理,获得数据处理结果,其一种优选的实施方式可以是,接收用户设置的多个分析指标,根据预设处理算法将提取到的文本数据处理为多个分析指标对应的数据处理结果。
48.沿用上述例子,gpu服务器内置一套标准化的财务指标的计算公式,用户可根据各行业特殊属性,在客户端界面选择需要的财务指标,则gpu服务器根据用户设置的财务指标,抓取数据仓库存储的财务报表数据,根据设置好的计算公式,计算出各财务指标对应的数据处理结果,并将数据处理结果存储在数据仓库中,以方便数据处理结果的查询和调用。
49.304、获取多个分析对象的源数据的数据处理结果,响应于用户的数据分析指令,基于同一分析指标对多个分析对象的源数据的数据处理结果进行分析比对,并输出分析比对结果;
50.本实施例中,可对每个分析对象的源数据进行数据处理,得到每个分析对象的源数据的数据处理结果。每个分析对象的源数据的数据处理结果可存储至数据仓库中,可供计算机设备随时查询和调用。其中,分析对象可以是企业、个人或者其他单位组织等等,此处不作限定。
51.用户可向计算机设备输入数据分析指令,以指示计算机设备对多个分析对象的源数据的数据处理结果进行分析比对,则计算机设备获取多个分析对象的源数据的数据处理
结果,并响应于用户的数据分析指令,基于同一分析指标对多个分析对象的源数据的数据处理结果进行分析比对,并输出分析比对结果,则此分析比对结果表示了多个分析对象之间在该同一个分析指标上的差异,从而用户可获知不同分析对象之间在某个分析指标上的差距。
52.305、获取目标分析对象的多个分析指标对应的数据处理结果,响应于用户的数据分析指令,对目标分析对象的多个分析指标对应的数据处理结果进行分析,并向用户展示分析结果;
53.同理,也可对同一个分析对象的多个分析指标对应的数据处理结果进行分析比对。具体的,用户可向计算机设备输入数据分析指令,以指示计算机设备对目标分析对象的多个分析指标对应的数据处理结果进行分析比对,则计算机设备获取目标分析对象的多个分析指标对应的数据处理结果,并响应于用户的数据分析指令,对目标分析对象的多个分析指标对应的数据处理结果进行分析,并向用户展示分析结果,则此分析结果表示了该目标分析对象的多个分析指标之间在数据处理结果上的差异,从而用户可获知该目标分析对象在不同分析指标上的发展现状和变化情况。
54.在获得上述分析比对结果或者分析结果之后,计算机设备可根据预设的报文内容格式生成对应的分析报告,并向用户展示此分析报告。同时,此分析报告也可支持用户分享和导出,大大提升了用户对计算机设备的数据处理功能的使用体验。
55.本实施例中,利用计算机视觉技术,对于文档图像进行矫正并识别提取其中的财务报表等数据,这使得表格数据提取的准确性得到了保证。并且,内置标准化的财务指标计算公式,可以很好的指导用户对自己的财务报表或者其他公司的财务报表进行准确分析以及协助其对市场形势进行研判。可以从不同维度、不同公司间的财务指标进行数据处理结果的分析,有助于用户对财报进行充分分析,避免由于疏忽造成分析不够充分进而引发误判,从而减少企业损失,促进企业发展。可定制化生成分析报告,可以让用户快速且有针对性地生成分析报告,提高工作效率。
56.上面对本技术实施例中的数据处理方法进行了描述,下面对本技术实施例中的计算机设备进行描述,请参阅图4,本技术实施例中计算机设备一个实施例包括:
57.获取单元401,用于获取源数据,所述源数据包括表格;
58.识别单元402,用于对所述源数据中的表格进行识别,以提取出所述源数据的表格中的文本数据;
59.数据处理单元403,用于根据预设处理算法对提取到的所述文本数据进行处理,获得数据处理结果。
60.本实施例一种优选的实施方式中,识别单元402具体用于将所述源数据转换为目标图像,采用图像矫正算法对所述目标图像进行矫正,获得矫正图像;采用文本识别算法对所述矫正图像进行文本识别,以提取出所述矫正图像中的表格的所述文本数据。
61.本实施例一种优选的实施方式中,识别单元402具体用于采用文本识别算法对所述矫正图像进行文本识别,根据所述矫正图像建立坐标系,在所述坐标系中确定所述矫正图像对应的文本数据的坐标;将所述矫正图像对应的文本数据的坐标与预设类型文本的坐标进行比对,将所述矫正图像中坐标与所述预设类型文本的坐标相匹配的文本数据确定为所述矫正图像中的表格的文本数据。
62.本实施例一种优选的实施方式中,数据处理单元403具体用于接收用户设置的多个分析指标,根据所述预设处理算法将提取到的所述文本数据处理为所述多个分析指标对应的数据处理结果。
63.本实施例一种优选的实施方式中,所述计算机设备还包括:
64.分析单元404,用于获取多个分析对象的所述源数据的数据处理结果;响应于用户的数据分析指令,基于同一分析指标对所述多个分析对象的所述源数据的数据处理结果进行分析比对,并输出分析比对结果。
65.本实施例一种优选的实施方式中,分析单元404还用于获取目标分析对象的多个分析指标对应的数据处理结果;响应于用户的数据分析指令,对所述目标分析对象的多个分析指标对应的数据处理结果进行分析,并向用户展示分析结果。
66.本实施例一种优选的实施方式中,计算机设备还包括:
67.存储单元405,用于将提取到的所述文本数据按照预设格式存储在数据仓库中;将所述数据处理结果存储至所述数据仓库中。
68.本实施例中,计算机设备中各单元所执行的操作与前述图1至图2所示实施例中描述的类似,此处不再赘述。
69.本实施例中,计算机设备获取源数据,并对源数据中的表格进行识别,以提取出源数据的表格中的文本数据,根据预设处理算法对提取到的文本数据进行处理,获得数据处理结果。因此,无需再由人工手动将表格转化为可计算分析的数据源,从而节省人力成本,也无需人工重复编辑数据的计算公式,只需由计算机设备根据预设处理算法对表格中提取到的文本数据进行处理即可,可节省大量的人力物力,同时也能确保数据提取的准确性以及确保数据分析的准确性。
70.下面对本技术实施例中的计算机设备进行描述,请参阅图5,本技术实施例中计算机设备一个实施例包括:
71.该计算机设备500可以包括一个或一个以上中央处理器(central processing units,cpu)501和存储器505,该存储器505中存储有一个或一个以上的应用程序或数据。
72.其中,存储器505可以是易失性存储或持久存储。存储在存储器505的程序可以包括一个或一个以上模块,每个模块可以包括对计算机设备中的一系列指令操作。更进一步地,中央处理器501可以设置为与存储器505通信,在计算机设备500上执行存储器505中的一系列指令操作。
73.计算机设备500还可以包括一个或一个以上电源502,一个或一个以上有线或无线网络接口503,一个或一个以上输入输出接口504,和/或,一个或一个以上操作系统,例如windows servertm,mac os xtm,unixtm,linuxtm,freebsdtm等。
74.该中央处理器501可以执行前述图2至图3所示实施例中计算机设备所执行的操作,具体此处不再赘述。
75.本技术实施例还提供了一种计算机存储介质,其中一个实施例包括:该计算机存储介质中存储有指令,该指令在计算机上执行时,使得该计算机执行前述图2至图3所示实施例中计算机设备所执行的操作。
76.所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
77.在本技术所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
78.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
79.另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
80.所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1