一种基于xbrl技术从非结构化财务报告抓取数据的方法

文档序号:8412608阅读:926来源:国知局
一种基于xbrl技术从非结构化财务报告抓取数据的方法
【技术领域】
[0001]本发明涉及计算机应用技术领域,具体地说是一种实用性强、基于XBRL技术从非结构化财务报告抓取数据的方法。
【背景技术】
[0002]随着计算机及网络技术的发展,信息以爆炸式的速度飞速增长,数据的存储形式也更加多样化,除了传统的关系数据库结构化存储之外,还有大量的数据以非结构化的方式存储,比如普通文本文件、Office文档、电子邮件或其他格式的电子文档,这些数据一般受限于不同应用软件,必须采用特定软件打开,不同系统之间很难交换数据,据国际知名调研机构Forrest Research的统计资料表明,其中只有15%左右的信息存储在结构化数据库中,更多的85%的信息还是非结构化方式存储,因受限于格式,无法进行有效的利用;在财务报告领域更是如此,由于缺少标准,财务报告不同应用主体之间信息的交换和传输主要采用Office文档等非结构化格式。
[0003]XBRL可扩展商业报告语言是基于互联网、跨平台操作,专门用于财务报告编制、披露和使用的计算机语言,是一种可公开的、完全免费的国际标准,其最大特点是对每一个报告数据进行标识,并采用一套标准模型描述数据之间的关系,使得计算机能够读懂财务报告,加快了信息处理的效率和数据的利用率。
[0004]XBRL作为一种新兴的财务报告编制技术标准,在全球范围内还处于一个快速发展期,我们国家非常重视XBRL技术的应用,由财政部签头,2010年发布了 XBRL相关国家标准,从2011年开始在部分大中型企业开始试点,目前虽然已经试点了四年,但企业应用热情不高,其中一个主要原因是当前社会积累的XBRL企业数据较少,企业应用XBRL —般看重基于XBRL数据分析能力,能够最大化的利用数据,挖掘数据的价值,如何把现有的大量的非结构化的财务报告转化为XBRL格式的,为企业分析应用提供数据支撑,是当前迫切需要解决的。基于此,现提出了一种基于XBRL技术从非结构化财务报告抓取数据的方法。

【发明内容】

[0005]本发明的技术任务是针对以上不足之处,提供一种实用性强、基于XBRL技术从非结构化财务报告抓取数据的方法。
[0006]一种基于XBRL技术从非结构化财务报告抓取数据的方法,其具体实现过程为:
一、以XBRL分类标准为财务报告模型,对分类标准元素和扩展链接角色ELR进行扩展标识;
二、使用Word或Excel的非结构化格式的财务报告,预置对采用表格方式表示财务报表进行解析的规则,实现表格数据到XBRL分类标准报告模型的对应关系映射;
三、针对报告主体、时间两个特殊的维度,通过特殊关键字匹配财务报告,在对应关系的基础之上实现表格数据到XBRL数据的自动转换。
[0007]所述对分类标准元素和ELR进行扩展标识,是指通过设置多种类型的元素与财务报告具体数据对应,通过ELR设置关键字实现与财务报告具体报表的对应,其中:
对分类标准元素进行扩展标识的具体过程为,同一元素可以设置多种类型的标签,参照元素不同种类的标签对表格数据进行多种类型的匹配,根据匹配的相似度高低选择最优匹配结果,从而提高表格数据到分类标准报告模型对应关系映射的准确性;
对ELR进行扩展标识的具体过程为,将关键字分为标题关键字、内容关键字两类,每类包括若干个,标题关键字根据内嵌表格对象表示的报表标题名称来定义,标题关键字支持多个优先级设置;内容关键字根据内嵌表格对象具体的表格数据的特征来设置,支持多个关键字设置。
[0008]所述使用Word或Excel的非结构化格式的财务报告是指采用表格方式表示一张财务报表,对表格展现形式进行归类,按照非维度与维度建模方式划分为2大类,其中非维度的建模对应的报表只包含时间维和财务概念;维度建模对应的报表包括时间维、财务概念。
[0009]所述非维度的建模方式中包括双期间双项目列、单期间单项目列、双期间单项目列、单期间双项目列;维度建模方式包括单期间行项目列维度、单期间行维度列项目、双期间行项目列维度、双期间行维度列项目;然后对该表格数据解析抽取出维度、量度,实现与分类标准模型的对应。
[0010]所述步骤三中,财务报告中具体报表数据中的时间维度通过强标识的关建字进行标识,关键字包括:期末*余额、期初*余额、本期*金额、上期*金额、期末数、期初数、上年同期金额、年初*余额、年末*余额,其中*表示通配。
[0011]本发明的一种基于XBRL技术从非结构化财务报告抓取数据的方法,具有以下优占.V.本发明提出的一种基于XBRL技术从非结构化财务报告抓取数据的方法,可以最大程度的保证数据自动标识转换的适用性,能够实现快速的从现有的大量的非结构化的财务报告转化为XBRL格式的,为企业分析应用提供数据支撑,推动XBRL技术在企业的应用,实用性强,易于推广。
【附图说明】
[0012]附图1为本发明的非结构化格式的财务报告表格示意图。
[0013]附图2为本发明的实施例实现流程图。
【具体实施方式】
[0014]下面结合附图和具体实施例对本发明作进一步说明。
[0015]本发明提供一种基于XBRL技术从非结构化财务报告抓取数据的方法,以XBRL分类标准为财务报告模型,利用Word、Excel等非结构化格式的财务报告一般采用表格方式表示一张财务报表的特点,通过预置一定的规则对采用表格方式表示财务报表进行解析,实现表格数据到XBRL分类标准报告模型的对应关系映射,在对应关系的基础之上实现表格数据到XBRL数据的自动转换,如附图1所示,其具体实现过程为:
以XBRL分类标准为财务报告模型,该模型主要特点是对财务报告按照维度建模的方式进行抽象,分为非维度、维度两种建模方式,其中报告主体、时间作为特殊维度处理,因此排除报告主体、时间维度外划分建模方式,非维度建模对应只包含时间维和财务概念的报表,如财务主表中的资产负债表,维度建模对应除了时间维和财务概念之外的还有其他维度的报表,如财务附注中的应收账款账龄分析表,按照这种建模方式,对财务报告上除了具体数据外几乎所有文本项目都抽象了元素,并根据文本项目表示具体财务概念利用标签进行标记。
[0016]利用Word、Excel等非结构化格式的财务报告一般米用表格方式表不一张财务报表的特点,对表格展现形式进行归类,按照非维度与维度建模方式具体可以划分为2大类共8种展现形式,如附图1所示,按照8种展现形式和维度建模的原则,通过对表格数据进行解析,可以区分出维度和量度,维度对应XBRL抽象元素,量度对应XBRL非抽象元素,进一步根据XBRL分类标准定义链接库维度模型可以分析出具体的维度,从而实现表格数据中的维度和量度到XBRL分类标准报告模型的对应关系映射。
[0017]所述非维度的建模方式中包括双期间双项目列、单期间单项目列、双期间单项目列、单期间双项目列;维度建模方式包括单期间行项目列维度、单期间行维度列项目、双期间行项目列维度、双期间行维度列项目;然后对该表格数据解析抽取出维度、量度,实现与分类标准模型的对应。
[0018]根据Word、Excel等非结构化格式的财务报告展现特点,一张报表在Word文档里用一个内嵌表格对象表示,在分类标准里用扩展链接角色(ELR)标识,通过在ELR上设置报表的关键字来识别Word文档里内嵌表格对象与分类标准ELR的对应关系,关键字分为标题关键字、内容关键字两类,每类可以有多个,标题关键字根据内嵌表格对象表示的报表标题名称来定义,标题关键字支持多个及优先级设置,内容关键字根据内嵌表格对象具体的表格数据的特征来设置,支持多个关键字设置。
[0019]利用分类标准中元素标签的扩展标记,对表格数据进行解析时,可以参照元素不同种类的标签对表格数据进行多种类
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1