一种基于领域本体的XBRL财务信息元素语义对齐方法

文档序号:36479192发布日期:2023-12-25 07:46阅读:30来源:国知局
一种基于领域本体的

本发明涉及金融数据处理,具体涉及一种基于领域本体的xbrl财务信息元素语义对齐方法。


背景技术:

1、xbrl分类标准技术体系中的财务信息元素表示企业财务信息披露过程中的财务报告术语,在xbrl分类标准的标签链接库中,标签是财务信息元素的显示名,其中,xbrl是金融数据结构化、语义化的基础,然而,xbrl本身也有一些局限性,企业披露xbrl报告之间的不一致性是常见问题,要解决这些问题,需要更灵活的金融数据结构化和语义化方法,也需要依赖人工智能技术做好数据的自动提取、交叉验证、信息搜索。

2、在现有的方案中,有采用owl本体语言转化xbrl分类标准,并在两两本体之间进行语义映射实现不一致信息元素的语义对齐,这种方法充分利用分类标准的技术信息,但是分类标准本身的语义较弱问题不能避免,并且分类标准转化为本体、两两本体之间建立映射的流程模式,不能降低数据处理的复杂度;

3、有采用一种x-im框架,通过一个投资者本体(investor’s ontology)作为共享本体,投资者本体中封装了一组等价的投资者术语,将xbrl标签链接库中的标签元素映射为索引本体(ionto)的一个类,并与投资者本体进行等价术语对齐,从而解决xbrl在企业应用过程中的语义异质,这种方法针对xbrl特定应用需求的自动化报告处理,并没有提到财务报告领域本体构建的方法,且矢量计算的信息元素对齐方式,难以避免术语语义描述信息的不足;

4、有采用蚁群算法而非领域本体的方法,将xbrl各链接库的信息进行二分图建模的基础上,实现两个实例文档之间的财务信息元素对齐,缺点在于一次只能处理两个实例文档,数据处理的效率问题有待解决。

5、有采用本体增强的xbrl模型,在xbrl分类标准之上建立领域共享本体,并基于概念在上层本体之间的路径距离作为衡量概念之间的相似度计算结果从而实现术语的语义对齐,然而没有提到财务报告领域本体构建的细节,并且仅考虑概念之间的路径距离无法精确刻画术语的语义信息。

6、有采用利用分类标准之间的链接库关系,将概念之间的关系转换为is-a关系,利用m3层次相似性算法对齐财务报告信息元素,其将概念之间不同的关系笼统的映射为is-a关系具有局限性,映射精确度差的问题难以避免。

7、有采用ofxd决策框架作为一个本体构件对xbrl元素进行分类,以实现信息元素之间的映射,但并没有提供关于如何实现基于本体的概念之间的语义映射的方法;

8、有采用将xbrl分类标准转换为本体模式,采用基于规则的方式对齐财务信息元素,这种方法依赖映射模板,随着分类标准数量的逐渐增多,使得创建用于分类标准之间相互映射的数据转换模板的成本在不断增加。

9、综上可知,现有的方案存在以下不足:

10、1、针对财务报告领域本体通常描述一种框架,并没有实际针对财务报告领域的本体构建方法讨论;

11、2、大部分方案将分类标准映射为本体,难以避免分类标准本身所存在的语义较弱的问题,同时基于规则创建分类标准之间相互映射的数据转换模板成本不断增加。

12、3、采用启发式算法利用分类标准组件信息的方式难以实现多个文档之间的映射,数据处理效率有待提高;

13、4、采用矢量计算和路径距离对齐信息元素,缺少其他语义信息的利用,数据处理的准确性有待提高;

14、因此,亟需一种能够提供具体的财务报告领域本体构建,解决xbrl本身语义性较弱导致的不同xbrl文件不一致的问题,并以此降低数据处理成本、提高数据处理效率和准确性的技术方案。


技术实现思路

1、为了克服现有技术存在的缺陷与不足,本发明提供一种基于领域本体的xbrl财务信息元素语义对齐方法,本发明采用领域本体形式化表示财务报告术语,并利用模糊语义相似度计算方法计算标签链接库中的标签之间的相似度,进而实现财务信息元素之间的语义对齐,保持xbrl报告之间一致性。

2、为了达到上述目的,本发明采用以下技术方案:

3、本发明提供一种基于领域本体的xbrl财务信息元素语义对齐方法,包括下述步骤:

4、提取会计词典中具有解释的词汇作为候选领域概念,以每行一个概念词存储到领域词典中;

5、获取财务报告附注文本作为待处理语料库;

6、对语料库分别做切词处理、词性标注和命名实体识别,获得所有词性标注的结果,通过预设的筛选规则获取多个停用词,将多个停用词存储作为财务报告领域的停用词词表;

7、基于lda模型扩展语料库,基于扩展语料库对财务报告附注文本语义进行扩展,基于停用词表去除文本停用词,将扩展后的财务报告附注文本作为新的语料库;

8、将新的语料库中的词汇转换成词汇特征向量;

9、根据类间差异最小值的变化确定最终的聚类数目,以类的最大概念数量作为迭代停止的标准,当类内概念的数量小于迭代停止的标准时则停止迭代,通过迭代聚类获取领域本体的层次分类;

10、基于余弦相似度算法计算每个类内概念之间的相似度,将类内概念与其他概念之间的平均相似度最大的概念作为类标签;

11、对领域词典和财务报告领域的停用词词表进行切词和词性标注,并进行依存句法分析,提取得到当前概念词以及与当前概念词存在相应关系的另一个概念词,提取概念对之间的动词作为对象属性关系;

12、抽取与财务报告附注文本中词汇有句法依存关系的动词;

13、建立xbrl分类标准的财务信息元素与财务报告概念本体的对齐方式;

14、计算财务信息元素所对应的概念词之间的相似度,基于模糊语义相似度计算并对齐信息元素语义相似度。

15、作为优选的技术方案,通过预设的筛选规则获取多个停用词,预设的筛选规则表示为:

16、删除词性标注为语素、数量词、副词、介词的词汇,实体识别结果为:机构名、人名、地名。

17、作为优选的技术方案,基于扩展语料库对财务报告附注文本语义进行扩展,具体包括:

18、计算不同主题数量的文本语义一致性,选取语义一致性结果最大的值作为主题的数量,构建主题词典;

19、以财务报告附注文本的一个句子作为一个单元,查询一个单元中的词汇,当词汇出现在主题词典中,则扩展整条主题词汇到财务报告附注文本中,当多个词汇出现在同一条主题词典中,则只扩展一次,将扩展后的财务报告附注文本作为新的语料库。

20、作为优选的技术方案,提取概念对之间的动词作为对象属性关系,具体包括:

21、当依存句法关系为主谓关系、动宾关系、间宾关系、前置宾语、兼语且依存句法的父节点和子节点词汇都是提取出的概念时,则提取概念对之间的谓语动词作为对象属性关系。

22、作为优选的技术方案,抽取与财务报告附注文本中词汇有句法依存关系的动词,具体包括:

23、查找概念词典中的词汇,判断概念依存句法关系是否为预先设定的句法依存关系,当存在其中一个关系,则提取出关系所对应的属性词。

24、作为优选的技术方案,建立xbrl分类标准的财务信息元素与财务报告概念本体的对齐方式,具体包括:

25、将财务信息元素作为xbrl链接库中的标签名称,财务报告领域本体以owl语言存储,财务信息元素作为财务报告领域本体的实例存在,财务信息元素通过切词与领域本体中的每个概念之间的关系为实例关系。

26、作为优选的技术方案,计算财务信息元素所对应的概念词之间的相似度,具体包括:

27、概念相似性表示为一个三元组c={r,dep,den},其中r包括概念之间的路径距离相似性、关系相似性和属性相似性,dep表示概念距离相似性、den表示概念密度相似性,具体计算公式表示为:

28、

29、

30、

31、

32、

33、α+β+μ+v+η=1

34、其中,rpsim表示概念之间的路径距离相似度,rrsim表示概念之间的关系相似度,rasim表示概念之间的属性相似度,depsim表示概念之间的距离相似,densim表示概念之间的密度相似度,表示概念之间的相似度,表示两个术语i和j所对应的概念s和概念t,θ为大于0的可调节参数,α、β、μ、v、η表示各个相似度所对应的权重值。

35、作为优选的技术方案,基于模糊语义相似度计算并对齐信息元素语义相似度,具体包括:

36、构建财务信息元素和代表是两个财务信息元素的末尾位置对应的概念词,frti和frtj表示两个财务信息元素,n表示财务信息元素的概念个数;

37、财务信息元素语义对齐公式具体表示为:

38、

39、

40、其中,rp表示两个概念在领域本体间的路径距离,的上标t表示财务信息元素中除末尾位置的概念之外的其他概念,的上标0是指末尾位置的概念,n≥1表示除了末尾位置,其他位置同样存在概念,λ和∈是大于0的可调节参数。

41、本发明还提供一种基于领域本体的xbrl财务信息元素语义对齐系统,包括:候选领域概念提取模块、领域词典构建模块、语料库构建模块、停用词词表构建模块、语料库扩展模块、词汇特征向量构建模块、层次关系提取模块、非分类关系提取模块、对齐方式构建模块、语义对齐模块;

42、所述候选领域概念提取模块用于提取会计词典中具有解释的词汇作为候选领域概念;

43、所述领域词典构建模块用于将每行一个概念词进行存储,构建领域词典;

44、所述语料库构建模块用于获取财务报告附注文本作为待处理语料库;

45、所述停用词词表构建模块用于对语料库分别做切词处理、词性标注和命名实体识别,获得所有词性标注的结果,通过预设的筛选规则获取多个停用词,将多个停用词存储作为财务报告领域的停用词词表;

46、所述语料库扩展模块用于基于lda模型扩展语料库,基于扩展语料库对财务报告附注文本语义进行扩展,基于停用词表去除文本停用词,将扩展后的财务报告附注文本作为新的语料库;

47、所述词汇特征向量构建模块用于将新的语料库中的词汇转换成词汇特征向量;

48、所述层次关系提取模块用于提取层次关系,具体包括:

49、根据类间差异最小值的变化确定最终的聚类数目,以类的最大概念数量作为迭代停止的标准,当类内概念的数量小于迭代停止的标准时则停止迭代,通过迭代聚类获取领域本体的层次分类;

50、基于余弦相似度算法计算每个类内概念之间的相似度,将类内概念与其他概念之间的平均相似度最大的概念作为类标签;

51、所述非分类关系提取模块用于提取非分类关系,具体包括:

52、对领域词典和财务报告领域的停用词词表进行切词和词性标注,并进行依存句法分析,提取得到当前概念词以及与当前概念词存在相应关系的另一个概念词,提取概念对之间的动词作为对象属性关系;

53、抽取与财务报告附注文本中词汇有句法依存关系的动词;

54、所述对齐方式构建模块用于建立xbrl分类标准的财务信息元素与财务报告概念本体的对齐方式;

55、所述语义对齐模块用于进行财务信息元素语义对齐,计算财务信息元素所对应的概念词之间的相似度,基于模糊语义相似度计算并对齐信息元素语义相似度。

56、本发明还提供一种计算机设备,包括处理器和用于存储处理器可执行程序的存储器,所述处理器执行存储器存储的程序时,实现上述基于领域本体的xbrl财务信息元素语义对齐方法。

57、本发明与现有技术相比,具有如下优点和有益效果:

58、(1)本发明通过构建财务报告领域本体和利用财务报告领域本体实现财务信息元素语义对齐,首先在xbrl领域主要通过手工构建财务报告领域本体和框架的讨论,没有针对如何自动或者半自动从语料库中构建财务报告领域本体的方法探讨,而其他通用领域的领域本体构建方法缺少财务报告领域特性,本发明针对财务报告文本较短的问题,利用lda主题模型扩展语料库,半自动增强同类词汇之间的语义关系,提高词向量的特征表示效果;

59、其次在xbrl语义对齐领域,针对当前xbrl语义对齐数据处理成本高、无法实现多个文件的同时处理问题,本发明的财务报告领域本体作为中间媒介,可以实现多个公司的多个实例文档共同进行,这个过程可以通过将带有不同公司表示的财务信息元素映射到本体中的实例来进行,并进一步在模糊于语义相似度计算方法的基础上,综合财务信息元素的语义信息,增强财务信息元素的语义描述能力,从而提高财务信息元素语义对齐的准确率。

60、(2)本发明采用一组领域共享的概念描述xbrl链接库中的标签,其财务报告领域本体避免了因为财务信息元素增加而导致的分类标准向本体映射的方法需要重新匹配数据模板的问题,同时避免了基于启发式算法和本体之间映射的方法无法同时进行2个以上xbrl文件的语义对齐问题,降低数据处理成本、提高数据处理效率。

61、(3)本发明从术语所对应的概念之间的路径、关系、属性、深度和密度等角度综合财务报告信息元素的语义信息避免了因语义信息不足导致的语义对齐准确性不足问题,进一步根据财务信息元素的语义特征,设计模糊语义相似性算法,提高数据处理的效率。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1