一种基于人工智能的文本语言数据处理方法与流程

文档序号:34230067发布日期:2023-05-24 12:30阅读:70来源:国知局
一种基于人工智能的文本语言数据处理方法与流程

本发明涉及文本语言处理,具体而言是一种基于人工智能的文本语言数据处理方法。


背景技术:

1、众所周知,电力物资的采购是电网建设过程中一项极其重要的环节,其在很大程度上直接影响了整个电力工程的总投资量、施工的进度和质量。

2、近年来,随着政府逐渐加大电网建设的力度,对电力系统的招标工作越来越重视,具体体现在为了确保中标质量扩大了招标范围,使得电力招标的投标者日益增多,导致投标文档的数量庞大,同时鉴于电力系统本身的特殊性,使得电力系统的招标不同于其他类型物资的招标,其对投标文件的技术要求和文本规范要求较高,但现今因招标范围的扩大使得投标文档的文本质量参差不一,存在大量偏离规范文本的投标文档,在这种情况下需要对投标文档进行文本规范的前端审查,但目前电力企业对投标文档的文本规范审查主要依靠专家手动审查,海量的投标文档大大加重了专家的审查工作量,导致审查效率低下,同时还提高了人工审查成本。

3、伴随着文本语言处理技术的迅猛发展,为了弥补上述缺陷,当前通过将文本语言处理技术运用到投标审核中,实现了投标文档的机器审核,大大提高了审核效率,但机器审核由于执行单一的审核标准导致审核过程过于固化,缺乏灵活性,使得审核结果的科学性和准确率无法得到有效保障。

4、另外,目前对电力投标文档的文本审核侧重点一般在文本用语审核方面,忽略了电力投标文档的合理性审核,导致文本审核覆盖面过于狭窄,由于文本的合理性对电力投标文档的可用价值起到了决定性作用,当缺乏合理性审核时即使机器审核准确率较高,也无法保障在这种审核方式下筛选出电力投标文档的可用性,容易削弱审核结果的效用。


技术实现思路

1、针对上述问题,本发明旨在提供一种基于人工智能的文本语言数据处理方法,通过在审核投标文档过程中利用机器审核和专家审核相结合,不仅提高了审核效率,还提高了审核准确率,有效解决了背景技术提到的问题。

2、本发明的目的可以通过以下技术方案来实现:一种基于人工智能的文本语言数据处理方法,包括以下步骤:(1)投标文档上传:收集指定电力系统招标项目对应的所有投标文档,并将其上传至机器审核终端。

3、(2)投标文档机器审核:构建原始审核语料库,进而由机器审核终端借助原始审核语料库对各投标文档进行文本审核,具体实施过程如下:(21)对各投标文档进行文本用语规范审核。

4、(22)对各投标文档进行文本方案合理性审核。

5、(23)基于文本用语规范审核结果和文本方案合理性审核结果统计各投标文档对应的机器审核合规度。

6、(3)专家抽检审核:按照设定的抽取原则从所有投标文档中抽取出若干抽检投标文档,进而对各抽检投标文档由专家进行手动标注审核,统计各抽检投标文档对应的人工审核合规度。

7、(4)机器审核准确率评价:将各抽检投标文档对应的人工审核合规度与相应投标文档的机器审核合规度进行对比,由此评价机器审核准确率。

8、(5)返回审核判断:将机器审核准确率与预设的准确率阈值进行对比,若机器审核准确率大于预设的准确率阈值,则将各投标文档的机器审核合规度进行输出,反之则将除抽检投标文档之外的其他投标文档进行返回审核,具体操作流程为从各抽检投标文档对应的专家审核结果中提炼出修正审核标准,将其补充到原始审核语料库中,进而继续按照(2)-(4)进行再次机器审核、再次专家抽检、再次机器审核准确率评估。

9、(6)输出:将再次机器审核准确率与预设的准确率阈值进行对比,直至再次机器审核准确率大于预设的准确率阈值后,将投标文档的机器审核合规度进行输出。

10、根据本发明进一步的发明目的,所述原始审核语料库包括电力投标文档敏感用语库和电力设备技术标准用语库。

11、根据本发明进一步的发明目的,所述文本用语规范审核包括文本技术用语规范审核和文本表达用语规范审核,其中文本技术用语规范审核具体实施过程如下:将各投标文档的文本信息进行断句和去停用词处理,得到各投标文档的实质文本信息。

12、将各投标文档的实质文本信息按照分句进行实体标识及实体类型标注,得到各投标文档的实质文本信息中各分句对应的实体及实体类型。

13、从各投标文档对应实质文本信息标识的实体中挑选出属于电力设备实体类型对应的实体,将其作为有效实体,进而将同一投标文档中属于相同有效实体的分句进行归类,得到各投标文档中各有效实体对应的分句集合。

14、从指定电力系统招标项目对应的招标文档中提取待招标的电力设备,将其作为招标主体,进而统计招标主体的数量。

15、将各招标主体与各投标文档中存在的有效实体进行匹配,从中筛选出匹配成功的实体,将其作为关键实体。

16、从各投标文档内各关键实体对应的分句集合中各分句的文本内容进行汇整,得到各投标文档中各关键实体对应的整合文本信息。

17、从各投标文档内各关键实体对应的整合文本信息中提取各关键实体对应各技术参数的表述用语,并基于各关键实体的名称从电力设备技术标准用语库中提取各关键实体对应各技术参数的标准表述用语、

18、将各投标文档中各关键实体对应各技术参数的表述用语与电力设备技术标准用语库中该关键实体对应该技术参数的标准表述用语进行对比,若某关键实体对应某技术参数表述用语不一致,则进行用语不符标记,并将该关键实体记为目标实体,将该技术参数记为目标技术参数。

19、根据本发明进一步的发明目的,所述文本表达用语规范审核的具体实施过程如下:第一步、从电力投标文档敏感用语库中提取各投标敏感词对应的实体类型,并将其进行去重处理,得到投标文档敏感实体类型。

20、第二步、将各投标文档对应实质文本信息中标识的各分句对应的实体类型与投标文档敏感实体类型进行对比,若某分句对应的实体类型与投标文档敏感实体类型对比一致,则将该分句记为敏感分句。

21、第三步、将各投标文档对应实质文本信息中各敏感分句对应的实体与电力投标文档敏感用语库中存储的若干投标敏感词进行匹配,若某敏感分句对应的实体与某投标敏感词匹配成功,则对该敏感分句进行用语不当标记。

22、根据本发明进一步的发明目的,所述对各投标文档进行文本方案合理性审核的具体实现过程如下:基于指定电力系统招标项目从历史招标项目中匹配出参考招标项目,进而提取参考招标项目对应中标文件中各招标主体对应各技术参数的展示数据,将其作为各招标主体对应各技术参数的参考展示数据。

23、从各投标文档中各关键实体对应的整合文本信息中提取各投标文档中各关键实体对应各技术参数的展示数据,并将其与相应招标主体对应该技术参数的参考展示数据进行对比,若某关键实体对应某技术参数的展示数据不一致,则进行不合理标记,并将该关键实体记为异常实体,将该技术参数记为异常技术参数。

24、根据本发明进一步的发明目的,所述各投标文档对应的机器审核合规度统计过程参见以下步骤:(231)统计各投标文档中存在的用语不符标记数量,并提取各处用语不符标记对应的目标实体及目标技术参数,进而获取各处用语不符标记对应目标实体的构成重要度及目标技术参数的使用价值度,此时利用公式,计算出各投标文档对应的文本技术用语合规度,、分别表示为第i投标文档中第j处用语不符标记对应目标实体的权重因子、目标技术参数的使用价值度,其中i表示为投标文档的编号,,j表示为各投标文档中存在的用语不符标记编号,。

25、(232)统计各投标文档中存在的用语不当标记数量,并提取各处用语不当标记匹配到的投标敏感词,以此获取各处用语不当标记对应的权衡因子,进而利用公式,计算出各投标文档对应的文本用语合规度,其中表示为第i投标文档中第k处用语不当标记对应的权衡因子,k表示为各投标文档中存在的用语不当标记编号,,e表示为自然常数。

26、(233)统计各投标文档中存在的不合理标记数量,并将各处不合理标记对应异常实体所属异常技术参数的展示数据与参考展示数据代入公式,计算出各投标文档对应的文本方案合理度,、分别表示为第i投标文档中第f处不合理标记对应异常实体所属异常技术参数的展示数据、参考展示数据,表示为第i投标文档中第f处不合理标记对应异常实体的权重因子,其中f表示为各投标文档中存在的不合理标记编号,。

27、(234)将、和导入合规度审核模型计算得到各投标文档对应的机器审核合规度。

28、根据本发明进一步的发明目的,所述和的具体获取过程如下:基于指定电力系统招标项目确定各处用语不符标记对应目标实体的构成重要度和各处不合理标记对应异常实体的构成重要度。

29、从指定电力系统招标项目对应的招标文档中提取相应实体的招标数量。

30、利用表达式进行计算,其中、分别表示为第i投标文档中第j处用语不符标记对应目标实体、第f处不合理标记对应异常实体的构成重要度、招标数量,、分别表示为第i投标文档中第j处用语不符标记对应目标实体、第f处不合理标记对应异常实体的招标数量。

31、根据本发明进一步的发明目的,所述对各抽检投标文档由专家进行手动标注审核如下方式:由专家在对各抽检投标文档审核过程中手动进行用语不符标记、用语不当标记和不合理标记,并对标记进行注释。

32、根据本发明进一步的发明目的,所述机器审核准确率的评价表达式为,其中、分别表示为第d抽检投标文档对应的机器审核合规度、人工审核合规度,d表示为抽检投标文档的编号,,u表示为抽检投标文档的数量。

33、根据本发明进一步的发明目的,所述再次专家抽检的实现过程如下:获取上一次专家抽检对应的抽检数量及机器审核准确率,并代入公式,得到再次专家抽检对应的抽检数量,其中表示为上一次专家抽检对应的抽检数量,表示为上一次专家抽检对应的机器审核准确率,表示为预设的准确率阈值。

34、结合上述的所有技术方案,本发明所具备的优点及积极效果为:1、本发明在对电力投标文档进行合规审核过程中通过构建原始审核语料库,由此将投标文档先进行机器审核,然后进行专家辅助审核,进而依据专家辅助审核结果对机器审核进行修正引导,由此利用机器审核和专家审核两者相结合,既提高了审核效率,又保障了审核的准确度,同时还在一定程度上降低了人工审查成本,具有较大的实用优势。

35、2、本发明在对电力投标文档进行文本审核过程中增加了文本方案合理性审核,相对于只进行文本用语审核,该审核方式大大扩展了投标文档的文本审核覆盖面,使得电力投标文档文本审核更加全面且有效,能够及时发现投标文档中存在的不合理之处,有利于提升电力投标文档文本审核的效用。

36、3、本发明在依据专家辅助审核结果对机器审核进行修正引导时采取专家抽检审核——审核结果反馈——再次抽检审核的循环方式进行修正,以此通过机器审核的多次修正,实现了机器审核的强化训练,且能够直击审核错误,使得每次的修正都精准有力,有利于提高修正效果,为机器审核精准度提供多层次、深度化保障。

37、4、本发明在对投标文档进行机器审核和专家审核过程中采用标记的方式进行审核,一方面使得审核过程更加直观、明确,最大化地提高了投标文档审核合规度的统计效率,另一方面便于修正审核标准的快速、精准提炼,有利于加快返回机器审核的进程,再一方面标记的内容能够实现留存溯源,为后续进行机器审核改进提供相关参考。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1