一种案件主体抽取方法与流程

文档序号:35121237发布日期:2023-08-14 14:18阅读:70来源:国知局
一种案件主体抽取方法与流程

本发明涉及计算机人工智能领域,更具体地,涉及一种案件主体抽取方法。


背景技术:

1、在城市治理领域,使用人工智能技术自动发现热点事件,能够帮助监管部门及时处理相关事务,降低事件对社会的负面影响。如在市民投诉热线中,当较多市民投诉同一个事件时,相关政务部门如果能够及时处理好此事件,就能够防微杜渐,防止事态扩大化。在实际业务中,如何确定事件主体是案件分析中非常重要的一环。


技术实现思路

1、本发明针对现有技术中存在的技术问题,提供一种案件主体抽取方法,包括:

2、基于训练样本集对关键片段抽取模型进行训练,获取训练后的关键片段抽取模型,其中,所述训练样本集中包括多条样本数据,每一条所述样本数据包括实体文本和关键片段;

3、分别基于paddlenlp的命名实体识别模型和基于paddlenlp的信息抽取模型提取案件语料库中每一条案件文本中的第一候选案件主体和第二候选案件主体,将所述第一候选案件主体和第二候选案件主体合并构成候选案件主体集合;

4、基于训练后的关键片段抽取模型获取所述候选案件主体集合中每一条候选案件主体中的关键片段,将每一条候选案件主体和关键片段对应得到实体关键片段元组语料集;

5、对所述实体关键片段元组语料集中的所有关键片段进行分箱处理,获得多个关键片段箱;

6、基于有向图归并算法对每一个关键片段箱内的所有关键片段进行聚类,得到多个实体类别的关键片段;

7、基于每一个实体类别中的每一个关键片段对应的候选案件主体,确定每一个识别类别的最终案件主体。

8、本发明提供的一种案件主体抽取方法,分别基于paddlenlp的命名实体识别模型和基于paddlenlp的信息抽取模型提取案件语料库中每一条案件文本中的候选案件主体,采用了两种不同的模型分别自动提取案件文本中的案件主体,提高了提取案件主体的自动化效率以及准确性;基于训练后的关键片段抽取模型获取每一个候选案件主体的关键片段;对所有关键片段进行分箱处理,获得多个关键片段箱;基于有向图归并算法对每一个关键片段箱内的所有关键片段进行聚类,得到多个实体类别的关键片段,提高了聚类效率。本发明方法能够自动从案件文本中提取出案件主体,并将指向同一个真实案件主体的不同描述归类统一,本方法能够减少案件信息抽取的人工支出,提高案件信息抽取的智能化、自动化程度。



技术特征:

1.一种案件主体抽取方法,其特征在于,包括:

2.根据权利要求1所述的案件主体抽取方法,其特征在于,所述分别基于paddlenlp的命名实体识别模型和基于paddlenlp的信息抽取模型提取案件语料库中每一条案件文本中的第一候选案件主体和第二候选案件主体,包括:

3.根据权利要求1所述的案件主体抽取方法,其特征在于,所述将每一条候选案件主体和关键片段对应得到实体关键片段元组语料集,包括:

4.根据权利要求3所述的案件主体抽取方法,其特征在于,所述对所述实体关键片段元组语料集中的所有关键片段进行分箱处理,获得多个关键片段箱,包括:

5.根据权利要求4所述的案件主体抽取方法,其特征在于,每一个所述字节中的两个字的先后顺序与在关键片段中的先后顺序一致,且当关键片段少于两个字时,丢弃关键片段。

6.根据权利要求4所述的案件主体抽取方法,其特征在于,所述基于生成的字节生成二阶索引表,包括:

7.根据权利要求6所述的案件主体抽取方法,其特征在于,所述基于有向图归并算法对每一个关键片段箱内的所有关键片段进行聚类,得到多个实体类别的关键片段,包括:

8.根据权利要求7所述的案件主体抽取方法,其特征在于,所述基于二阶索引表中的每一个关键片段箱生成有向图信息,包括:

9.根据权利要求8所述的案件主体抽取方法,其特征在于,所述基于生成的有向图信息,对每一个关键片段箱中的所有关键片段按照不同实体类别进行聚类,得到多个实体类别的关键片段,包括:

10.根据权利要求1或3或8所述的案件主体抽取方法,其特征在于,所述基于每一个实体类别中的每一个关键片段对应的候选案件主体,确定每一个实体类别的最终案件主体,包括:


技术总结
本发明提供一种案件主体抽取方法,包括:分别基于PaddleNLP的命名实体识别模型和信息抽取模型提取案件语料库中每一条案件文本中的候选案件主体,基于训练后的关键片段抽取模型获取每一个候选案件主体的关键片段;对所有关键片段进行分箱处理,获得多个关键片段箱;基于有向图归并算法对每一个关键片段箱内的所有关键片段进行聚类,得到多个实体类别的关键片段;基于每一个实体类别中的每一个关键片段对应的候选案件主体,确定每一个识别类别的最终案件主体。本发明方法能够自动从案件文本中提取出案件主体,并将指向同一个真实案件主体的不同描述归类统一,本方法能够减少案件信息抽取的人工支出,提高案件信息抽取的智能化、自动化程度。

技术研发人员:段春先,杨伊态,许继伟,赵舞玲,付卓,王敬佩,李颖,黄亚林,张兆文,陈胜鹏
受保护的技术使用者:吉奥时空信息技术股份有限公司
技术研发日:
技术公布日:2024/1/14
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1