一种审讯信息提取方法、系统、设备及存储介质

文档序号:40420951发布日期:2024-12-24 14:54阅读:4来源:国知局
一种审讯信息提取方法、系统、设备及存储介质

本发明涉及知识图谱的构建以及计算机人工智能,具体涉及一种审讯信息提取方法、系统、设备及存储介质。


背景技术:

1、在办理刑事案件过程中,需分析审讯笔录,通过专人审阅审讯笔录,以从中获取人物信息以及其关系网,并制作表格以存储这些关键信息。在这个过程中将会消耗部分人力资源,此外,这种通过人工进行分析审讯笔录的方式往往难以完全且准确的分析和表达审讯笔录中的人物信息以及其关系网络。这将会对之后的案情分析、制定二次审讯策略、开展相关侦查取证等活动造成一定的阻碍。在现有技术中缺少对审讯记录中的人物信息与其关系网络进行分析的工具。

2、目前,已公开专利cn110991165a提出了一种文本中人物关系提取方法,但其方法仅对存在两个及两个以上人物实体的句子进行提取,剩余句子则丢弃;而讯问笔录中大部分为问答句式,句子中将以人称代词代替某个实体名,该方法将会导致此类句子中的关键信息遗失。专利cn111428041a公开了一种案件摘要生成方法,包括针对案件的审问记录,抽取实体和实体属性信息,确定实体属性信息和实体之间的关系;该方法无法对两个姓名实体进行关系判断,仅能判断实体属性与实体之间的所属关系,且该方法并未根据抽取结果构建利于后续分析判断的知识图谱。

3、综上所述,现有审讯信息提取方法中仅对存在两个及两个以上人物实体的句子进行提取,导致关键信息的遗失,并且无法对两个实体进行关系判断,仅能判断实体属性与实体之间的所属关系。


技术实现思路

1、针对现有技术存在仅能判断实体属性与实体之间的所属关系,无法对两个实体进行关系判断的不足,本发明提出一种审讯信息提取方法、系统、设备及存储介质,通过提取审讯记录中的人物信息以及关系网络并整合成知识图谱,从而解决现有技术存在无法对两个实体进行关系判断的问题。

2、一种审讯信息提取方法,包括以下步骤:

3、获取审讯记录数据,并提取出文本信息;

4、通过正则表达式匹配文本信息中的关键字,并提取出文本信息中匹配成功的关键字之后的相应内容;

5、依据提取的关键字及其相应内容,使用标准字符匹配法对文本信息中被讯问人的代称进行指代消解;使用t5预训练模型对文本信息中其他人称代词进行指代消解;

6、采用bilstm-crf模型识别指代消解后文本信息中所有人物的代称,对所有人物代称实行两两配对;

7、基于bert预训练模型对每对实体进行人物关系提取;

8、通过以人物以及提取的人物关系为节点关系,及人物的基本信息为节点属性搭建知识图谱;

9、根据知识图谱提取待被讯问人的信息及其关系网络。

10、进一步地,所述获取审讯记录数据,并提取出文本信息,具体包括以下步骤:

11、对审讯记录的数据格式进行自动判断和预处理;

12、若检测到数据为图片格式,则采用超轻量pp-ocrv3模型进行文字识别,提取图片中的文字;

13、若检测到数据为pdf或word文件,则自动从文件中提取审讯记录文字。

14、进一步地,所述使用t5预训练模型对文本信息中其他人称代词进行指代消解,其具体包括以下步骤:

15、建立基于t5预训练模型的指代消解和句式简化模型;其中指代消解和句式简化模型包括训练数据生成模块、文本数据表示模块和指代消解和句式简化模块;

16、通过训练数据生成模块采用摘要生成的形式来定义训练所述指代消解和句式简化模型;

17、通过文本数据表示模块修改bert预训练模型的tokenizer模仿t5预训练模型的tokenizer加入分词功能,将原始文本数据输入该tokenizer中,得到文本数据的词嵌入表示;

18、采用指代消解和句式简化模块以生成式的方式对输入文本进行指代消解和句式简化,将审讯记录中单轮对话转为结构化的陈述句。

19、进一步地,所述采用bilstm-crf模型识别指代消解后文本信息中所有人物的代称,对所有人物代称实行两两配对,其包括以下步骤:

20、基于预训练bert,将原始文本数据输入预训练bert中,得到文本数据的词嵌入表示;

21、对输入的词嵌入使用bilstm预测其所属给定的标注标签的概率,输出emissionscore;其中,使用bio格式进行标注标签,b表示某个实体词的开始,i表示某个实体词的中间,o表示非实体词;

22、对给定的emission score,使用条件随机场预测符合标注转移约束条件的、最大概率的预测标注序列;其中输出为bio标签序列,扫描整个连续的bio标签序列,每个b和其之后的最后一个i之间的词为一个目标实体。

23、进一步地,所述基于bert预训练模型对每对实体进行人物关系提取,通过以bert预训练模型为基础,结合双向gru和attention层进行识别,输出实体之间的关系。

24、进一步地,还包括在基于bert预训练模型对每对实体进行人物关系提取之后通过uie模型对审讯记录进一步抽取其他涉及人员的基本身份信息。

25、进一步地,还包括以人物关联的案件类别作为分类信息以及以人物关联的各个城市作为区域概念,对所述知识图谱进行完善。

26、进一步地,一种审讯信息提取系统,包括:

27、获取模块,用于获取审讯记录数据,并提取出文本信息;

28、关键字匹配模块,用于通过正则表达式匹配文本信息中的关键字,并提取出文本信息中匹配成功的关键字之后的相应内容;

29、指代消解模块,用于依据提取的关键字及其相应内容,使用标准字符匹配法对文本信息中被讯问人的代称进行指代消解;使用t5预训练模型对文本信息中其他人称代词进行指代消解;

30、识别模块,用于采用bilstm-crf模型识别指代消解后文本信息中所有人物的代称,对所有人物代称实行两两配对;

31、人物关系提取模块,用于基于bert预训练模型对每对实体进行人物关系提取;

32、知识图谱构建模块,用于通过以人物以及提取的人物关系为节点关系,及人物的基本信息为节点属性搭建知识图谱;

33、提取模块,用于根据知识图谱提取待被讯问人的信息及其关系网络。

34、进一步地,一种审讯信息提取计算机设备,包括:存储器、处理器以及存储在所述存储器内的计算机程序,所述处理器执行所述计算机程序时实现所述的审讯信息提取方法的步骤。

35、进一步地,一种可读存储介质,所述可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时,用于执行所述的用于审讯信息提取方法的步骤。

36、本发明提供了一种审讯信息提取方法、系统、设备及存储介质,具备以下

37、有益效果:

38、本发明通过对审讯记录中被讯问人的代称以及其他人称代词进行指代消解后,采用bilstm-crf模型识别所有人物的代称,对所有人物代称实行两两配对,基于bert预训练模型对每对实体进行人物关系提取,以审讯信息中抽取出的人物关系来构建节点之间的拓扑结构,并以人物的基本信息作为节点属性构建网络,构建人物关系知识图谱,使得审讯信息更易于理解和分析,而且通过人物关系知识图谱对各涉案人员之间关系进行判断处理,有助于在最短时间内把握案情要点以及有助于案情的推理。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1