基于法律知识图谱的推理式精准智能问答方法与流程

文档序号:18985997发布日期:2019-10-29 04:25阅读:518来源:国知局
基于法律知识图谱的推理式精准智能问答方法与流程

本发明涉及基于法律知识图谱的推理式精准智能问答的方法,属于知识图谱和自然语言处理等技术与法律融合的技术领域。



背景技术:

中国是一个拥有14亿人口的超级大国,但目前国内从事律师工作的只有30万人左右,法律服务供给资源严重不对称。同时,主要的法律服务资源主要集中在大、中城市,一些偏远地区法律服务资源覆盖相当有限。这就造成了律师服务收费高昂、法律服务效率低、老百姓了解法律知识途径匮乏等社会现象,所以,急需一种法律问题的自动问答系统来解决当前法律服务资源匮乏的问题。

目前存在的自动法律问答系统是基于全文检索技术或者深度学习语义匹配技术来实现,往往不能真正理解用户真实的法律诉求,解决不了用户法律方面的问题,实用性差。

要想真正理解用户真实法律诉求,需要基于法律知识图谱来对问题的真实意图进行推理。但一方面,目前虽然有些领域已经在构建知识图谱,但都是通过人工方式,构建工作量太大、速度慢、适用性差;另一方面,尚不存在针对自动问答的法律知识图谱。



技术实现要素:

基于法律知识图谱的推理式精准智能问答方法,涉及到两大核心问题:法律问题的自动问答和法律知识图谱的构建。其一方面通过法律知识图谱与自然语言处理相结合,能非常好的通过与用户的交互和知识图谱推理来理解用户真实法律诉求;另一方面提供了自动化构建知识图谱的方法,大幅提升法律知识图谱的构建速度和降低知识图谱的人工成本。

针对当前法律自动问答产品采用的技术方案不能准确理解用户真实法律诉求,难以解决用户法律方面问题的缺陷,基于法律知识图谱的推理式精准智能问答方法采用知识图谱、自然语言处理和深度学习等领域的技术,对用户的提问进行推理、并采用多轮问答方式引导用户逐步完善自己的法律需求信息,最终准确理解用户的法律诉求,并给出准确的答案,实际解决用户的法律问题。

为了实现上述目的,本发明采用的技术方案包括:知识图谱模块、智能问答模块、多轮会话管理模块、用户画像模块和问题推荐模块。其中:

知识图谱模块:以法律领域数据作为输入,用于对输入的所述法律领域数据先进预处理,再对其法律知识进行抽取,通过对抽取的法律知识进行知识关联与知识校验,进而得到知识图谱;

智能问答模块:以用户提出的法律相关问题描述作为输入,通过基于所述知识图谱的推理和基于多轮问答的引导式提问,得到用户的法律问题,并最终给出答案;

多伦会话管理模块:用来协调用户与机器的对话过程,包括用户与机器之间的多轮交互沟通;

用户画像模块:通过收集用户日常提问情况,根据用户日常提问以及提问时的情绪情况,建立用户画像,了解用户在法律方面的需求;

问题推荐模块:在所述用户画像模块的基础上对用户的法律需求进行推送。

所述知识图谱模块的构建是一个迭代更新的过程,每次迭代包括四个阶段,具体地:

第一阶段:数据预处理,对于法律文本中的大量数据,所需要的是所述数据中重要的一部分,而对于所述数据中大量的停用词需要对其预处理进行删去;

第二阶段:信息抽取,从各种法律文本的数据源中提取出实体、属性以及实体间的相互关系,在此基础上形成本体化的知识表达;

第三阶段:知识关联:在获得新知识之后,需要对其进行整合,以消除矛盾和歧义;

第四阶段:知识校验,对于经过关联得到的新知识,需先经过质量评估,再将合格的部分加入到知识库中。

所述知识关联包括实体链接和知识合并,所述实体链接是指对于从法律数据源中抽取得到的实体对象,将抽取得到的所述实体对象链接到知识库中对应正确的所述实体对象。

所述知识合并用于对结构化数据的处理,包括合并外部知识库和合并关系数据库。

所述智能问答模块包括智能过滤模块、问题预处理模块、语句重构模块、智能搜索与推理模块和深度学习排序模块,

智能过滤模块,用于检测用户输入的问题是否存在敏感信息;

问题预处理模块,结合所述多伦会话管理模块中上下文信息,进行口语解析和语法纠错等预处理操作,使语句更加规范;

语句重构模块,先对用户输入的语句进行拆分,保留语句中重要实体与关系,去除无意义的虚词、停用词,通过与所述知识图谱建立映射关系,对重要语句和关系进行重组,实现机器可理解的语句;

智能搜索与推理模块,基于sparql到图数据库中进行所述知识图谱搜索;

深度学习排序模块,通过机器学习方法学习一个分值函数对待排序的候选进行打分,再根据分值的高低确定序关系。

所述语句重构模块包括复杂语句的拆分、问句中实体和关系到所述知识图谱实体和关系的映射转换。

所述多轮会话管理模块包括状态追踪模块和对话策略模块,所述状态追踪模块是在对话的每一轮次对用户的目标进行预估,管理每个回合的输入和对话历史,输出当前对话状态;所述对话策略模块是根据所述对话状态而采取优化动作,辅助用户完成信息或服务的获取任务。

针对当前法律自动问答产品采用的技术方案不能准确理解用户真实法律诉求,难以解决用户法律方面问题的缺陷,基于法律知识图谱的推理式精准智能问答方法采用知识图谱、自然语言处理和深度学习等领域的技术,对用户的提问进行推理、并采用多轮问答方式引导用户逐步完善自己的法律需求信息,最终准确理解用户的法律诉求,并给出准确的答案,实际解决用户的法律问题。

附图说明

图1是主流程示意图;

图2是基于法律知识图谱的推理式精准智能问答流程图;

图3是基于法律分类类型的知识图谱构建示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。

基于法律知识图谱的推理式精准智能问答方法,如图1-3所示:

一、知识图谱模块

知识图谱模块是以法律领域的相关数据作为输入,对其输入数据先进预处理,再对其法律知识进行抽取,通过对抽取的法律知识进行知识关联与知识校验,进而得到法律知识图谱。知识图谱是一种结构化的语义知识库,用于迅速描述物理世界中的概念及其相互关系,通过将数据粒度从document级别降到data级别,聚合大量知识,从而实现知识的快速响应和推理。构建法律知识图谱需要一个迭代更新的过程,每次迭代包含四个阶段:

数据预处理:对于法律文本中的大量数据,所需要的仅仅是其中重要的一部分,而对于其大量的停用词需要对其预处理进行删去;

信息抽取:从各种法律文本的数据源中提取出实体、属性以及实体间的相互关系,在此基础上形成本体化的知识表达;

知识关联:在获得新知识之后,需要对其进行整合,以消除矛盾和歧义,如某些实体可能有多种表达,某个特定称谓也许对应于多个不同的实体等;

知识校验:对于经过关联得到的新知识,需要经过质量评估之后,才能将合格的部分加入到知识库中,以确保知识库的质量。

数据预处理是知识图谱构建的第1步,是对法律数据源的初步处理,能够大大提高抽取信息的准确度。

信息抽取是知识图谱构建的第2步,其中的关键问题是:如何从异构数据源中自动抽取信息得到候选指示单元。信息抽取是一种自动化地从半结构化和无结构的法律数据源中抽取实体、关系以及实体属性等结构化信息的技术。涉及的关键技术包括:实体抽取、关系抽取和属性抽取。其中实体抽取指从文本数据集中自动识别出命名实体;在文本语料经过实体抽取之后,得到的一系列离散的命名实体,关系抽取就是从相关语料中提取出实体之间的关联关系,通过关系将实体联系起来,形成网状的知识结构;属性抽取是从法律数据源中采集特定实体的属性信息。

知识关联是知识图谱构建的第3步,对于已经获取到的实体、关系以及实体的属性信息,需要将其关联形成一些有用的信息。如何解决这一问题,就是在知识关联这一步需要做的。其中知识关联包括2部分内容:实体链接与知识合并。

实体链接是指对于从法律数据源中抽取得到的实体对象,将其链接到知识库中对应的正确实体对象的操作。其基本思想是首先根据给定的实体指称项,从知识库中选出一组候选实体对象,然后通过相似度计算将指称项链接到正确的实体对象。

知识合并就是对结构化数据(如外部知识库和关系数据库)的处理。一般来说知识合并主要分为两种:合并外部知识库,合并关系数据库。

知识校验是知识图谱构建的第4步,它也是知识库构建技术的重要组成部分,这一部分存在的意义在于:可以对知识的可信度进行量化,通过舍弃置信度较低的知识来保障知识库的质量。

至此,知识图谱构建按完成,后续使用的法律知识图谱得以形成。

智能问答模块

智能问答模块以用户提出的法律相关问题描述作为输入,通过基于知识图谱的推理和基于多轮问答的引导式提问,得到用户的精准法律问题,并最终给出精准的答案。

智能问答模块又细分为智能过滤模块、问题预处理模块、语句重构模块、智能搜索与推理模块、深度学习排序模块。

智能问答的流程见附图2。

一)智能过滤模块

智能过滤主要是检测用户输入的问题是否存在比如涉黄、涉赌、涉毒、涉政、涉黑等敏感信息,它涉及自然语言处理、文本深层语义理解、信息过滤和模式识别等多个技术领域。

智能过滤模块的过滤模型如下:

1、领域知识库和语义模式

领域知识库:包含用户词典和主题词表,其中用户词典为领域相关的名词,用于文本分词,与主题词表中的词有重叠。主题词表包含了进行主题性信息过滤需要的关键词,这些关键词与过滤的知识领域相关,具有一定的褒贬倾向性,在语句中主要作主语或宾语,表示施事者或受事者对象。

主题词表的构建方法是,从训练语料中选取权值最大的若干个特征词,权值可以通过文档频率tf和倒排文档频率idf来计算,计算式为tf*idf。

语义模式:对句子进行倾向性分析时所需的语义模式。一个句子是一个语义单位,而句子的结构分为主谓宾结构、主谓结构、动宾结构、独立结构四种形式,因此本文设定了这四种语义模式。

2、文本信息过滤

文本信息过滤主要包括如下四个步骤:

1)文本预处理

包括识别并处理敏感词、中文分词和去停用词三个处理步骤。不良信息和垃圾信息制造者规避、欺骗监控的一个手段就是在文本中添加干扰符号,影响过滤系统对敏感词的直接识别,需要在文本预处理阶段对敏感词的特征进行专门的识别和处理。

2)主题信息过滤

将与过滤主题无关的文本内容过滤掉,只留下与主题相关的文本进行倾向性分析与过滤。通常采用关键词过滤方法,或基于特征向量的文档相似度的方法,将相关主题的文本过滤出来。

3)语义分析

通过依存句法分析,提取待过滤文本中每个情感句的语义模式,并判断每个句子的情感倾向性。

4)倾向性过滤输出

将不良信息的倾向性结果输出,提供智能问答模块后续的过滤和提示处理。

二)问题预处理模块

问题预处理模块结合多轮会话上下文信息,进行口语解析(如指代消解、省略恢复)和语法纠错等预处理操作,使得语句更加规范。

口语解析用于完成用户口语化语句信息向标准书面化命令的转化,主要包括省略恢复和指代消解两步流程。前者通过对上下文信息的语法·、语义分析,结合依存语法树和标准书面化命令模板,完成可能的语法空位与语义空位填充。后者借助词性分析,从多轮会话上下文信息中抽取对应实体,消除当前命令中的指示代词。

问题预处理模块采用n-gram模型结合句法分析的方法进行句子语法析和纠错。

p(w1…wn)=πp(wi/wi-1…w1)≈πp(wi/wi-1…wi-n+1)

n-gram模型

一般来讲,语言模型都会构建成一个句子的字符串s的概率分布,字符串s作为一个句子出现的概率,用p(s)表示。

假设一个句子s由n个单词构成,s的字符串形式表示为:

字符串s概率的计算公式表示为:

s=w1w2w3…wn-1wn

公式中,第i个词出现wi的概率由wi词之前的i-1个词w1w2w3…wi-1决定,将前i-1个词w1w2w3…wi-1称为第i个单词的前文。随着前文长度的增长,一个单词可能拥有的不同前文的数量将会按指数级增长。

假设一个词汇的集合大小为l,即其中有l个词。当前文长度为i-1时,i处的词会出现种不同的前文。此时为了给出句子中的第i个词的概率,就必须要考虑到这里所有的li-1种不同的前文的情况,统计模型中的参数的个数会达到li个。

在这里,利用等价类的来解决这一问题。在计算时将所有的前文按照某一个规则映射到等价类e(w1w2w3…wi-1)等价类的数目会远远小于不同前文的数目。

令p(wi|w1w2w3…wi-1)=p(wi|e(w1w2w3…wi-1))自由参数的数量会极大地减小。在此处定义划分等价类的方法为:当且仅当两个前文wi-n+2…wi-1wi和wk-n+2…wk-1wk的最近的n-1个词相同时,将两个不同的前文映射到同一个等价类,即e(w1w2w3…wi-n+2…wi-1wi)=e(v1v2v3…vk-n+2…vk-1vk)当且仅当w1w2w3…wi-n+2…wi-1wi=v1v2v3…vk-n+2…vk-1vk。

满足上述条件的语言模型称为n元语法或n元文法(n-gram)。通常情况下,n的取之不能太大,否则等价类太多,自由参数过多的问题依然存在。在这里n,n取值为3,即为三元文法模型,也称为二阶马尔科夫链,记做trigram。

采用n-gram时,会出现零概率的问题,需采用平滑技术来解决。这里采用线性插值平滑技术,其基本思想是将高阶模型和低阶模型作线性组合,利用低阶n-gram模型对高阶n-gram模型进行线性插值。在没有足够的数据对高阶n-gram模型进行概率估计时,低阶n-gram模型通常可以提供有用的信息来估计高阶模型概率。线性插值平滑技术公式如下:

λi可以通过期望最大化算法(expectaionmaximizationalgorithm,em)来估计,具体步骤如下:

(1)确定两种数据:trainingdata和held-outdata;

(2)根据trainingdata构造初始的语言模型,并确定初始λi(如均为1);

(3)基于em算法迭代地优化λi使得held-outdata概率最大化,其概率公式如下:

通过n-gram模型可以构建语言模型,利用构建的语言模型对待纠错语句进行扫描,可以有效发现不符合语言模型的问题,并给出正确的表达方式,达到纠错的目的。

基于依存的句法分析,其任务是通过识别句子每个单词的句法中心,推导出输入句子的句法结构。句子输入可以用x=w0w1…wn表示。其中wi表示输入的句子中第i个词。依存句法分析时需要利用每个词的词性信息构成丰富的特征,句子对应的词性序列x=t0t1…tn通常也要作为依存句法分析的输入。输出一般是一棵标记完整的句法依存树。

依存关系:句法结构在本质上包含词和词对之间的关系。一个依存关系连接两个词,分别称为核心词和修饰词。依存关系表不两个词之间的句法关系,可以细分为许多不同的类型。

三)语句重构模块

语句重构模块包括复杂语句的拆分、问句中实体和关系到知识图谱实体和关系的映射转换等。用户输入的句子通常并不是完整的句子,可能存在一定的遗漏或是赘余,还存在语句过于复杂的情况发生。用户在输入语句后,语句重构模块先对其语句进行拆分,保留语句中重要实体与关系,去除无意义的虚词、停用词,通过与知识图谱建立映射关系,对重要语句和关系进行重组,从而实现机器可理解的语句。

四)智能搜索与推理模块

于上述得到机器可理解的语句后,智能搜索与推理模块首先基于sparql到图数据库中进行知识图谱搜索。sparql(即protocolandrdfquerylanguage)的递归缩写,用于访问和操作rdf数据,是语义网的核心技术之一。sparql查询是基于图匹配的思想,把机器理解后的用户查询内容与rdf图(即:知识图谱)进行匹配,找到符合该匹配模式的所有子图,最后得到变量的值,也就是得到匹配的知识图谱节点信息。简而言之,sparql查询分为三个步骤:

(1)构建查询图模式,表现形式就是带有变量的rdf。

(2)匹配,匹配到符合指定图模式的子图。

(3)绑定,将结果绑定到查询图模式对应的变量上。

假如匹配的节点不含子节点,此模块就会获取节点下的问题列表作为图搜索的候选问题列表,若匹配节点含有子节点,则抽取子节点信息作为提问信息,并返回给用户供用户选择,进行多轮问答从而更丰富的提问信息。五)深度学习排序模块

排序学习(learningtorank,ltr)是信息检索和搜索引擎研究的核心问题之一,通过机器学习方法学习一个分值函数对待排序的候选进行打分,再根据分值的高低确定序关系。深度神经网络可以用来建模分值函数,构成各类基于深度学习的ltr模型。排序学习的主要目的是对给定一组文档,对任意查询请求给出反映相关性的文档排序。

深度学习排序模块采用lambdarank模型对候选答案进行排序,此模型是bugers等人从ranknet发展而来,使用构造lambda函数的方法优化度量标准ndcg(normalizeddiscountedcumulativegain),每个用户问句后的候选答案文档列表都单独作为一个训练样本。ndcg是信息论中很衡量文档列表排序质量的标准之一,前k个文档的ndcg得分记做:

在ranknet中推导出,文档排序需要的是排序错误的梯度信息。ndcg度量函数是非光滑,非连续的,不能直接求得梯度信息,因此将|delta(ndcg)|=|ndcg(new)-ndcg(old)|引入,构造lambda函数为:

替换ranknet中的梯度表示,得到lambdarank排序模型。

候选答案列表和重构的用户问句输入到训练好的lambdarank排序模型中,得到候选答案与用户提问问题相似度排序,若存在候选答案的相似度高于指定相同问题阈值,则将相似度最高的候选问题输出为完全匹配问题,否则按相似度从高到低的顺序输出候选问题列表

三、多轮会话管理模块

多轮会话管理模块是以法律知识图谱的三元组作为输入。它主要包括两部分:状态追踪模块和对话策略模块,状态追踪模块是在对话的每一轮次对用户的目标进行预估,管理每个回合的输入和对话历史,输出当前对话状态。对话策略模块的主要功能是根据前面的对话状态决策采取的最优动作,从而最有效的辅助用户完成信息或服务获取的任务。该模块基于用户输入的语义表达和当前对话状态输出下一步的系统行为和更新的对话状态。对于其中对话管理的任务大致有下面一些:

对话状态维护:与用户在t+1时刻的对话状态st+1,依赖于之前时刻t的状态st,和之前时刻t的系统行为at,以及当前时刻t+1对应的用户行为ot+1。可以写成st+1←st+at+ot+1。

生成系统决策:根据对话状态维护中的对话状态,产生系统行为,决定下一步做什么可以表示观测到的用户输入,以及系统的反馈行为。

作为接口与任务模型进行交互:接收到用户的问题后同知识图谱进行交互,同时对不具体,不精确的部分产生疑问,使用户继续补充,完善问题。

系统可以从多轮会话管理模块中获取多轮会话上下文信息,包括涉及到的法律知识图谱上下文信息、问题实体和关系上下文信息、问题语义上下文信息、用户情感上下文信息等。根据这些信息可以准确地搜素出用户问题的答案,同时存储用户情感上下文信息,为用户画像模块提供语料支持。

四、用户画像模块

用户画像模块是通过用户在向系统提出问题时,对用户的情感进行分析来找出用户的相关特征,从而对用户进行问题推荐。用户的情感分析是根据picard提出的基本概念,情感计算可形式化地采用一个三元组来表示,即

sc=<s,c,w>

其中,

s表示信息载体所形成的集合,即s={s1,…,si,…,sn},这些信息载体也就是用户所提出的法律问题。由于不同信息载体所包含的信息具有不同的数据特征,特别是情感特征,而这些特征的表示方式存在着明显的差异,因此传统的情感计算往往只针对某一个特定的载体类型(即单模态)来进行内容的情感分析,如文本的情感、音频的情感分析等。但是随着人们对情感特征理解的加深,多种信息载体相互融合的多模态条件下,传统的情感计算已经不能够满足。

c表示情感类别或者是不同倾向分类所形成的集合,即c={c1,…,ck,…,cv}。该方式可以表示情感的离散特征,可以利用基本的情绪组合出一些更复杂的情感。因此,根据不同的应用目标,可以将情感的特征进行二分类或者多分类,从而形成不同的情感分类模型。这些分类模型直接反映出了人们对情感粒度与特征的基本认知。

w表示不同情感特征强度所形成的集合,即w={w1,…,wk,…,wv}.一般的强度可以分为高、中、低这3个等级,也可以进一步分为极高、高、中、低、极低这5个等级等,这些强度特征往往与情感特征相结合,构成了情感计算的核心与基础。

通过以上定义,用户情感计算可以表示为通过对用户输入的问题中法律知识特征的获取、识别和度量,实现系统对用户情感特征在不同极性维度下的计算。因此,情感计算可以表示为上述3个要素集合之间的笛卡尔积所形成的状态空间组合,即

sc=s×c×w

基于上述情感计算,系统可以提取用户情感特征,通过定性、定量分析,利用行为建模来建立用户画像,从而为系统向用户推荐问题作出准备。

五、问题推荐模块

问题推荐模块是在深度学习排序和用户画像的条件下对用户做出相关问题推荐,如果在深度学习模型排序中有完全匹配问题输出,则将匹配的问题输出后,根据完全匹配问题去法律知识图谱中搜索对应的知识图谱节点,将节点下的其他问题作为推荐问题列表进行输出,从而供用户参考。此外,在用户向系统进行多次提问后,系统根据用户所提出的问题建立用户画像,利用用户画像向用户推送相关法律知识。

下面结合附图和具体实施例对本发明作进一步的说明。

图2是主流程。设计了基于法律知识图谱的推理式精准智能问答流程:

s1.用户输入想要咨询的法律问题描述信息。

s2.问题智能过滤:系统对用户输入的问题进行智能过滤处理,判断问题内是否存在涉黄、涉赌、涉赌、涉政、涉黑等敏感信息,如果存在敏感信息,则过滤掉问题,并且提示用户问题中存在敏感信息,请重新提问。

s3.多轮会话上下文获取:系统接下来从多轮会话管理模块中获取多轮会话上下文信息,包括涉及到的法律知识图谱上下文信息、问题实体和关系上下文信息、问题语义上下文信息、用户情感上下文信息等。

s4.用户情感分析:基于主谓模式的情感计算模型和用户情感上下文信息,计算用户的问题的情感值,并补充到用户情感上下文信息中,用作用户后续问答的处理以及用户画像的处理。

s5.问题预处理:对用户输入的问题进行预处理,包括根据多轮会话上下文信息进行指代消解、省略补全,以及基于lstm+crf进行语法的自动纠错等。

s6.问题语句重构:将预处理后的用户问题进行语句重构,包括复杂语句的拆分、问句中实体和关系到知识图谱实体和关系的映射转换等,重构后的语句更适合后续问答的处理。

s7.实体及实体关系提取:重构后的语句再利用自然语言处理技术进行实体和关系的提取,为后续语义的全文搜索和知识图谱搜索做准备。

s8.知识图谱搜索:将实体和关系作为搜索条件,基于sparql到图数据库中进行知识图谱搜索,得到匹配的知识图谱节点信息;如果匹配的节点不含子节点,则获取节点下的问题列表作为图搜索的候选问题列表,不过匹配节点含有子节点,则抽取子节点信息作为提问信息,并返回给用户供用户选择,进行多轮问答的以得到更丰富的提问信息。

s9.语义全文搜索:将提取的实体和关系转化为搜索关键词,利用elasticsearch服务进行语义级别的全文检索,得到基于语义全文检索的候选答案集,以及每个答案的检索匹配得分。

s10.深度学习模型排序:将候选答案列表和重构的用户问句输入到训练好的深度学习排序模型中,得到候选答案与用户提问问题相似度排序,如果存在候选答案的相似度高于指定相同问题阈值,则将相似度最高的候选问题输出为完全匹配问题,否则按相似度从高到低的顺序输出候选问题列表;

s11.答案生成:如果在深度学习模型排序中有完全匹配问题输出,则将完全匹配问题对应的答案进行输出,否则将候选问题列表进行输出。

s12.推荐列表生成:如果在深度学习模型排序中有完全匹配问题输出,则根据完全匹配问题去法律知识图谱中搜索对应的知识图谱节点,将节点下的其他问题作为推荐问题列表进行输出。

如图3所示,法律知识图谱的构建分为两部分:基于法律分类类型知识图谱的构建,以及在此基础上的面向问题的法律知识图谱的构建。

基于法律分类类型的知识图谱构建:

sa1.法律分类类型加工:基于先验知识加工基础的法律分类类型以及类型间的关系,得到最基本的分类知识库。

sa2.法律分类特征抽取和加工:对法律分类类型的关键特征进行抽取,并人工进行审核和加工,保证分类特征的准确性。

sa3.法律分类实体识别和扩展:将分类的特征信息转换成实体,并且进行扩展,比如同义词扩展,相似词扩展,口语化扩展,缩略语扩展等等,使其具有更好的适用性。

sa4.基于法律分类类型的知识图谱加工:在之前步骤的基础上,人工对已初步形成的知识图谱进行进一步的审核和加工完善,最终形成基于法律分类类型的知识图谱。

面向问题的法律知识图谱构建:

sa5.入库问题预处理:对待入库的问题进行预处理,比如语法纠错,去干扰信息等。

sa6.问题实体识别与转换:将问题中的实体进行识别,并根据语义转换成知识图谱一致的实体。

sa7.实体关系抽取与转换:从问句中抽取实体之间的关系,并将关系转换成知识图谱包含的关系类型。

sa8.知识图谱搜索与匹配:依据实体和关系,从知识图谱中进行基于路径的图搜索,并匹配到满足路径关系的图节点,即分类类型。

sa9.入库问题与知识图谱融合:人工对入库问题的分类进行快速审核校对,并将问题融合到知识图谱中,逐步形成面向问题的法律知识图谱。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1