本发明涉及自然语言处理领域,具体涉及一种可配置语法关系的检索方法、系统、电子设备及存储介质。
背景技术:
1、语法关系如词性、句法结构能够描述句子内部单个词、词与词之间的复杂关系。随着大规模句子语法关系标注数据集的出现,语法关系分析(如词性标注,句法分析)的性能得到了大幅提升,目前已经广泛应用在许多不同领域中,例如信息检索领域。一方面是因为语法关系分析作为自然语言处理技术的基础组件之一,发展已经相对成熟,有许多开箱即用的开源软件。另一方面,语法关系分析和模型训练相比,在时间和经济成本上的成本都相对小得多。在检索系统中,传统字符串匹配的方法存在无法匹配语义的缺陷。而语法关系分析刚好可以借助对句子内部关系的描述,来理解同一个语义的多种表达。
2、目前已经有许多研究试图利用语法关系解决这些问题。如申请公布号为cn106716408a的中国发明专利公开了一种语义文本搜索方法,对待检索文本的进行句法分析和词性标注,根据不同的句法结构,构建不同的语义类别的检索树。这样一来,检索词只会匹配中相关的语义类别,从而排除噪声;申请公布号为cn113407739a的中国发明专利公开了一种信息标题中概念的确定方法、装置和存储介质,其中对待检索文本的进行依存句法分析,抽取出标题的概念主干(例如名词性短语:“起泡胶做法”),从而简化和聚焦语义,去除无关的信息,优化检索效果;申请公布号为cn105786963a的中国发明专利公开了一种语料库的检索方法及系统,提供了一种新型的检索表达式,可以完成正则和句法结构的混合检索。特别地,检索表达式可以灵活描述模糊检索:只指定语法关系,不需要给出具体词语。通过对待检索文本的进行句法分析和词性标注,最终可以匹配符合检索表达式的结果。
3、以上方案都通过嵌入语法关系,进行轻量级的改动,就达到了提升检索效果的目的。但语法关系的处理都是针对待检索文本进行的,对于检索词本身而言,也只支持模糊检索部分,不支持配置检索词本身的语法关系。这样的问题是无法完成更为灵活的检索需求,另外一方面是无法应对复杂句子的检索。
技术实现思路
1、针对所述缺陷,本发明实施例公开了一种可配置语法关系的检索方法、系统、电子设备及存储介质,其通过配置检索词本身的语法关系进行检索,并使用图算法进行实施,减少计算复杂度;具有更高的简便性和灵活性,不需要枚举模糊匹配部分的语法关系,适合语法关系更为复杂的句子。
2、本发明实施例第一方面公开了一种可配置语法关系的检索方法,包括:
3、获取待检索目标,所述待检索目标包括检索文本,将所述检索文本以句子为单位分割;分割而成的单个句子形成检索词条,分割而成的所有句子形成检索词条列表;
4、基于所述检索词条列表与数据库进行正则匹配,输出符合正则匹配规则的全量词条,形成全量词条列表;
5、识别所述待检索目标中是否存在语法关系配置表,若有则提取所述语法关系配置表,若无则构建语法关系配置表;
6、基于所述语法关系配置表与所述全量词条列表进行语法关系匹配,输出符合语法关系匹配规则的词条,获得最终匹配列表。
7、作为一种可选的实施方式,在本发明实施例第一方面中,所述检索词条包括若干分词;所述语法关系配置表包括各分词之间的语法关系,所述语法关系包括所述分词之间的依存关系,与所述分词本身的词性。
8、作为一种可选的实施方式,在本发明实施例第一方面中,所述语法关系储存格式为:termsrc|possrc,termdst|posdst,dep;
9、其中,termsrc为支配词,possrc为所述支配词的词性,termdst为从属词,posdst为所述从属词的词性,dep为支配词与从属词之间的依存关系;
10、所述支配词为具体词汇、模糊词汇或未知词;当所述支配词为模糊词汇时,termsrc=*;当所述支配词为未知词时,termsrc=[n],(n=0、1、2、……、n);
11、所述从属词为具体词汇、模糊词汇或未知词;当所述从属词为模糊词汇时,termdst=*;当所述支配词为未知词时,termdst=[n],(n=0、1、2、……、n);
12、所述词性为具体词性或模糊词性;当所述词性为模糊词性时,possrc=*;
13、所述依存关系为具体依存关系或模糊依存关系,当所述依存关系为模糊依存关系时,dep=*。
14、作为一种可选的实施方式,在本发明实施例第一方面中,所述识别所述待检索目标中是否存在语法关系配置表,若有则提取所述语法关系配置表,若无则构建语法关系配置表步骤中,构建语法关系配置表的方法包括,
15、对所述全量词条列表进行随机取样得到样本词条列表;
16、基于所述样本词条列表与语法关系分析方法,获得样本语法关系列表;
17、基于所述样本语法关系列表构建语法关系选项,统计形成语法关系选项列表;
18、读取语法关系需求选项信息,基于所述语法关系需求选项信息与语法关系选项列表生成语法关系配置表。
19、作为一种可选的实施方式,在本发明实施例第一方面中,所述基于所述语法关系配置表与所述全量词条列表进行语法关系匹配,输出符合语法关系匹配规则的词条,获得最终匹配列表步骤包括,
20、基于所述全量词条列表与语法关系分析方法,获得全量语法关系列表;
21、提取所述全量语法关系列表中与所述语法关系配置表中依存关系信息一致的词条,得到匹配词条列表;
22、提取所述匹配词条列表中与所述语法关系配置表中词性信息一致的词条,得到最终匹配列表。
23、作为一种可选的实施方式,在本发明实施例第一方面中,所述语法关系分析方法包括,
24、对所述样本词条列表或所述全量词条列表中的各词条进行分词得到各词条的分词信息,形成第一嵌套列表;
25、基于第一嵌套列表与依存句法训练模型对各词条进行依存句法分析,得到各词条的各分词之间的依存关系信息,形成第二嵌套列表;
26、对所述第一嵌套列表的各词条的分词进行词性标注,得到各词条的各分词的词性信息,形成第三嵌套列表;
27、基于所述第一嵌套列表、第二嵌套列表与第三嵌套列表构建样本语法关系列表或全量语法关系列表。
28、作为一种可选的实施方式,在本发明实施例第一方面中,所述基于所述第一嵌套列表、第二嵌套列表与第三嵌套列表构建样本语法关系列表或全量语法关系列表步骤包括,
29、基于所述第一嵌套列表、第二嵌套列表与第三嵌套列表创建双向加权图,
30、所述双向加权图的起点为termsrc|possrc,其中termsrc为所述依存关系信息中的支配词,possrc为支配词的词性;
31、所述双向加权图的终点为termdst|posdst,其中termdst为所述依存关系信息中的从属词,posdst为从属词的词性;
32、所述双向加权图的边为dep,其中为所述依存关系信息中的支配词与从属词之间的依存关系;
33、将所述双向加权图各节点信息转换为图数据结构,基于所述图数据结构构建样本语法关系列表或全量语法关系列表。
34、本发明实施例第二方面公开一种可配置语法关系的检索系统,包括:
35、输入模块,所述输入模块用于输入或读取待检索目标;
36、文本分割模块,所述文本分割模块用于识别所述待检索目标中的检索文本,并对所述检索文本进行分割,形成检索词条列表;
37、第一匹配模块,所述第一匹配模块用于将所述检索词列表与数据库进行正则匹配,形成全量词条列表;
38、语法配置识别模块,所述语法配置识别模块用于识别所述待检索目标中是否存在语法关系配置表;
39、语法配置构建模块,所述语法配置模块用于构建语法配置表;
40、第二匹配模块,所述第二匹配模块用于根据所述语法关系配置表与所述全量词条列表进行语法关系匹配,形成最终匹配列表;
41、展示模块,用于输出最终匹配列表并进行排序展示。
42、本发明实施例第三方面公开一种电子设备,包括:存储有可执行程序代码的存储器;与所述存储器耦合的处理器;所述处理器调用所述存储器中存储的所述可执行程序代码,用于执行本发明实施例第一方面公开的可配置语法关系的检索方法。
43、本发明实施例第四方面公开一种计算机可读存储介质,其存储计算机程序,其中,所述计算机程序使得计算机执行本发明实施例第一方面公开的可配置语法关系的检索方法。
44、与现有技术相比,本发明实施例具有以下有益效果:
45、本发明实施例的可配置语法关系的检索方法通过配置检索词本身的语法关系进行匹配查找,具有更高的简便性和灵活性,不需要枚举模糊匹配部分的语法关系,并且适合语法关系更为复杂的句子,通过引入了图算法的处理方式,使整个检索匹配的计算效率大大提升。这种检索方法在许多应用上都非常实用,其中的数据库可根据实际应用场景作为大数据库、语料库、目标文件库等进行实施。比如在舆情信息关键词统计上,利用本实施例的检索方法,可以通过一个更易维护的配置模板检索关键词,提高舆情监控效果。又比如在语言学、文学研究中,使用已有语料库或者文献中的例句支持自己的观点是非常重要的。通过本实施例的检索方法,可以更容易且精准地检索到语料库中特定语法关系的例句,加快科研进度。