电网领域问题智能检索方法、装置及终端设备与流程

文档序号:34379731发布日期:2023-06-08 01:09阅读:78来源:国知局
电网领域问题智能检索方法、装置及终端设备

本申请属于电网智能检索,尤其涉及电网领域问题智能检索方法、装置及终端设备。


背景技术:

1、电力相关的智能客服系统基于命名实体识别(named entity recognition),简称ner,现有的中文ner方法主要是单独的基于字符的ner方法或是单独的基于词的ner方法。

2、对于单独的基于字符的ner方法来说,通过直接对每个字符进行向量化的操作避免了分词边界划分错误的发生,但是将文本切分为字符级的序列将会舍弃大部分词中包含的信息。

3、对于单独的基于词的ner方法来说,尽管目前中文分词工具的性能很强大,但是不可避免的仍会出现一些分词边界划分错误的问题,这会导致后续的训练以及预测也会出现一系列的问题。

4、目前也有一些将基于词的ner方法与基于字符的ner方法结合的尝试,但在面对电网领域相关的文本时不能做到很好的匹配,造成某些字符的相关词汇信息的缺失,影响ner的表现。


技术实现思路

1、本申请实施例提供了一种电网领域问题智能检索方法、装置及终端设备,以解决ner方法在电网领域相关问题中表现效果不好的问题。

2、本申请是通过如下技术方案实现的:

3、第一方面,本申请实施例提供了一种电网领域问题智能检索方法,包括:

4、获取电网知识数据库和用户提出的电网领域问题;

5、对用户提出的电网领域问题进行分词和分字操作,得到多个字符、多个词和多个词组,多个词组由多个词中的任一词和与该任一词相邻的词组成;

6、基于多个字符、多个词、多个词组和电网领域高频词词典,得到第一主题实体,电网领域高频词词典基于多个电网领域问题和多个问题解决方案构建;

7、基于电网知识数据库对第一主题实体进行匹配,得到用户提出的电网领域问题的解决方案。

8、结合第一方面,在一些可能的实现方式中,构建电网领域高频词词典的过程包括:基于电网知识数据库得到多个电网领域问题和多个问题解决方案;滤除多个电网领域问题和多个问题解决方案中的无效的电网领域问题和无效的问题解决方案,得到第一问题集合和第一解决方案集合;将第一问题集合和第一解决方案集合进行对应的组合,得到问答数据集;使用hanlp工具识别问答数据集的主题实体,得到第二主题实体;对第二主题实体使用bio标注法进行标注、校验和修改,得到第三主题实体;基于第三主题实体中出现频次最高的预设个数的主题实体建立电网领域高频词词典。

9、结合第一方面,在一些可能的实现方式中,无效的电网领域问题为电网系统中不会再出现的问题;无效的问题解决方案为无法解决对应问题的解决方案或者电网系统中不会再出现的问题的解决方案。

10、结合第一方面,在一些可能的实现方式中,基于多个字符、多个词、多个词组和电网领域高频词词典,得到第一主题实体,具体包括:基于bmes标注法和多个字符,得到多个词集向量,其中,多个词集向量包括b词集向量、m词集向量、e词集向量和s词集向量;基于多个词和多个词组,得到前向词组向量和后向词组向量;基于多个词集向量、前向词组向量和后向词组向量,得到字符向量;基于电网领域高频词词典和softlexicon技术,建立联合特征模型;将字符向量输入联合特征模型,得到第一主题实体。

11、结合第一方面,在一些可能的实现方式中,联合特征模型,包括:输入层、编码层、解码层和输出层;输入层,用于获取输入联合特征模型的字符向量;编码层,用于使用bi-lstm模型对输入的字符向量进行处理,得到第一处理信息;解码层,用于基于第一处理信息,使用归一化指数函数预测其对应的标签,根据标签得到第一主题实体;输出层,用于输出第一主题实体。

12、结合第一方面,在一些可能的实现方式中,字符向量为:其中,c为任一字符,wgf(c)为字符c的前向词组向量,wgb(c)为字符c的后向词组向量,字符的词组向量公式为:l为电网领域高频词词典,eω(wi)为词组中词的向量;其中,z(ω)为词ω在第三主题实体中出现的次数,eω(ω)为词集中词的向量。

13、结合第一方面,在一些可能的实现方式中,基于电网知识数据库对第一主题实体进行匹配,得到用户提出的电网领域问题的解决方案,具体包括:当第一主题实体与电网知识数据库中的实体精确匹配时,直接得到用户提出的电网领域问题的解决方案;当第一主题实体无法与电网知识数据库中的实体精确匹配时,对第一主题实体进行模糊匹配,得到相似实体集合,基于相似实体集合和电网知识数据库中的实体,得到用户提出的电网领域问题的解决方案。

14、第二方面,本申请实施例提供了一种电网领域问题智能检索装置,包括:

15、获取模块,用于获取电网知识数据库和用户提出的电网领域问题;

16、处理模块,用于对用户提出的电网领域问题进行分词和分字操作,得到多个字符、多个词和多个词组,多个词组由多个词中的任一词和与该任一词相邻的词组成;

17、识别模块,用于基于多个字符、多个词、多个词组和电网领域高频词词典,得到第一主题实体,电网领域高频词词典基于多个电网领域问题和多个问题解决方案构建;

18、结果模块,用于基于电网知识数据库对第一主题实体进行匹配,得到用户提出的电网领域问题的解决方案。

19、第三方面,本申请实施例提供了一种终端设备,包括:处理器和存储器,该存储器用于存储计算机程序,所述处理器执行所述计算机程序时实现如第一方面任一项所述的电网领域问题智能检索方法。

20、第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面任一项所述的电网领域问题智能检索方法。

21、第五方面,本申请实施例提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行上述第一方面中任一项所述的电网领域问题智能检索方法。

22、可以理解的是,上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述,在此不再赘述。

23、本申请实施例与现有技术相比存在的有益效果是:

24、本申请对用户提出的电网领域问题进行分词分子操作,得到多个字符、多个词和多个词组,基于多个字符、多个词和多个词组得到用户提出的电网领域问题的第一主题实体,第一主题实体与电网知识数据库进行匹配,得到用户提出问题的解决方案,其中,多个字符在得到第一主题实体中起到的作用是避免分词边界划分错误丢失信息的情况出现,多个词在得到第一主题实体中起到的作用是避免分成字符之后丢失原本词的本身的信息,多个词组在得到第一主题实体中起到的作用是将多个词之间的相互的信息体现出来,因此本申请的方案结合了字符信息,词信息和词组信息,使得得到的匹配结果更加准确,用户能够准确的得到解决方案。

25、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本说明书。



技术特征:

1.一种电网领域问题智能检索方法,其特征在于,包括:

2.如权利要求1所述的电网领域问题智能检索方法,其特征在于,构建所述电网领域高频词词典的过程包括:

3.如权利要求2所述的电网领域问题智能检索方法,其特征在于,所述无效的电网领域问题为电网系统中不会再出现的问题;所述无效的问题解决方案为无法解决对应问题的解决方案或者电网系统中不会再出现的问题的解决方案。

4.如权利要求2所述的电网领域问题智能检索方法,其特征在于,基于所述多个字符、多个词、多个词组和电网领域高频词词典,得到所述第一主题实体,具体包括:

5.如权利要求4所述的电网领域问题智能检索方法,其特征在于,所述联合特征模型,包括:输入层、编码层、解码层和输出层;

6.如权利要求4所述的电网领域问题智能检索方法,其特征在于,所述字符向量为:xc←[c;[vs(b);vs(m);vs(e);vs(s)];[wgf(c),wgb(c)]],其中,c为任一字符,wgf(c)为字符c的前向词组向量,wgb(c)为字符c的后向词组向量,字符的词组向量公式为:l为所述电网领域高频词词典,eω(wi)为词组中词的向量;其中,z(ω)为词ω在第三主题实体中出现的次数,eω(ω)为词集中词的向量。

7.如权利要求1所述的电网领域问题智能检索方法,其特征在于,所述基于所述电网知识数据库对所述第一主题实体进行匹配,得到用户提出的电网领域问题的解决方案,具体包括:

8.一种电网领域问题智能检索装置,其特征在于,包括:

9.一种终端设备,其特征在于,包括:处理器和存储器,该存储器用于存储计算机程序,所述处理器用于调用并运行所述存储器中存储的计算机程序,执行如权利要求1至7任一项所述的电网领域问题智能检索方法。

10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的电网领域问题智能检索方法。


技术总结
本申请适用于电网智能检索技术领域,提供了电网领域问题智能检索方法、装置及终端设备,该方法包括:获取电网知识数据库和用户提出的电网领域问题;对用户提出的电网领域问题进行分词和分字操作,得到多个字符、多个词和多个词组,多个词组由多个词中的任一词和与该任一词相邻的词组成;基于多个字符、多个词、多个词组和电网领域高频词词典,得到第一主题实体,电网领域高频词词典基于多个电网领域问题和多个问题解决方案构建;基于电网知识数据库对第一主题实体进行匹配,得到用户提出的电网领域问题的解决方案。本申请能够提高电网领域相关问题智能检索的准确性。

技术研发人员:赵炜,成思远,殷娣娣,赵小萌,杨会峰,石子昊,魏勇,付强,王冬宇,刁首人,刘少帅,侯卓言
受保护的技术使用者:国网河北省电力有限公司信息通信分公司
技术研发日:
技术公布日:2024/1/13
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1