一种电力系统操作票内容提取方法及系统与流程

文档序号:14396382阅读:284来源:国知局
本发明涉及电力系统操作票内容提取技术,特别是一种智能化的电力系统操作票内容提取方法及系统。
背景技术
:近年来随着变电站自动化技术的提高,很多智能变电站已经具备了无人值守的条件,考虑到变电站程序化控制操作大幅度提高了变电设备倒闸操作的效率,提升了变电站运行的智能化水平,变电站程序化控制的应用前景非常可观。作为在电力系统中进行电气操作的书面依据,操作票一般以自然语言描述的形式存在。变电站运行值班人员需按照操作票内容逐条执行电气操作。随着智能变电站信息化的不断发展,将已成文的操作票实现智能化执行成为进一步提高变电站智能化水平的关键,而准确识别操作票的内容、提取操作票中每条操作的动作及对象是操作票智能化执行的关键技术。当前,国内外研究人员已经提出了智能站操作票系统,实现操作票程序化操作,但是该系统的应用需要大量的人工配置工作:将全站的操作票内容和基于规则解析的操作票结果存储为相应的配置文件,通过搜索配置文件实现操作票内容的提取,这种依赖于完备规则的操作票内容提取方法并未实现真正的“智能化”,且不具备可移植性。因此,如何提供一种智能化的电力系统操作票内容提取技术是本领域技术人员目前需要解决的问题。技术实现要素:有鉴于此,本发明的目的是提供一种智能化的电力系统操作票内容提取方法,其用抽象的操作票语法语义模型替代人工配置文件,使其具备通用性和去规则化,从而实现电力系统操作票内容的智能化提取。为实现上述目的,本发明采用的技术方案如下:一种电力系统操作票内容提取方法,其包括:建立根据基于隐马尔可夫模型的由字构词的中文分词模型,根据该中文分词模型得到中文操作票指令的分词结果;建立基于隐马尔可夫模型的词性标注模型,根据该词性标注模型标注词语词性,得到词性序列;使用训练语料分别对中文分词和词性标注两个模型进行训练;按照电力系统操作票语法规则,实现电力系统操作票中动作及对象的智能化提取。本发明分析操作票文本的语法语义模型,所有的操作票语句都可以抽象为“动作+设备”的形式,也就是说每一条操作票指令都可以视为“动词+名词”的组合。据此,结合中文分词模型和词性标注模型,实现操作票内容提取。中文分词的结果是识别并提取操作票内容的基础。提高操作票文本分词的准确性,尤其是对未登录词的准确切分,是中文分词的目标。作为上述技术方案的补充,所述基于隐马尔可夫模型的由字构词的中文分词模型如下:中文分词模型将中文分词转化为字的序列标注,很好的解决了对未登录词的处理,按照字在词中位置不同,字的词位包括单独成词s、词首b、词中m和词尾e,对于一个含有n个字的中文字符串{x1,…xi,…,xn},基于隐马尔可夫模型的字的词位标注{y1,…yi,…,yn}的联合概率分布为:式中,第i个字xi的词位yi∈{s,b,m,e},π、a、b分别对应隐马尔可夫模型的初始状态、状态转移、观测状态概率矩阵参数;根据隐马尔科夫模型的参数估计方法得到匹配训练语料的中文分词模型参数;给定输入序列,根据维特比算法计算得到上式的最大值,并得到对应的词位序列,在词位为s或e的字后面断句实现分词。作为上述技术方案的补充,词位的上下文信息作为约束条件直接应用在中文分词模型中,简化中文分词模型的同时提高分词的准确率。作为上述技术方案的补充,初始字的词位只可能是s或b;前一个词位为s时该词位只能是s或b,前一个词位为b时该词位只能是m或e,前一个词位为m时该词位只能是m或e,前一个词位为e时该词位只能是s或b。作为上述技术方案的补充,所述由字构词的中文分词模型的训练语料为:将中文操作票文本经人工分词后,按照{a1/词,…,ai/词,…,an/词}和一条指令一行的格式保存。作为上述技术方案的补充,所述基于隐马尔可夫模型的词性标注模型如下:词性标注模型的输入是操作票指令的分词结果,输出是词性序列;对于一个含有n个词的中文操作票指令的分词结果{a1,…,ai,…,an},基于隐马尔可夫模型的词性标注{b1,…,bi,…,bn}的联合概率分布为:式中,第i个词ai的词性bi∈{v,n,ns,p,d,w},根据中文词性分类(参照“北大标准/中科院标准”),动词简化为v、名词简化为n,地名简化为ns,介词简化为p,副词简化为d,标点简化为w;π、a、b分别对应隐马尔可夫模型的初始状态、状态转移、观测状态概率矩阵参数;根据隐马尔科夫模型的参数估计方法得到匹配训练语料的词性标注模型参数;给定输入序列,根据维特比算法计算得到词性序列。作为上述技术方案的补充,所述词性标注模型的训练语料为:将中文操作票文本经人工分词和词性标注后,按照{a1/词b1/词性,…,ai/词bi/词性,…,an/词bn/词性}和一条指令一行的格式保存。本发明的另一目的是提供一种电力系统操作票内容提取系统,其包括:中文分词单元:建立基于隐马尔可夫模型的由字构词的中文分词模型,根据该中文分词模型得到中文操作票指令的分词结果;词性标注单元:建立基于隐马尔可夫模型的词性标注模型,根据该词性标注模型标注词语词性,得到词性序列;模型训练单元:使用训练语料分别对中文分词和词性标注两个模型进行训练;智能化提取单元:按照电力系统操作票语法规则,实现电力系统操作票中动作及对象的智能化提取。本发明能够实现智能化提取操作票内容,免去了规则化提取的系统配置文件,提高了效率,并且可直接在不同的变电站推广应用。下面结合说明书附图和具体实施方式对本发明作进一步说明。附图说明为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1为本发明实施例1的方法流程示意图。具体实施方式下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。实施例1本实施例提供一种基于隐马尔可夫模型的智能化的操作票内容提取方法,该方法完全智能化实现,方便且通用,参照图1,其包括:1)建立基于隐马尔可夫模型的由字构词的中文分词模型,根据该中文分词模型得到中文操作票指令的分词结果。对于一个含有n个字的中文字符串{x1,…xi,…,xn},基于隐马尔可夫模型的字的词位标注{y1,…yi,…,yn}的联合概率分布为:式中,第i个字xi的词位yi∈{s,b,m,e},π、a、b分别对应隐马尔可夫模型的初始状态、状态转移、观测状态概率矩阵参数。根据隐马尔科夫模型的参数估计方法得到匹配训练语料的中文分词模型参数。给定输入序列,根据维特比算法计算得到上式的最大值,并得到对应的词位序列,在词位为s或e的字后面断句实现分词。2)建立基于隐马尔可夫模型的词性标注模型,根据该词性标注模型标注词语词性,得到词性序列。对于一个含有n个词的中文操作票指令的分词结果{a1,…,ai,…,an},基于隐马尔可夫模型的词性标注{b1,…,bi,…,bn}的联合概率分布为:式中,第i个词ai的词性bi∈{v,n,ns,p,d,w},根据中文词性分类(参照“北大标准/中科院标准”),动词简化为v、名词简化为n,地名简化为ns,介词简化为p,副词简化为d,标点简化为w。π、a、b分别对应隐马尔可夫模型的初始状态、状态转移、观测状态概率矩阵参数。根据隐马尔科夫模型的参数估计方法得到匹配训练语料的词性标注模型参数;给定输入序列,根据维特比算法计算得到词性序列。3)使用训练语料分别对中文分词和词性标注两个模型进行训练。所述由字构词的中文分词模型的训练语料为:将中文操作票文本经人工分词后,按照{an1/词,…,ai/词,…,an/词}和一条指令一行的格式保存。所述词性标注模型的训练语料为:将中文操作票文本经人工分词和词性标注后,按照{a1/词b1/词性,…,ai/词bi/词性,…,an/词bn/词性}和一条指令一行的格式保存。4)按照电力系统操作票语法规则,实现电力系统操作票中动作及对象的智能化提取。实施例2本实施例提供一种基于隐马尔可夫模型的智能化的操作票内容提取系统,其包括:中文分词单元:建立基于隐马尔可夫模型的由字构词的中文分词模型,根据该中文分词模型得到中文操作票指令的分词结果;词性标注单元:建立基于隐马尔可夫模型的词性标注模型,根据该词性标注模型标注词语词性,得到词性序列;模型训练单元:使用训练语料分别对中文分词和词性标注两个模型进行训练;智能化提取单元:按照电力系统操作票语法规则,实现电力系统操作票中动作及对象的智能化提取。应用例参照图1和表1,将操作票指令输入中文分词模型,得到的分词结果输入词性标注模型,得到标注结果;根据标注结果,按照操作票语法规则提取操作票动作及对象,完成操作票内容识别。表1数据示例表本发明需要使用训练语料分别对中文分词和词性标注两个模型进行训练,具有代表性的训练语料有助于提高模型效果。利用表1第二列的数据组成的训练数据,训练基于隐马尔可夫模型的由字构词的中文分词模型。先按照空格分隔得到以词为单位的训练数据,再按照表2的规则预处理,转化为字的词位序列后进行参数估计。遍历训练语料的每一行,统计得到词首各词位的次数、相邻字的各词位转换次数、各词位对应的字的次数,归一化得到模型参数的估计值。对于维特比算法得到的词位序列,在词位为s或e的字后面断句实现分词。表2中文分词模型训练语料预处理规则表词的字数词位序列1s2ben(>2)b(n-2个m)e表1的第二、三列的数据分别作为词性标注模型的观察序列和状态序列,用于训练基于隐马尔可夫模型的词性标注模型。遍历训练语料的每一行,统计得到句首各词性的次数、相邻词的各词性转换次数、各词性对应的词的次数,归一化得到模型参数的估计值。训练好模型后,输入为操作票指令(表1第一列),得到操作票指令的分词结果(表1第二列)和词性标注结果(表1第三列)。结合操作票典型语句的语法结构,定义操作票语句提取属性为{动作,设备,初状态,终状态},提取规则如表3所示。根据操作票内容提取规则,得到提取结果(表1第四列)。表3操作票内容提取规则说明:词性序列为简化表示,n代表1个或多个连续的n(包括ns、w);下标表明出现顺序,v2指出现的第二个v。以上对本发明所提供的操作票内容提取方法及系统进行了详细介绍。本发明中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本
技术领域
的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1