数据语义处理方法
【专利摘要】本发明提供一种数据语义处理方法,能够自动获取语义分类信息,形成动态分析处理模式,实现基于语义信息的面向自由文本转换格式命令的语句自动分类处理。该方法包括:将获取的文本分割为语句,并对分割得到的语句进行编号;根据分割得到的语建立LDA模型;应用Gibbs算法求解获得LDA模型中语句的主题分布和主题的词汇分布;计算语句的主题隶属度值;根据语句的主题隶属度值确定语句所属的类别,并将类别结果按照对应的语句序号输出。
【专利说明】数据语义处理方法
【技术领域】
[0001]本发明涉及语句处理领域,尤其涉及一种数据语义处理方法。
【背景技术】
[0002]军事模拟训练具有多方面的特殊优势,是军事现代化的重要标志之一,各国军方已经重点研究和发展。随着军事模拟训练技术的发展,各种装备的智能化水平不断提升。语义的表达、分析和处理作为军事模拟训练智能化处理的基础也越来越受到重视。如何对于军事模拟训练涉及的语义进行提取、表达、分析和处理则是各种军事模拟训练智能化的基础。鉴于人在各种军事模拟训练中的重要作用,这里特别需要侧重人机交互的语义分析理解处理。特别是在模拟训练中的虚拟部分需要对文本语义内容作出智能化的反映,从而提升军事模拟训练的效能。
[0003]在传统的实兵训练中,参加训练的人员根据训练命令进行组织和实施。通过各级指挥员和参训人员对于命令的理解,利用各种高效的传输模式进行通讯交流指挥实施。而在军事模拟训练中需要利用计算形成模拟虚兵,为了使虚兵在军事模拟训练中能够智能化模拟实兵对于各种训练任务的理解,并作出适当的反应,完成人机虚实交互,需要将相应的作战文书转换成对应的命令结构格式,进行通讯交流。这里需要将自然语言文本文字内容中包含的作战指挥关键信息进行抽取和重组。实现这一抽取和重组最准确的方法是组织人类专家进行手工转换,完成这一信息处理过程。
[0004]显然这种模式无法适应虚实结合的训练演习需要,因此如何自动获取语义分类信息,形成动态分析处理模式,实现基于语义信息的面向自由文本转换格式命令的语句自动分类处理,是当前需要解决的技术问题。
【发明内容】
[0005](一)要解决的技术问题
[0006]本发明提供一种数据语义处理方法,能够自动获取语义分类信息,形成动态分析处理模式,实现基于语义信息的面向自由文本转换格式命令的语句自动分类处理。
[0007](二)技术方案
[0008]一种数据语义处理方法,包括:
[0009]将获取的文本分割为语句,并对分割得到的语句进行编号;
[0010]根据分割得到的语建立LDA模型;
[0011]应用Gibbs算法求解获得LDA模型中语句的主题分布和主题的词汇分布;
[0012]计算语句的主题隶属度值;
[0013]根据语句的主题隶属度值确定语句所属的类别,并将类别结果按照对应的语句序号输出。
[0014]可选的,所述根据分割得到的语建立LDA模型之前还包括:输入潜在狄利克雷分配LDA模型的数据;具体地:[0015]对语句进行词语切分,应用军语词典和通用词典对分词进行处理,如果遇到军语词典和通用词典的切分歧义,军语词典优先;两类词典中都包括非汉语词汇;
[0016]对于切分结果过滤掉固定停用词,固定停用词为汉语单字词;
[0017]对于完成上述切分处理和过滤处理的整个文本集合进行词语频度和词语出现语句的文档频次统计;
[0018]过滤掉文本集合中的动态停用词,将文档频次低于预设次数的词语设定为动态停用词。
[0019]可选的,所述计算语句的主题隶属度值之前还包括:LDA模型参数设置;具体地:
[0020]对超参数α和β的各个分量统一取值,采用对称的Dirichlet参数,并根据主题数目取α = 5/Κ,所有的β取固定的经验值β = 0.01 ;
[0021]确定混乱度,混乱度的计算方法是计算文档集中所包含的各句群的似然值,似然值的几何均值的倒数作为混乱度;
[0022]LDA处理模型混乱度随着句群似然值的增加而单调递减;具体计算公式如下:
[0023]
【权利要求】
1.一种数据语义处理方法,其特征在于,包括: 将获取的文本分割为语句,并对分割得到的语句进行编号; 根据分割得到的语建立LDA模型; 应用Gibbs算法求解获得LDA模型中语句的主题分布和主题的词汇分布; 计算语句的主题隶属度值; 根据语句的主题隶属度值确定语句所属的类别,并将类别结果按照对应的语句序号输出。
2.根据权利要求1所述的方法,其特征在于,所述根据分割得到的语建立LDA模型之前还包括:输入潜在狄利克雷分配LDA模型的数据;具体地: 对语句进行词语切分,应用军语词典和通用词典对分词进行处理,如果遇到军语词典和通用词典的切分歧义,军语词典优先;两类词典中都包括非汉语词汇; 对于切分结果过滤掉固定停用词,固定停用词为汉语单字词; 对于完成上述切分处理和过滤处理的整个文本集合进行词语频度和词语出现语句的文档频次统计; 过滤掉文本集合中的动态停用词,将文档频次低于预设次数的词语设定为动态停用
ο
3.根据权利要求1所述的方法,其特征在于,所述计算语句的主题隶属度值之前还包括:LDA模型参数设置;具体地: 对超参数α和β的各个分量统一取值,采用对称的Dirichlet参数,并根据主题数目取α = 5/Κ,所有的β取固定的经验值β = 0.01 ; 确定混乱度,混乱度的计算方法是计算文档集中所包含的各句群的似然值,似然值的几何均值的倒数作为混乱度; LDA处理模型混乱度随着句群似然值的增加而单调递减;具体计算公式如下:
4.根据权利要求1所述的方法,其特征在于,所述将获取的文本分割为语句包括: 获取预存的文本; 去掉文本内容中的非连续语句后,进行文本分割,并控制切分得到的语句的字数。
5.根据权利要求1所述的方法,其特征在于,所述根据分割得到的语建立LDA模型包括: 在LDA模型中,将语句集合表示为由M个语句构成,记作D = W1,…,dM},其中语句dm是长度为(N)的词语序列,可以写成W= (W1,…,w(N)),其中Wn表示序列中的第η个词语。
6.根据权利要求1所述的方法,其特征在于,所述应用Gibbs算法求解获得LDA模型中语句的主题分布和主题的词汇分布包括: 在任一语句m中,对于给定的词语wn,利用Gibbs抽样取得词语在主题z上的后验概率P(WnIz)估计值;在其他词语上的主题分配(z_n)确定的情况下,估计该当前词语Wn分配主题j的概率P (Zn=j);边缘化Φ k和Θ 间接求得φ k和θ Π的值。
7.根据权利要求6所述的方法,其特征在于,还包括: 利用Gibbs抽样方法估计LDA模型中的参数,为词语特征在[Ρ..Κ]主题中随机分配一个主题,构成初始的Markov链,对于文本中的所有词语特征根据上面的公式分配主题,获取Markov链的下一个状态,经过多次迭代,Markov链就可以达到稳定状态; 抽样算法估计每个词语与主题z的Φ和Θ的值,公式如下:
8.根据权利要求1所述的方法,其特征在于,所述计算语句的主题隶属度值包括: 利用Gibbs抽样算法进行参数估计,得到语句在主题上的分布以及主题在词汇上的分布I# ?用这两个分布,可以形成计算语句类别属性的计算方法; 对于任一类别集c中任一语句s的隶属度表示为P(Slc),根据贝叶斯公式,P(SlC)示为:
【文档编号】G06F17/27GK103914445SQ201410079684
【公开日】2014年7月9日 申请日期:2014年3月5日 优先权日:2014年3月5日
【发明者】李颖, 张全, 孙岩, 袁毅, 王青海, 何国良, 吴迪, 韦向峰 申请人:中国人民解放军装甲兵工程学院