一种基于半监督的主题模型文本分类方法

文档序号:9911222阅读:326来源:国知局
一种基于半监督的主题模型文本分类方法
【技术领域】
[0001] 本发明涉及文本分类领域,尤其涉及一种基于半监督的主题模型的文本分类方 法。
【背景技术】
[0002] 文本挖掘是从大量文本数据中获取有效模式的过程,涵盖信息技术、文本分析、模 式识别等诸多领域。文本分类属于文本挖掘领域,是指按照预先设定的主题类别,为文档集 合中的每个文档确定一个类别的过程。对于中文文本而言,词与词之间没有明显的切分标 志,因此需要对中文文本进行分词。在分词过程中,针对文本集合的属性特征需设置匹配词 的专业词表。完成分词后的文本需要进行停用词删除、建立文本特征矩阵的步骤,将文本数 据转化为计算机可计算的数值矩阵类型。近年来,众多的统计方法和机器学习方法应用于 自动文本分类,包括支持向量机、Boos t ing算法、概率模型等。
[0003] 文本分类的关键是衡量各文本与所需模式间的相似性,概率潜在语义分析是针对 文本隐含主题的建模方法。主题表现为一系列与主题概念密切相关的词,能够代表这个主 题。应用词汇表上词语的条件概率分布,与主题密切相关的词,条件概率越大。一般概率潜 在语义分析方法通过计算各词属于主题的条件概率完成文本分类功能。

【发明内容】

[0004] 本发明的目的是提供一种基于半监督的主题模型的文本分类方法,实现基于领域 本体的大规模文本数据中有效信息的自动获取。为解决上述技术问题,本发明的主要技术 内容如下:
[0005] -种基于领域本体的潜在语义扩展算法。传统的文本分类算法利用文本中的关键 词描述文本与类别间距离。而关键词存在信息量少,难以全面表征类别信息的缺点。由于 表征一篇文档是否相关的词并不全等于关键词集,因此也需要提取出关键词集中不包含的 约束。领域本体作为知识描述方法较好的体现了领域内知识的不同维度。本方法的特征在 于,首先定义描述分类文本的关键词词组,该词组来源于领域本体的不同属性类,利用关键 词词组将待分类文本中的词全部初始化为噪声。基于公式
[0006]
[0007] 式中,k的取值范围为{0,1},即代表噪声或有效信息,m为文档集内文档数目,X为 词条的编号,用于区分不同的词。P(x)表示该词属于有效信息的概率,nkt代表关键词X分配 为有效信息的次数,nkt Sum代表有效信息的总词数,nmk代表文档m中属于有效信息的词的 个数,nmkSum代表文档m的总词数,con代表关键词X对所属分类别的贡献度。参数C表示文档 m中,描述领域本体不同属性维度的词的类数。
[0008] 迭代上述公式,更新各词属于有效信息的概率。进一步,当文档m中的有效信息频 率较高时,文档m中的词属于有效信息的概率增大;当噪声词w被划分为有效信息的频率增 大时,该词整体属于有效信息的概率增大;对于关键词W,若该词与所分类别间的距离较小 时,该词属于有效信息的频率增大。参数C越大,文档中描述领域本体不同维度的数目越多, 则该文档对所分类别的描述越全面,该文档属于有效信息的概率越大。该方法基于以下假 设:文本分为相关文本和不相干文本,相关文本包括主题相关的有效信息和主题无关的噪 声,其中噪声和有效信息服从二项分布,在有效信息中,各关键词的分布服从多项式分布。 每个文本通过对有效信息和噪声的抽样生成。为获得文档集中的噪声和有效信息的分布模 型和有效信息中词的分布模型,通过Gibbs Sampling方法采样并计算上述分布的最优解, 即为所需的噪声与有效信息的分布。
[0009] 通过迭代计算上述二项分布和多项式分布的参数,获取到稳定收敛的噪声词集 合和有效信息集合。
[0010] -种基于有效信息集合的文本距离计算方法。其特征在于,应用上述基于领域本 体的潜在语义扩展算法,获取到描述类别信息的关键词词组,应用如下公式计算各文本属 于待分类项的概率。
[0011]
[0012]式中,F(m)表示文章 m属于有效信息的得分,nmk代表文档m中属于有效信息的词的 个数,nmkSum代表文档m的总词数,con代表关键词X对所属分类别的贡献度。参数C表示文档 m中,描述领域本体不同属性维度的词的类数。
[0013]本发明的优点:
[0014] 1、基于领域本体的潜在语义扩展算法利用领域本体,自动获取描述信息和分类规 贝1J,利用领域本体维度信息描述文档的相关性,从少量的关键词中扩展出丰富的类别信息, 扩展了对类别的描述,有助于分类规则的自动抽取。
[0015] 2、基于有效信息词组的文本距离计算方法较好的量化了文本属于有效信息的概 率,多方面考虑了文本类别参数,具有较高的准确性。
【附图说明】
[0016] 图1为基于概率潜在语义分析的关键词扩展方法中获取扩展词条随迭代次数的更 新曲线。
[0017] 图2为基于有效信息词组的文本距离计算方法的文档得分排序曲线。
【具体实施方式】
[0018] 本实施例描述了应用本发明在文档集中获取食品安全领域相关文档的过程。基于 食品安全领域本体的属性特征,设置关键词为"牛奶、三聚氰胺",即初始参数c = 2。首先对 文本集进行预处理,包括分词、去标点、去停用词,并将全部词初始化为噪声。由于表征一篇 文档是否相关的词并不全等于关键词集,因此也需要提取出关键词集中不包含的约束。基 于公#
[0019
[0020] 式中,k的取值范围为{0,1},即代表噪声或有效信息,m为文档集内文档数目,x为 词条的编号,用于区分不同的词。P(x)表示该词属于有效信息的概率,nkt代表关键词X分配 为有效信息的次数,nkt Sum代表有效信息的总词数,nmk代表文档m中属于有效信息的词的 个数,nmkSum代表文档m的总词数,con代表关键词X对所属分类别的贡献度。参数C表示文档 m中,描述领域本体不同属性维度的词的类数。
[0021] 迭代上述公式,更新各词属于有效信息的概率。进一步,当文档m中的有效信息频 率较高时,文档m中的词属于有效信息的概率增大;当噪声词w被划分为有效信息的频率增 大时,该词整体属于有效信息的概率增大;对于关键词w,若该词与所分类别间的距离较小 时,该词属于有效信息的频率增大。参数C越大,文档中描述领域本体不同维度的数目越多, 则该文档对所分类别的描述越全面,该文档属于有效信息的概率越大。该方法基于以下假 设:文本分为相关文本和不相干文本,相关文本包括主题相关的有效信息和主题无关的噪 声,其中噪声和有效信息服从二项分布,在有效信息中,各关键词的分布服从多项式分布。 每个文本通过对有效信息和噪声的抽样生成。为获得文档集中的噪声和有效信息的分布模 型和有效信息中词的分布模型,通过Gibbs Sampling方法采样并计算上述分布的最优解, 即为所需的噪声与有效信息的分布。
[0022] 图1为基于概率潜在语义分析的关键词扩展方法中获取扩展词条随迭代次数的更 新曲线。可以看出经过多次迭代,有效信息集合中词的数目稳定在900个左右,显示了该方 法的收敛性。
[0023] 通过对关键词的自动扩展,获取到描述地点的"石家庄、甘肃、兰州、河北"等信息, 描述事件危害的"肾结石、泌尿、衰竭、死亡、积水、梗阻"等信息,描述涉事产品的"三鹿、奶 糖、雅士利、大白兔、奶制品"等信息。获得的有效信息词组更加全面,对待分类别的描述更 加全面细致。经迭代后描述食品安全领域本体的维度数目C增至5。
[0024] 基于有效信息词组的文本距离计算方法,应用上述概率潜在语义分析的关键词扩 展算法,获取到描述类别信息的关键词词组,应用如下公式计算各文本属于待分类项的概 率。
[0025]
[0026] 式中,F(m)表示文章 m属于有效信息的得分,nmk代表文档m中属于有效信息的词的 个数,nmkSum代表文档m的总词数,con代表关键词X对所属分类别的贡献度。参数C表示文档 m中,描述领域本体不同属性维度的词的类数。
[0027] 遍历文档集获取每篇文档的得分,图2为基于有效信息词组的文本距离计算方法 的文档得分排序曲线。如图,各文档根据相关性的差异其得分间存在较明显的差异。最终通 过设置的得分阈值获取到与待分类别相关的文档集。
【主权项】
1. 一种基于领域本体的潜在语义扩展算法,其特征在于:首先定义描述分类文本的关 键词词组,该词组来源于领域本体的不同属性类,待分类文本中的词全部初始化为噪声。基 于公式(1)迭代计算各词属于有效信息的概率。式中,k的取值范围为{0,1},即代表噪声或有效信息,m为文档集内文档数目,X为词条 的编号,用于区分不同的词。P(x)表示该词属于有效信息的概率,nkt代表关键词X分配为有 效信息的次数,nkt Sum代表有效信息的总词数,nmk代表文档m中属于有效信息的词的个数, nmkSum代表文档m的总词数,con代表关键词X对所属分类别的贡献度。参数C表示文档m中, 描述领域本体不同属性维度的词的类数。2. 根据权利要求1所述基于领域本体的潜在语义扩展算法,其特征在于基于如下假设: 文本分为相关文本和不相干文本,相关文本包括主题相关的有效信息和主题无关的噪声, 其中噪声和有效信息服从二项分布,在有效信息中,各关键词的分布服从多项式分布。每个 相关文本通过对有效信息和噪声的抽样生成。通过采样并计算上述分布的最优解,即为所 需的噪声与有效信息的分布。3. -种基于有效信息集合的文本距离计算方法。其特征在于,应用上述基于领域本体 的潜在语义扩展算法,获取到描述类别信息的有效信息集合,应用公式(2)计算各文本属于 待分类项的概率。式中,F(m)表示文章m属于有效信息的得分,nmk代表文档m中属于有效信息的词的个 数,nmkSum代表文档m的总词数,con代表关键词X对所属分类别的贡献度。参数C表示文档m 中,描述领域本体不同属性维度的词的类数。
【专利摘要】本发明涉及一种半监督的主题模型的文本分类方法。本发明的方法为:根据领域本体对关键词的描述,定义关键词对领域本体的贡献度,提出基于噪声和有效信息的词的二分类方法。对于每篇文档初始化其为噪声,然后迭代计算各词属于有效信息的概率,防止有效信息被噪声淹没。迭代结束后获取到描述文本分类的有效信息集合。应用有效信息集合可计算文本属于有效文本的得分,即可完成文本分类的功能。应用该方法可对领域本体相关的文本集合进行有效的类别划分,较为准确的提取出符合约束条件的文本集合。
【IPC分类】G06F17/30
【公开号】CN105677856
【申请号】CN201610008920
【发明人】杨璐, 王炳蔚, 郑丽敏, 黄斌
【申请人】中国农业大学
【公开日】2016年6月15日
【申请日】2016年1月7日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1