一种基于内容与情感的网络敏感信息的检测方法与流程

文档序号:27230907发布日期:2021-11-03 17:48阅读:214来源:国知局
一种基于内容与情感的网络敏感信息的检测方法与流程

1.本发明涉及检测方法技术领域,具体涉及一种基于内容与情感的网络敏感信息的检测方法。


背景技术:

2.现有的敏感信息检测方法主要基于信息检索技术,依据信息检测的一般流程,将敏感信息检测研究分为查询扩展技术、文档索引技术和信息检测模型三种,其中查询扩展技术主要是通过语义扩展技术将用户给定词通过多种模式进行语义扩展,形成多个扩展词来进行检索,以此提高检测的查全率和准确率。文档索引技术是将非结构化和半结构化的文档中提取数据并且重新组织,使其能够被计算机识别。传统的文档索引技术由于其不考虑关键词之间的语义,因此检测效果不佳。近年来,基于语义的索引主要是增加了关键词语义概念的索引,可以对其近义词、同义词等相近或相关的概念进行索引,成为国内外学者的研究热点。信息检测主要是所有文件中查找与查询与用户给定词可以匹配的项,可以返回包含查询项及查询项出现位置的文档,其检测质量的好坏依赖于检测模型,常见的信息检测模型主要有布尔模型、向量空间模型和概率模型三种,但是这三种模式的信息检测模型并没有考虑到关键词之间的语义关联并且无法有效处理检测过程中的不确定性。以上三种敏感信息检测方法均没有考虑到对检测结果进行优化,并且没有考虑到情感语意带来的敏感信息。


技术实现要素:

3.鉴于此,本发明为了解决现有问题提出了一种基于内容与情感的网络敏感信息的检测方法,具体技术方案如下:
4.一种基于内容与情感的网络敏感信息的检测方法,整个过程包含以下四个步骤:
5.(1)根据已有的词典资源,创建情感词库并计算各词项的情感强度大小,以w1和w2表示两个不同的词语,其点互信息计算如公式下:
[0006][0007]
结果如果为正表示这两个词是趋于同现的,值越大表示两个词的相关性越强,如果结果为负则表示两个词基本不会同时出现;
[0008]
(2)对需要判定情感倾向的文本进行预处理,以句子为单位将其进行分割,并提取出所包含的所有情感词,并结合程度副词与否定词对词汇情感极性大小的影响确定情感词的极性值,例如“不再漂亮”这个短语中,因为“不再”这个否定词的存在,将“漂亮”所表达的褒义情感反转为了贬义情感。
[0009]
(3)对句子的语义角色模式进行匹配并确定句子的权值,结合第二步中情感词的极性值来确定文本的情感极性值,
[0010]
对每一种模式都设置一个加权值,正面对象作为受施者的模式赋予一个1~5之间
的正整数作为加权,而以负面对象作为受施者的模式赋予

1~

5之间的一个负整数作为加权值。
[0011]
(4)通过对前一步计算出的文本的情感极性值与所设定的阈值进行比较,进而确定文本的情感倾向性。
[0012]
进一步的,所述步骤一中创建程度副词库和否定词词库并为其分配影响情感强度的加权值;创建语义模式库,并为每种模式分配一个加权值。
[0013]
进一步的,所述敏感信息的检测包含了禁用词的检测、色情暴力文字信息的分类以及不当政治评论检测。
[0014]
进一步的,所述词典资源及语义模式库的构建文本所具备的情感色彩通常由形容词、副词、情绪动词、否定词以及句子的语义构成方式所决定,分别对情感词、程度副词、否定词和语义模式库建立专有数据库。
[0015]
进一步的,所述语义模式库中的条目进行细分为十种模式:(1)正面实施者+行为+正面受施者+修饰项,(2)正面实施者+行为+负面受施者+修饰项,(3)负面实施者+行为+正面受施者+修饰项,(4)负面实施者+行为+负面受施者+修饰项,(5)正面实施者+行为+修饰项,(6)负面实施者+行为+修饰项, (7)行为+正面受施者+修饰项,(8)行为+负面受施者+修饰项,(9)正面对象+修饰项,(10)负面对象+修饰项。
[0016]
采用上述技术方案,具有如下有益效果:
[0017]
采用在内容情感的分析技术的研究过程中,运用语义模式和情感词典二者互相结合的方法,在计算情感词的情感极性的大小的同时,还结合了语义模式对词、句和文本情感倾向判断带来的作用,创造了独特的十分精确的判定信息内容正负情感极性大小的方法,本发明可以由运算效率提高、降低能耗、产率提高、精度提高、工序简化、控制方便,以及有用性能的出现等方面反映出来。
附图说明
[0018]
图1为本发明的结构示意图。
具体实施方式
[0019]
下面结合附图对本发明做进一步说明。
[0020]
实施例1:一种基于内容与情感的网络敏感信息的检测方法,整个过程包含以下四个步骤:
[0021]
(1)根据已有的词典资源,创建情感词库并计算各词项的情感强度大小,以w1和w2表示两个不同的词语,其点互信息计算如公式下
[0022][0023]
结果如果为正表示这两个词是趋于同现的,值越大表示两个词的相关性越强,如果结果为负则表示两个词基本不会同时出现;
[0024]
(2)对需要判定情感倾向的文本进行预处理,以句子为单位将其进行分割,并提取出所包含的所有情感词,并结合程度副词与否定词对词汇情感极性大小的影响确定情感词的极性值,例如“不再漂亮”这个短语中,因为“不再”这个否定词的存在,将“漂亮”所表达的
褒义情感反转为了贬义情感。
[0025]
(3)对句子的语义角色模式进行匹配并确定句子的权值,结合第二步中情感词的极性值来确定文本的情感极性值,对每一种模式都设置一个加权值,正面对象作为受施者的模式赋予一个1~5之间的正整数作为加权,而以负面对象作为受施者的模式赋予

1~

5之间的一个负整数作为加权值。
[0026]
(4)通过对前一步计算出的文本的情感极性值与所设定的阈值进行比较,进而确定文本的情感倾向性。
[0027]
所述步骤一中创建程度副词库和否定词词库并为其分配影响情感强度的加权值;创建语义模式库,并为每种模式分配一个加权值。
[0028]
所述敏感信息的检测包含了禁用词的检测、色情暴力文字信息的分类以及不当政治评论检测。
[0029]
所述词典资源及语义模式库的构建文本所具备的情感色彩通常由形容词、副词、情绪动词、否定词以及句子的语义构成方式所决定,分别对情感词、程度副词、否定词和语义模式库建立专有数据库。
[0030]
所述语义模式库中的条目进行细分为十种模式:(1)正面实施者+行为+正面受施者+修饰项,(2) 正面实施者+行为+负面受施者+修饰项,(3)负面实施者+行为+正面受施者+修饰项,(4)负面实施者+ 行为+负面受施者+修饰项,(5)正面实施者+行为+修饰项,(6)负面实施者+行为+修饰项,(7)行为+ 正面受施者+修饰项,(8)行为+负面受施者+修饰项,(9)正面对象+修饰项,(10)负面对象+修饰项。
[0031]
本实施例以不当政治评论作为重点分析方向,首先我们收集这些有关政治主题的词语建立一个政治对象词库,对其进行人工标注,将其分为正面实体和负面实体两类,并且使用数字表示他们的正负程度。然后在文本中将这些包含政治对象的句子提取出来,使用情感倾向分析系统进行判定,如果对正面实体进行了贬义评价或者对负面实体进行了褒义评价,我们将会以此为依据认为它属于不当政治评论,可能属于敏感文字。
[0032]
建立一个政治对象词库,作为原向量空间模型的新增特征项。在文本向量化表示过程中,每个特征项的权重都有其计算方式,为了计算方便,我们使用了第四章中绝对词频作为方法。然而为了突出政治对象词库里的特征项的权重,我们将库中每个对象都赋予了一个范围在[

5,5]的加权值weight。
[0033]
如图1所示的一种基于内容与情感的网络敏感信息的检测方法,需要进行敏感文字内容识别的数据大多来自视频上的文字信息和互联网上新闻网页上内容以及评论。在接收到文字数据之后,首先会对原始文字数据进行预处理,比如去除多余空格和符号,整段文字切分成单句,然后使用分词技术对处理后的句子逐一切分,在使用分词技术切分以后,从中查找是否包含禁用词词库里的词项,如果包含则将所在句子提取出来,进行敏感文字处理,如果不包含禁用词词项,进行文本分类检测,判断数据是否属于色情暴力、恐怖教唆等类别,分类检测有两种处理方式,对于分类检测属于色情暴力、恐怖教唆的文字内容,将其进行敏感文字鉴定和处理,没有被分为上述类别的进行最后不良政治评论内容的检测,在检测中被识别为含有不当政治内容的句子进行敏感文字鉴定与处理。
[0034]
只有通过了这三项检测被确定为不包含敏感文字内容之后,才准许文本数据正常传输。
[0035]
在设计中,以分词和直接查找的方式进行禁用词的检查,采用向量空间模型对输入文件进行分类以识别色情暴力类别,最后以情感分析方法进行不良政治内容的识别。
[0036]
相关词典及语义模式库的构建文本所具备的情感色彩通常由形容词、副词、情绪动词、否定词以及句子的语义构成方式所决定,分别对情感词、程度副词、否定词和语义模式库建立专有数据库。
[0037]
(1)情感词词库构建
[0038]
情感词词库根据知网的情感词典、cgi(chinesegeneralinquirer)词典和学生褒贬义词典三种资源的基础,结合近年网络常用语字典进行构建。知网的情感词典中收录了包含正负面属性、正负面情感、正负面评价等十个类别的情感词语,内容十分丰富,cgi和学生褒贬义词典中叶收录了大量具有正向和负向情感色彩的词项。结合这三类资源,我们对其中比较常见的情感词汇加以收集,结合各个词典的原始标注情况以及情感分析需求,经过层层比较和筛选,完成了最终的情感词库,该词库将为我们计算词语、句子以及篇章的情感倾向性提供重要依据。
[0039]
(2)否定词词库构建
[0040]
否定词的存在常常会逆转一个句子的情感倾向,例如“不再喜欢”这个短语中,因为“不再”这个否定词的存在,将“喜欢”所表达的褒义情感反转为了贬义情感。考虑否定词的影响,构建一个否定词词库,其中包含了汉语语言中常用的否定词。如下表所示:
[0041][0042]
(3)程度词词典构建
[0043]
除了否定词可以对词汇的情感倾向产生影响之外,一些表示程度的副词也能影响词语的情感极性大小。例如“这部小说十分好看”,由于程度副词“十分”对“好看”的修饰,整个句子的情感极性表现的更加褒义。
[0044]
为了表示程度副词对所修饰词汇的情感强度的调整作用,对这些修饰词建立了一个专门的词典。并且根据程度副词对情感词的情感强度作用大小,对不同程度副词设置了相应的加权值。如下表所示:
[0045][0046]
(4)语义模式库构建
[0047]
将句子的语义成分划分为“行为”、“实施者”、“受施者”和“修饰项”四种成分。其中“行为”代表句子的中心谓语动词,也是句子的主要事件,“实施者”是指行为的实施主体,“受施者”代表行为的实施对象,“修饰项”去包含了其余不会影响句子情感倾向的时间、地点、工具、程度等语义项。
[0048]
在进行简化过的语义角色类别中,句子的语义模式可以大致分作主谓宾模式、主谓模式、谓宾模式和主语描述模式四种类别:
[0049]
(1)主谓宾模式:实施者+行为+受施者+修饰项。
[0050]
(2)主谓模式:实施者+行为+修饰项。
[0051]
(3)谓宾模式:行为+受施者+修饰项。
[0052]
(4)主语描述模式:实施者+修饰项。
[0053]
其中第四种模式中并无谓语动词,所以其实施者并非行为的主体,而是代表修饰项所修饰的对象。
[0054]
敏感文字识别中,需要对一些包含政治对象名的文本进行语义和情感分析,这些政治对象本身是可以划分为正面和负面两种类别的,在同时包含正面对象和负面对象的情感句子中,对象在语义模式中所在的成分可以决定句子的情感倾向性。结合上面描述的四种语义模式和不同政治对象所处的语义角色,我们进一步将语义
[0055]
模式库中的条目进行细分为十种模式:
[0056]
(1)正面实施者+行为+正面受施者+修饰项。
[0057]
(2)正面实施者+行为+负面受施者+修饰项。
[0058]
(3)负面实施者+行为+正面受施者+修饰项。
[0059]
(4)负面实施者+行为+负面受施者+修饰项。
[0060]
(5)正面实施者+行为+修饰项。
[0061]
(6)负面实施者+行为+修饰项。
[0062]
(7)行为+正面受施者+修饰项。
[0063]
(8)行为+负面受施者+修饰项。
[0064]
(9)正面对象+修饰项。
[0065]
(10)负面对象+修饰项。
[0066]
针对这十种语义角色关系,对每一种模式都设置一个加权值,正面对象作为受施者的模式赋予一个1~5 之间的正整数作为加权,而以负面对象作为受施者的模式赋予

1~

5之间的一个负整数作为加权值,对于缺少实施者的模式,对含正面对象模式赋予1~2之间的正整数,负面对象赋予

1~

2之间的加权值。在句子的情感计算过程中,首先在不考虑语义模式的情况下计算句子的情感倾向性,然后结合句子对应的语义模式,结合其加权值调整情感倾向,最终才能使得情感倾向性判定接近真实的情况。
[0067]
以上描述了本发明的基本原理和主要特征,本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内,发明要求保护范围由所附的权利要求书及其等效物界定。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1