
1.本发明涉及文章解析系统及使用其的消息交换的特征评价系统。
背景技术:2.将使计算机理解人在信息传递中使用的自然语言的尝试称为自然语言理解。使用自然语言理解的信息处理系统广泛用于文章的自动翻译或声音应答系统、机器人技术、安全等领域。由于互联网技术的进步,多国间的文化和商务的交流变得容易,必须实时地处理各种语言或被混用的多国语。作为处理多国语的例子,在作为在互联网上的消息交换的一种类型的电子邮件系统中,如下的服务器或终端装置已经实用化:在用于检测垃圾邮件或病毒等非法消息的过滤功能中搭载了与预先准备的基于多种语言的定义文件进行高效匹配的匹配系统。例如,专利文献1公开了如下技术:将记载了字符串等的样本数据信号化为n值化(n为2以上的自然数)的样本数据,计算n值化后的样本数据与n值化后的输入数据之间的相似度,基于计算出的相似度来识别输入数据是否是垃圾邮件。
3.现有技术文献
4.专利文献
5.专利文献1:日本专利第6267830号公报
技术实现要素:6.发明要解决的问题
7.伴随互联网技术的发展,多国间的文化和商务的交流变得活跃,要求信息处理系统能够应对多种语言的处理。并且,在作为互联网上的消息交换系统的一种类型的电子邮件系统中,需要除了处理多种语言以外还实时地处理大量的业务的性能。但是,自然语言理解需要并非仅是简单的匹配表的庞大的数据、以及基于句法和语义的复杂解析。
8.对利用自然语言写的消息进行处理的目的不仅在于内容的理解,还在于取得消息制作者的特征。消息制作者的特征也灵活用于信息安全的领域。利用消息的计算机装置或电子设备的动作的阻碍、信息的诈取、由于对利用者的欺诈行为等导致的信息泄漏成为大问题,基于消息解析来防止信息泄漏的需要变高,此外,还要求高速的处理。基于消息的信息流出大致存在2种。一种是存在恶意的用户的故意的流出。例如,非法的合作者利用消息工具等将信息发送到外部,或者使计算机感染病毒等非法程序,使外部的计算机将信息泄漏到外部。另一种是用户的误发送。例如,向未知的目的地发送消息,或者使用通常不处理的话题或用语,或者附加了通常不会附加的文件。作为这些情况中共同的特征,举出伴有与通常不同的行动。因此,通过高速地检测在消息中存在的特异性,并在发送前进行注意,从而能够防止消息交换导致的信息流出。
9.本发明鉴于上述的实际情况而将目的设为:提供文章解析系统,能够以比以往更低的成本高速地检测具有特异的表达特征和构造特征的文章。
10.并且,本发明的目的在于提供对消息交换中的本文的特异性进行检测的消息的特
征评价系统。
11.用于解决问题的手段
12.本发明实现能够通过单一的算法对多种语言进行处理的系统。作为本发明的文章解析系统能够应用于口语或文章所具有的特征或例外的检测。根据本发明,包括发现由于措辞的错误或不规范性而引起的主旨的不同、误解、不正当、或它们的迹象在内,能够检测平凡思想中隐藏的非凡的思想、以及多数中的少数的意思。提取口语或文章所具有的表达特征和构造特征,比较并检测与它们不同的特征的口语或文章,或者使用与其相反的方法,从而使本发明的文章解析系统用于各个方面。
13.作为能够通过比较口语或文章所具有的表达特征或构造特征而检测到发生的具体例子,考虑电子邮件系统的信息泄漏。识别垃圾邮件和病毒邮件等非法消息的方法很多,检测消息本文的词素解析的结果、url、或包含发送地址在内的报头信息的特征,比较与预先定义的非法消息的判断基准(非法用语、地址、url、通过路径、发送量等)或通常在当事者之间来往的邮件的特征之间的不同点,从而进行识别。url或报头具有形式上的信息,因此,判断基准的定义容易与消息本文进行比较,但是,另一方面,这些特征持续被变更,难以实现高精度的过滤。因此,要求与url、报头信息一起还进行基于消息本文的解析的检测,但是,非法消息内包含的语言跨越多个国家的语言,为了将词素解析或分词处理与多语言对应,需要与各语言对应的词典。由于语言的多样性,可能导致扩展性降低、或要求实时时间处理的系统的处理速度显著降低。为了避免这些问题,系统装置会庞大且成本增加。因此,能够期待利用低成本且具有对多种语言的扩展性的本发明的文章解析手法作为解决方案。
14.本发明的对文章进行解析的文章解析系统具有:取得单元,其取得文章数据;转换单元,其将所取得的文章数据的字符数值化,从而将文章数据转换为时间序列信号;特征提取单元,其从转换后的时间序列信号提取特征信息,并存储提取出的特征信息;以及判定单元,其使用所述特征信息来判定新取得的文章数据的同一性。
15.在某个实施方式中,文章解析系统还具有检测单元,该检测单元基于所述判定单元的判定结果来检测与所述特征信息不同的特异文章。在某个实施方式中,所述转换单元基于预先准备的转换表将字符转换为数值数据。在某个实施方式中,所述转换单元对所述时间序列信号进行归一化,使其收敛于最小值0与最大值1的范围内。在某个实施方式中,所述转换单元使超过所设定的阈值的所述时间序列信号的值衰减,对衰减后的时间序列信号进行归一化。在某个实施方式中,所述特征提取单元从通过通常的表达特征或构造特征来记载的文章数据的归一化后的时间序列信号中提取特征,对特征进行学习,以使用提取出的特征得到对所述时间序列信号的输入波形进行再现的输出波形。在某个实施方式中,所述特征提取单元通过自动编码器对所述特征信息进行编码。在某个实施方式中,所述特征提取单元通过神经网络对所述特征信息进行学习。
16.本发明的消息交换的特征评价系统包含上述记载的文章解析系统,所述检测单元基于所述判定单元的判定结果来检测消息的特异性。在某个实施方式中,消息交换的特征评价系统包含发送控制单元,在检测到发送邮件的特异性的情况下,该发送控制单元停止该发送邮件的发送。在某个实施方式中,消息交换的特征评价系统还具有通知单元,在通过所述发送控制单元停止了送邮件的发送时,该通知单元通知发送邮件的发送停止。
17.本发明的由计算机终端执行的文章解析程序具有以下步骤:取得文章数据;将所
取得的文章数据的字符数值化,从而将文章数据转换为时间序列信号;从转换后的时间序列信号提取特征信息,并存储提取出的特征信息;以及使用所述特征信息来判定新取得的文章数据的同一性。在某个实施方式中,在判定所述同一性的步骤中,识别通过与所述特征信息不同的特异的表达特征或构造特征来记载的发送邮件。
18.本发明的计算机终端中的文章解析方法具有以下步骤:取得文章数据;将所取得的文章数据的字符数值化,从而将文章数据转换为时间序列信号;从转换后的时间序列信号提取特征信息,并存储提取出的特征信息;以及使用所述特征信息来判定新取得的文章数据的同一性。在某个实施方式中,在判定所述同一性的步骤中,识别通过与所述特征信息不同的表达特征或构造特征来记载的发送邮件。
19.发明的效果
20.根据本发明,将文章数据转换为时间序列信号,因此,不需要文章的词素解析以及用于词素解析的词典数据,能够实现低成本。并且,通过基于从时间序列信号提取出的特征信息判定文章数据的同一性,能够容易地判定是否是本人的文章。并且,根据本发明,通过检测发送邮件的特异性,使异常的发送邮件的发送停止,由此能够将信息泄漏防患于未然。
附图说明
21.图1是示出本发明的第1实施例的文章解析系统的结构的框图。
22.图2是示出图1所示的特征提取部的内部结构的框图。
23.图3是统一码(unicode)的一部分的例示。
24.图4是示出取得电子邮件作为文章数据并将该电子邮件的时间序列信号进行归一化的例子的图。
25.图5是对本发明的实施例的信号归一化的动作例进行说明的流程图。
26.图6是对本发明的实施例的信号分类部从输入提取特征的特征提取进行说明的图。
27.图7是对本发明的实施例的自动编码器的概要进行说明的图。
28.图8是示出信号分类部基于阈值进行的分类的例子的图。
29.图9是示出本发明的第2实施例的发送邮件监视系统的结构的框图。
30.图10是对本发明的第2实施例的发送邮件监视系统的动作进行说明的流程图。
31.图11是示出本发明的实施例的实验结果的图。
32.图12是示出本发明的实施例的实验结果的图。
具体实施方式
33.接着,本发明的文章解析系统能够应用于具有以电子方式处理文章的功能的所有电子装置(例如,计算机装置、邮件服务器、客户终端、智能手机等)。
34.实施例
35.图1是示出本发明的实施例的文章解析系统的结构例的图。本实施例的文章解析系统100构成为具有:文章取得部110,其取得文章数据;特征提取部120,其提取由文章取得部110取得的文章数据的特征;特征存储部130,其存储由特征提取部120提取的特征;以及特异文章检测部140,其基于特征提取部120或特征存储部130的特征来检测特异文章。
36.通过邮件服务器或客户终端等的软件、硬件或者软件与硬件的组合来实施文章解析系统100。文章取得部110取得由用户制作的文章数据(例如,电子邮件等)。在文章数据是电子邮件的情况下,例如,取得通过搭载于客户终端的邮件软件而制作的html形式的电子邮件、或者经由互联网而从客户终端向邮件服务器发送的电子邮件、或者消息交换系统中的电子邮件。
37.文章取得部110能够取得由多个用户制作的文章数据。此外,为了使文章解析系统100事先具有学习功能,由文章取得部110取得的文章数据是根据用户通常的风格即通常的表达特征或构造特征而制作的正常的文章数据,特征提取部120提取根据用户的通常的表达特征或构造特征而制作的正常的文章数据中包含的特征,对用户的文章的特征进行学习。在使文章解析系统100进行学习后,文章取得部110取得任意的文章数据,文章解析系统100识别该任意的文章数据的特征是否与根据通常的表达特征或构造特征而制作的文章的特征一致。例如,即使是本人制作的文章,也识别其是否是根据通常的表达特征或构造特征而制作的文章,或者识别是否是由本人以外的人制作的文章。
38.图2示出特征提取部120的内部结构。特征提取部120具有:字符信号化部122,其接收由文章取得部110取得的文章数据,将文章中记载的字符信息化为时间序列信号;归一化部124,其进行被字符信号化部122信号化后的时间序列信号的归一化;以及信号分类部126,其对归一化后的信号进行分类。
39.字符信号化部122将文章中记载的字符的连续转换为一维的时间序列信号。在一个优选的例子中,字符信号化部122基于统一码(unicode)将文章的1个1个的字符转换为数值数据。统一码是字符代码的国际标准之一,世界中的各种语言的字符、数字、符号等被分配给代码。图3例示出统一码的一部分摘抄。统一码将ascii、汉字、阿拉伯语、希腊符号等以16比特或16以上的比特数编码为二进制数据。字符信号化部122具有将1个字符转换后的1个数值的比特数
×
字符数的数据量。此外,字符信号化部122可以将固定长度的数据转换为没有断开的1个连续数据,也可以转换为可变长度的数据。
40.作为其他方法,也可以是,预先准备唯一地规定字符、惯用语、句子等与数值数据之间的关系的转换表,字符信号化部122使用这样的转换表将文章的各字符、惯用语等转换为数值数据。
41.字符信号化部122将文章的从开头到末尾的字符转换为数值数据。例如,如果是p行
×
q列(p、q是任意的整数)的大小的文章,则生成包含与p
×
q的字符数对应的二进制数据的时间序列信号。这里的字符是包含作为自然语言的字符、数字、符号、图形、以及未表示这些字符等的空白(空格)的概念。例如,如果是横写的文章,则从开头行到最终行,从左向右或从右向左依次扫描字符,或者如果是纵写的文章,则从开头行到最终行,从上到下或者从下到上依次扫描字符,将从开头字符到最终字符为止的字符转换为数值数据。能够任意地决定进行扫描的方向。如果需要构成文章数据的页信息(行数、1行的字符数等),则也可以同时取得页信息,参照页信息对开头字符到最终字符进行识别。
42.这样,通过字符信号化部122生成的文章的时间序列信号能够视为由文章的字符形成的非周期波形,文章中包含的单词或惯用语在其位置表现为波形图案。例如,用户在频繁使用
“○○”
这一单词或惯用语的情况下,时间序列信号中包含与
“○○”
对应的波形图案。或者,在通常的表达特征或构造特征中,在用户利用礼貌语记载文章或较多地使用标点
符号或较多地使用特定的连接词等的情况下,时间序列信号中包含表达它们的波形图案。这样的波形图案是用于识别用户的1个特征。
43.本实施例的字符信号化部122基于统一码或转换表将字符信号化,因此不依赖于特定的语言,能够应用于多语言,能够利用时间序列信号的波形的不同来表现语言的不同。并且,字符信号化部122不进行文章的词素解析或语法解析,因此不需要语料库等的词典,能够削减成本。
44.信号归一化部124对由字符信号化部122生成的时间序列信号进行归一化。在通过统一码对字符进行数值化时,存在生成时间序列信号的各数值表示离散值且其值的范围非常大的情况。因此,信号归一化部124进行抑制时间序列信号的离群值的处理以及值域的归一化处理。
45.离群值抑制处理使超过所设定的阈值的数值衰减。例如,通过下式进行处理。“avg”是平均,“std”是标准偏差,“x”是作为对象的值(这里为时间序列信号的数值),“rate”是衰减率,“d”是与为了提高整体值而相加的数值相乘的系数。
46.[数式1]
[0047]
threshold=|std-avg|
×
(1-d)
[0048]
avg+((x-avg)
×
rate+(|x-avg|
×
d)):(|x-avg|)>threshold)
[0049]
x:(|x-avg|)≤threshold)
[0050]
如上所述,阈值(threshold)被设定于从相对于平均值偏离了σ的位置起的微小量d的内侧(|标准偏差-平均值|
×
(1-d))。即,为了以相对于平均值的偏离情况为基准,目标值也利用相对于平均值的偏离情况|x-avg|进行情况划分。
[0051]
接着,针对进行了离群值抑制处理的信号,进行值域的归一化处理。在值域的归一化处理中,将(方差(std)归一化为1、将平均(avg)归一化为0,然后,再次将最小值归一化为0,将最大值归一化为1,使时间序列信号收敛于0~1的范围。图4示出如下例子:在取得了电子邮件作为文章数据时,电子邮件的邮件本文的字符被转换为时间序列信号,进而,时间序列信号以收敛于0~1的范围的方式被归一化。
[0052]
图5的流程图中示出本实施例的信号归一化部124的1个动作例。首先,基于统一码,将由字符信号化部122取得的文章的各字符数值化(s100)。接着,信号归一化部124将时间序列信号的数值扩大整数倍,扩展波形(s102)。这是由于根据语言的不同,字符彼此会相邻,因此对其进行纠正。接着,信号归一化部124如上所述进行离群值的抑制处理(s104)。在离群值的抑制处理中,超过阈值的数值被衰减,但是也可以将该衰减分为多次来进行(s106)。此外,衰减的次数可以根据数据来调整。接着,信号归一化部124在对方差和平均进行归一化后,将最小值归一化为0,将最大值归一化为1。如果方差的值未低于固定阈值,则重复步骤s104~s108的处理。可以对该重复的处理次数设定上限。
[0053]
接着,对信号分类部126进行说明。信号分类部126从信号归一化部124接收归一化后的时间序列信号,提取时间序列信号中包含的特征。提取出的特征是能够再现输入的特征,信号分类部126对该特征进行学习。但是,学习的仅是通过通常的表达特征或构造特征而记载的文章数据。例如,从图6所示的归一化后的输入波形提取特征,对特征进行学习,以使用该提取出的特征得到基本对输入波形进行再现的输出波形。
[0054]
在一个优选的方式中,信号分类部216通过利用神经网络的自动编码器,削减特征
的维度并抑制信息量。图7示出利用神经网络的自动编码器的概念。在优选的方式中,自动编码器仅使用全连接层来构成,包含编码器4层和解码器4层,神经网络的各层的宽度可以根据将字符串转换后得到的信号的长度而变化。编码器通过削减输入的不需要的维度来压缩特征,解码器根据被压缩的特征来再现输入。神经网络通过学习功能来调整编码器和解码器各自的权重。在本例中,神经网络以对称的结构再现输入,输入是固定长度。
[0055]
此外,信号分类部126具有检查输出波形的再现度的功能。具体而言,对图6所示的输入波形与输出波形这2个时间序列的各点的距离进行循环式比较,检测2个时间序列彼此的距离成为最短的路径。该路径成为dtw距离(dynamic time warping:动态时间规整)。虽然在再现波形中会出现一些误差,但是该检查在相位偏移等较强。该dtw距离用于在确定了学习模型后计测新数据的再现度。这里的新数据是新的文章数据,并是通过本文章解析系统100来判定是否是独特的文章的文章数据。利用自动编码器对新的文章数据进行处理,在输入输出波形的dtw距离超过阈值(后述)的情况下,认为再现度低,将文章数据判定为独特的数据(不是通常的表达特征或构造特征)。该判定结果被提供到特异文章检测部140。
[0056]
信号分类部216计算用于进行波形的分类的阈值。具体而言,对评价数据进行评价而计算同一性,求出同一性的中央值和标准偏差,根据下式来计算阈值,其中,该评价数据是从利用通常的表达特征或构造特征而记载的文章中提取出的、通过自动编码器压缩后的特征(作为自动编码器的权重,例如表现为一个一个的神经元在内部具有的数式的系数)。在波形大概成为归一化分布的情况下,该阈值意味着在从中央值到标准变化
×
2的范围内大概包含95%的波形。
[0057]
(数式2)
[0058]
阈值=中央值-标准偏差
×2[0059]
另外,阈值不限于上述式子,如果波形更接近正态分布,则也可以设为阈值=平均值-标准偏差
×
2(2σ),在通过其他计算式来计算波形的相似度的情况下,还可以设为基于该计算式的阈值。
[0060]
图8示出基于阈值的分类例。在该图中,虚线的图是学习完毕用户的文章,实线是其他人的文章。在本例中,特征的阈值是5.8,将具有该阈值以上的特征的文章检测为其他人的文章。
[0061]
特征存储部130通过特征提取部120来存储特征和其阈值。在每次学习了文章数据时更新特征和阈值。
[0062]
特异文章检测部140在基于特征提取部120的事先学习结束后,利用其学习结果来进行特异文章的检测。即,通过文章取得部110取得任意的文章a,特征提取部120提取文章a的特征。信号分类部126对从文章a提取出的特征与特征存储部130中存储的阈值进行比较,如果特征为阈值以上,则将文章a判定为特异文章。该判定结果被提供到特异文章检测部140,特异文章检测部140将被判定为特异文章的文章a检测为不是通过通常的表达特征或构造特征而记载的文章。例如,推测为是由本人以外的其他用户记载的文章,或者是本人通过特异的表达特征或构造特征而记载的文章。
[0063]
接着,图9示出将本实施例的文章解析系统应用于发送邮件监视系统的例子。发送邮件监视系统200例如在具有邮件的发送和接收功能的邮件服务器、客户终端(计算机装置、便携装置等)中实现。
[0064]
发送邮件监视系统200包括:发送邮件取得部210,其取得由用户制作出的发送邮件;特征提取部220,其提取由发送邮件取得部210取得的发送邮件的特征;特征存储部230,其存储所提取出的特征;异常邮件检测部240,其检测所取得的发送邮件是否是异常邮件;以及发送控制部250,其基于异常邮件检测部240的检测结果来控制发送邮件的发送。这些功能通过邮件服务器或客户终端的软件、硬件或者软件与硬件的组合来实施。
[0065]
发送邮件取得部110取得通过搭载于客户终端的邮件软件制作出的html形式的电子邮件、或者从客户终端上传到邮件服务器的发送用的电子邮件。
[0066]
特征提取部220与上述文章解析系统的特征提取部120同样地进行动作。这里为了便于说明,假设特征提取部220事先学习了用户x通过通常的表达特征或构造特征记载了电子邮件时的特征。因此,如果从发送邮件取得部210取得的发送邮件是用户x记载的发送邮件,则该发送邮件的特征与所学习的特征具有同一性,因此被识别为用户x通过通常的表达特征或构造特征而记载的发送邮件,但是,如果是用户x通过特异的表达特征或构造特征而记载的发送邮件、或者是其他人记载的发送邮件,则该发送邮件的特征与所学习的特征不具有同一性,因此被识别为用户x通过特异的表达特征或构造特征而记载的发送邮件、或者由其他人记载的发送邮件。关于是否具有同一性,如图8中说明的那样,通过是否超过阈值来判定。
[0067]
异常邮件检测部240在判定为不具有同一性时,将该发送邮件检测为异常邮件,并将该检测结果提供到发送控制部250。发送控制部250在检测到异常邮件的情况下,例如,使客户终端或邮件服务器停止或暂时停止该发送邮件的发送,向用户通知无法发送这一意思的警告等。例如,也可以使客户终端的显示器显示发送停止,并进行声音引导。另一方面,在未检测到异常邮件的情况下,使客户终端或邮件服务器发送该发送邮件。
[0068]
图10是对发送邮件监视系统的动作例进行说明的流程图。首先,通过发送邮件取得部210取得发送邮件(s200),通过特征提取部220将发送邮件的本文的各字符信号化,生成一维的时间序列信号(s202),对时间序列信号进行归一化(s206),接着,从时间序列信号提取特征。接着,判定所提取出的特征与所学习的特征之间有无的同一性(s208),在存在同一性的情况下,判定为通过本人的通常那样的表达特征或构造特征而记载的发送邮件(s210),向发送地址发送发送邮件(s212)。另一方面,在不存在同一性的情况下,判定为通过本人的特异的表达特征或构造特征而记载的发送邮件或由本人以外的其他人记载的发送邮件(s220),停止发送邮件的发送(s222)。
[0069]
这样,根据本实施例,判定发送邮件是否是通过通常的表达特征或构造特征而记载的发送邮件,在是本人通过特异的表达特征或构造特征而记载的发送邮件或由本人以外的其他人记载的发送邮件的情况下,停止发送邮件的发送,因此,能够将非法的发送邮件导致的信息泄漏防患于未然。
[0070]
接着,对基于本实施例的文章解析系统的验证例进行说明。在实验中,将4种邮件杂志用于评价。仅学习4种邮件杂志中的1种邮件杂志a,评价了是否能够将学习对象以外的3种邮件杂志识别为其他种类(即,如图8所示,评价是否能够将超过阈值的邮件杂志检测为具有特异的表达特征或构造特征的邮件杂志)。此外,将4种邮件杂志翻译成8种语言,验证了语言不同的情况下的精度。
[0071]
在实验中,学习了1000个邮件杂志a,对是否将其他3种100个邮件杂志判断为其他
人进行了评价。在图11中示出在各语言下是否判断为其他人的概率。根据该图可知,针对邮件杂志b、c,以相当良好的精度进行了识别,针对邮件杂志d,语言之间稍微存在偏差。这是因为每种语言的特征不同,例如,日语的字符数是50+50+小写字符+汉字,英语是26字符+小写字符,简体中文和繁体中文是87000(unicode11),法语是26+小写字符+7,印地语是156+小写字符,韩语是11172,芬兰语是29+小写字符,文章的长度根据语言而不同,信号化时的振幅等不同,最终能够通过最佳的归一化而提高精度。
[0072]
接下来的实验对3名员工的邮件进行评价。用户a、b分别是销售的职业,用户c是品质管理工程师的职业。在实验中,用户a是进行了学习的本人,图12的图中示出是否能够将用户b、c检测为其他人的比例。将用户a本人检测为其他人(通过特异的表达特征或构造特征而记载的邮件)的比例是5.95%,将用户b、c检测为其他人(通过表达特征或构造特征而记载的邮件)的比例分别是62.00%、51.00%。
[0073]
在邮件的情况下,当文章短时难以表现差异,存在其精度变低的趋势。此外,由于职业一部分重复,因此两者的表达容易相似,预想难以表现差异。
[0074]
以上,详细说明了本发明的优选的实施方式,但是,本发明不限于特定的实施方式,能够在权利要求书所记载的发明的主旨的范围内进行各种变形、变更。
[0075]
附图标记说明
[0076]
100:文章解析系统
[0077]
110:文章取得部
[0078]
120:特征提取部
[0079]
130:特征存储部
[0080]
140:特异文章检测部
[0081]
200:发送邮件监视系统
[0082]
210:发送邮件取得部
[0083]
220:特征提取部
[0084]
230:特征存储部
[0085]
240:异常邮件检测部
[0086]
250:输出控制部