本发明涉及语言处理,尤其涉及一种基于有向图分析的新词检测方法及装置。
背景技术:
1、随着互联网技术的快速发展,各种特定应用、特定群体下涉及到的新概念、新词条不断涌现,呈现出了多样化及个性化的特点,继而新词检测技术应用而生。
2、当前,现有的新词检测方式,一般是先通过序列、无向网络结构方式分析出字与字之间的互信息(紧密度)、左右信息熵(自由度)等字间的联系信息,继而再基于字间的联系信息在特定语料上挖掘出不在给定词典里的新词来实现。然而,通过实践发现,现有的新词检测方式容易受到序列处理长度的限制,并且依赖于对长文的分析,使得检测出来的新词准确率不高,影响了对语料的精准分析。可见,提供一种能够提高对新词检测准确性的方法尤为重要。
技术实现思路
1、本发明提供了一种基于有向图分析的新词检测方法及装置,不仅提高了对序列的处理能力,从而提高了对新词检测的高效性,还增强了对目标语料的新词检测可解释性,从而提高了对新词检测的可靠性及准确性。
2、为了解决上述技术问题,本发明第一方面公开了一种基于有向图分析的新词检测方法,所述方法包括:
3、获取待分析的目标语料;所述目标语料包括多个字;
4、确定所有所述字之间的顺序连接情况,并根据所有所述字之间的顺序连接情况,构建所有所述字所对应的有向图;所有所述字所对应的有向图包括所有所述字中两两存在顺序连接关系的连接字以及两两所述连接字之间的有向边;
5、根据所述有向图,对每个所述字进行自我中心网络离群程度分析操作,得到每个字的自我中心网络离群程度分析结果,并根据所有所述字的自我中心网络离群程度分析结果,确定出所述目标语料所包含的新词。
6、作为一种可选的实施方式,在本发明第一方面中,所述根据所述有向图,对每个所述字进行自我中心网络离群程度分析操作,得到每个字的自我中心网络离群程度分析结果,包括:
7、对于每一所述字,根据所述有向图,确定所述字的自我中心网络;所述字的自我中心网络包括所述字、除所述字之外的所有所述字中与所述字存在所述顺序连接关系的多个目标连接字以及所述字与每一所述目标连接字之间的有向边,其中,当所述顺序连接关系包括出边连接关系时,所述有向边包括出边,而当所述顺序连接关系包括入边连接关系时,所述有向边包括入边;
8、对于每一所述字,根据所述字的自我中心网络,从所有所述目标连接字中确定出与所述字的顺序连接关系包括所述出边连接关系的所有出边连接字,以及确定出与所述字的顺序连接关系包括所述入边连接关系的所有入边连接字;
9、对于每一所述字,计算所述字与每一所述出边连接字之间的疏离程度参数,并将所述字与所有所述出边连接字之间的疏离程度参数之和,确定为所述字的自我中心网络离群程度参数,作为所述字的自我中心网络离群程度分析结果。
10、作为一种可选的实施方式,在本发明第一方面中,所述计算所述字与每一所述出边连接字之间的疏离程度参数,包括:
11、确定所述字与每一所述出边连接字之间的重合节点数参数,以及确定所述字与每一所述出边连接字之间的目标概率值;所述目标概率值用于指示所述出边连接字为所述字的下一个字的概率值;
12、根据所述字与每一所述出边连接字之间的重合节点数参数,以及所述字与每一所述出边连接字之间的目标概率值,计算所述字与每一所述出边连接字之间的距离度量参数,并根据所述字与每一所述出边连接字之间的距离度量参数,计算所述字与每一所述出边连接字之间的疏离程度参数。
13、作为一种可选的实施方式,在本发明第一方面中,所述确定所述字与每一所述出边连接字之间的重合节点数参数,包括:
14、根据所述字对应的所有所述出边连接字、对应的所有所述入边连接字,以及每一所述出边连接字对应的所有目标出边连接字、对应的所有目标入边连接字,确定所述字与每一所述出边连接字之间的重合节点数参数;每一所述出边连接字对应的所有所述目标出边连接字为所述出边连接字对应的所有出边连接字,每一所述出边连接字对应的所有所述目标入边连接字为所述出边连接字对应的所有入边连接字;
15、其中,所述字与每一所述出边连接字之间的重合节点数参数均是通过以下公式确定出的:
16、;
17、x为所述字,y为所述字对应的出边连接字,为所述字对应的所有所述出边连接字,为所述字对应的所有所述入边连接字,为所述字对应的出边连接字所对应的所有所述目标出边连接字,为所述字对应的出边连接字所对应的所有所述目标入边连接字,为所述字与对应的出边连接字之间的重合节点数参数。
18、作为一种可选的实施方式,在本发明第一方面中,所述字与每一所述出边连接字之间的距离度量参数均是通过以下公式确定出的:
19、
20、其中,为所述字与对应的出边连接字之间的目标概率值,为所述字与对应的出边连接字之间的距离度量参数。
21、作为一种可选的实施方式,在本发明第一方面中,所述根据所述字与每一所述出边连接字之间的距离度量参数,计算所述字与每一所述出边连接字之间的疏离程度参数,包括:
22、对于每一所述出边连接字,确定所述字至所述出边连接字的路径个数参数、所述出边连接字至所述字的路径个数参数以及所述出边连接字与所述字之间的距离度量参数,并根据所述字至所述出边连接字的路径个数参数、所述出边连接字至所述字的路径个数参数、所述出边连接字与所述字之间的距离度量参数以及所述字与所述出边连接字之间的距离度量参数,计算所述字与所述出边连接字之间的疏离程度参数;
23、其中,所述字与所述出边连接字之间的疏离程度参数为:
24、
25、为所述字至所述出边连接字的路径个数参数,为所述出边连接字至所述字的路径个数参数,为所述出边连接字与所述字之间的距离度量参数。
26、作为一种可选的实施方式,在本发明第一方面中,所述根据所有所述字的自我中心网络离群程度分析结果,确定出所述目标语料所包含的新词,包括:
27、从所有所述字中确定出所述自我中心网络离群程度参数大于或等于预设的离群程度参数的目标字,并根据所述目标字与其对应的每一所述出边连接字之间的出边连接关系,确定所述目标字与其对应的每一所述出边连接字所组成的词语,作为所述目标语料所包含的新词。
28、本发明第二方面公开了一种基于有向图分析的新词检测装置,所述装置包括:
29、获取模块,用于获取待分析的目标语料;所述目标语料包括多个字;
30、确定模块,用于确定所有所述字之间的顺序连接情况;
31、构建模块,用于根据所有所述字之间的顺序连接情况,构建所有所述字所对应的有向图;所有所述字所对应的有向图包括所有所述字中两两存在顺序连接关系的连接字以及两两所述连接字之间的有向边;
32、分析模块,用于根据所述有向图,对每个所述字进行自我中心网络离群程度分析操作,得到每个字的自我中心网络离群程度分析结果;
33、所述确定模块,还用于根据所有所述字的自我中心网络离群程度分析结果,确定出所述目标语料所包含的新词。
34、作为一种可选的实施方式,在本发明第二方面中,所述分析模块根据所述有向图,对每个所述字进行自我中心网络离群程度分析操作,得到每个字的自我中心网络离群程度分析结果的方式具体包括:
35、对于每一所述字,根据所述有向图,确定所述字的自我中心网络;所述字的自我中心网络包括所述字、除所述字之外的所有所述字中与所述字存在所述顺序连接关系的多个目标连接字以及所述字与每一所述目标连接字之间的有向边,其中,当所述顺序连接关系包括出边连接关系时,所述有向边包括出边,而当所述顺序连接关系包括入边连接关系时,所述有向边包括入边;
36、对于每一所述字,根据所述字的自我中心网络,从所有所述目标连接字中确定出与所述字的顺序连接关系包括所述出边连接关系的所有出边连接字,以及确定出与所述字的顺序连接关系包括所述入边连接关系的所有入边连接字;
37、对于每一所述字,计算所述字与每一所述出边连接字之间的疏离程度参数,并将所述字与所有所述出边连接字之间的疏离程度参数之和,确定为所述字的自我中心网络离群程度参数,作为所述字的自我中心网络离群程度分析结果。
38、作为一种可选的实施方式,在本发明第二方面中,所述分析模块计算所述字与每一所述出边连接字之间的疏离程度参数的方式具体包括:
39、确定所述字与每一所述出边连接字之间的重合节点数参数,以及确定所述字与每一所述出边连接字之间的目标概率值;所述目标概率值用于指示所述出边连接字为所述字的下一个字的概率值;
40、根据所述字与每一所述出边连接字之间的重合节点数参数,以及所述字与每一所述出边连接字之间的目标概率值,计算所述字与每一所述出边连接字之间的距离度量参数,并根据所述字与每一所述出边连接字之间的距离度量参数,计算所述字与每一所述出边连接字之间的疏离程度参数。
41、作为一种可选的实施方式,在本发明第二方面中,所述分析模块确定所述字与每一所述出边连接字之间的重合节点数参数的方式具体包括:
42、根据所述字对应的所有所述出边连接字、对应的所有所述入边连接字,以及每一所述出边连接字对应的所有目标出边连接字、对应的所有目标入边连接字,确定所述字与每一所述出边连接字之间的重合节点数参数;每一所述出边连接字对应的所有所述目标出边连接字为所述出边连接字对应的所有出边连接字,每一所述出边连接字对应的所有所述目标入边连接字为所述出边连接字对应的所有入边连接字;
43、其中,所述字与每一所述出边连接字之间的重合节点数参数均是通过以下公式确定出的:
44、;
45、x为所述字,y为所述字对应的出边连接字,为所述字对应的所有所述出边连接字,为所述字对应的所有所述入边连接字,为所述字对应的出边连接字所对应的所有所述目标出边连接字,为所述字对应的出边连接字所对应的所有所述目标入边连接字,为所述字与对应的出边连接字之间的重合节点数参数。
46、作为一种可选的实施方式,在本发明第二方面中,所述字与每一所述出边连接字之间的距离度量参数均是通过以下公式确定出的:
47、
48、其中,为所述字与对应的出边连接字之间的目标概率值,为所述字与对应的出边连接字之间的距离度量参数。
49、作为一种可选的实施方式,在本发明第二方面中,所述分析模块根据所述字与每一所述出边连接字之间的距离度量参数,计算所述字与每一所述出边连接字之间的疏离程度参数的方式具体包括:
50、对于每一所述出边连接字,确定所述字至所述出边连接字的路径个数参数、所述出边连接字至所述字的路径个数参数以及所述出边连接字与所述字之间的距离度量参数,并根据所述字至所述出边连接字的路径个数参数、所述出边连接字至所述字的路径个数参数、所述出边连接字与所述字之间的距离度量参数以及所述字与所述出边连接字之间的距离度量参数,计算所述字与所述出边连接字之间的疏离程度参数;
51、其中,所述字与所述出边连接字之间的疏离程度参数为:
52、
53、为所述字至所述出边连接字的路径个数参数,为所述出边连接字至所述字的路径个数参数,为所述出边连接字与所述字之间的距离度量参数。
54、作为一种可选的实施方式,在本发明第二方面中,所述确定模块根据所有所述字的自我中心网络离群程度分析结果,确定出所述目标语料所包含的新词的方式具体包括:
55、从所有所述字中确定出所述自我中心网络离群程度参数大于或等于预设的离群程度参数的目标字,并根据所述目标字与其对应的每一所述出边连接字之间的出边连接关系,确定所述目标字与其对应的每一所述出边连接字所组成的词语,作为所述目标语料所包含的新词。
56、本发明第三方面公开了另一种基于有向图分析的新词检测装置,所述装置包括:
57、存储有可执行程序代码的存储器;
58、与所述存储器耦合的处理器;
59、所述处理器调用所述存储器中存储的所述可执行程序代码,执行本发明第一方面公开的基于有向图分析的新词检测方法。
60、本发明第四方面公开了一种计算机存储介质,所述计算机存储介质存储有计算机指令,所述计算机指令被调用时,用于执行本发明第一方面公开的基于有向图分析的新词检测方法。
61、与现有技术相比,本发明实施例具有以下有益效果:
62、本发明实施例中,确定待分析目标语料中所有字之间的顺序连接情况,并根据所有字之间的顺序连接情况,构建所有字所对应的有向图;根据有向图,对每个字进行自我中心网络离群程度分析操作,得到每个字的自我中心网络离群程度分析结果,并根据所有字的自我中心网络离群程度分析结果,确定出目标语料所包含的新词。可见,实施本发明能够通过目标语料中所有字对应的有向图,分析每个字的自我中心网络离群程度,继而从目标语料中检测出新词,这样,不仅提高了对序列的处理能力,从而提高了对新词检测的高效性,还增强了对目标语料的新词检测可解释性,从而提高了对新词检测的可靠性及准确性。