本发明涉及语义分析的,尤其涉及一种语义分析的电子文件归档分类方法。
背景技术:
1、随着信息技术广泛普及,各行业发展随之产生大量的电子文件,针对数量庞大的电子文件归档及管理工作成为各行业所需做好的重要工作内容。重点是要确保海量电子文件的高效快速归档,并且可同步实现电子文件数据的在线访问效果,切实提升电子文件管理的质量和效率。现有的电子文件管理以人工归档为主,通过人工分析电子文档内容实现文档分类管理,存在效率低下,易出错的缺陷。
技术实现思路
1、有鉴于此,本发明提供一种语义分析的电子文件归档分类方法,目的在于:1)根据不同分词结果在窗口中共现的频率初始化生成表征不同分词结果共现信息的矩阵化表示结果,并对矩阵化表示结果进行基于特征分解方式的分解重组处理,得到表征不同分词结果位置关联特征的词汇结构网络,并对分解结果进行结合位置信息、词频信息、句频信息的语义编码表示,通过计算不同分解结果编码表示的余弦相似度,构建得到表征分解结果语义关联特征的词汇语义网络,实现电子文件文本中词汇的位置结构以及语义信息表征;2)基于词汇语义网络和词汇结构网络构建电子文件文本词汇影响力网络,并结合词汇对其他词汇的位置关联特征以及语义信息构建得到节点影响力树,并基于节点影响力树计算每个词汇节点的链接影响力,其中所语义关联词汇的位置关联特征、自身语义信息以及位置关联特征越大,则该词汇对电子文件整体位置结构以及语义结构的影响力越大,词汇节点的链接影响力越大,进而选取电子文件文本关键词,基于电子文件文本关键词实现电子文件归档分类。
2、实现上述目的,本发明提供的一种语义分析的电子文件归档分类方法,包括以下步骤:
3、s1:对待归档分类的电子文件文本进行预处理,得到预处理后的电子文件文本;
4、s2:构建电子文件文本共现网络,利用电子文件文本共现网络对预处理后的电子文件文本进行矩阵化表示,并对矩阵化表示结果进行分解重组,得到词汇结构网络;
5、s3:对预处理后的电子文件文本进行语义提取,构建得到词汇语义网络,其中基于词向量的词汇相似度计算为所述语义提取的主要实施方法;
6、s4:基于词汇语义网络和词汇结构网络构建电子文件文本词汇影响力网络;
7、s5:对电子文件文本词汇影响力网络中的每个词汇节点构建节点影响力树,并基于节点影响力树计算每个词汇节点的链接影响力,比较不同词汇节点的链接影响力选取电子文件文本关键词;
8、s6:将含有共同电子文件文本关键词的电子文件划为一类并进行归档。
9、作为本发明的进一步改进方法:
10、可选地,所述s1步骤中对待归档分类的电子文件文本进行预处理,包括:
11、获取待归档分类的电子文件文本,并对电子文件文本进行预处理,其中预处理流程为:
12、s11:预构建电子文件文本词典以及停用词表,其中电子文件文本词典中包含若干电子文件中的常用词;在本发明实施例中,停用词表包括常见的定冠词、语气词、介词等;
13、s12:利用电子文件文本中的标点符号以及分段符号将电子文件文本划分为若干句文本,并设置最大提取字符max_len,对电子文件文本中的每句文本进行分词处理,其中电子文件文本中任意一句文本的分词处理流程为:
14、s121:取文本末尾的max_len长度的字符子串作为待分词字符子串;
15、s122:将待分词字符子串在电子文件文本词典中进行匹配,若匹配成功则在文本末尾中删去匹配成功的字符子串,并记录匹配成功的待分词字符子串作为分词结果,返回步骤s121,直到所选取文本中不存在字符,若匹配失败则转向步骤s123;
16、s123:过滤待分词字符子串中的第一个字符,返回步骤s122;
17、若待分词字符子串中仅剩一个字符,则将所剩字符作为分词结果,在文本末尾中删去所剩字符,返回步骤s121;
18、s13:将电子文件文本的分词结果与停用词表进行匹配,将匹配成功的分词结果进行过滤,得到电子文件文本的预处理结果:
19、;
20、其中:
21、表示电子文件文本中第n句文本的预处理结果,n表示电子文件文本中的文本句数;
22、表示中所保留的第j个分词结果,表示中所保留的分词结果总数,。
23、可选地,所述s2步骤中构建电子文件文本共现网络,利用电子文件文本共现网络对预处理后的电子文件文本进行矩阵化表示,包括:
24、构建电子文件文本共现网络,其中电子文件文本共现网络的输入为预处理后的电子文件文本,输出为电子文件文本的矩阵化表示结果,利用电子文件文本共现网络对预处理后的电子文件文本进行矩阵化表示的流程为:
25、s21:将电子文件文本的预处理结果转换为分词结果序列x:
26、;
27、;
28、s22:对分词结果序列进行去重,得到去重后的分词结果序列y:
29、;
30、其中:
31、表示去重后的第m个分词结果,m表示电子文件文本中去重后的分词结果数量;
32、s23:设置共现窗口长度为,共现窗口的移动步长为a,将共现窗口的末端与分词结果序列x中的第一个分词结果对齐,将共现窗口中的分词结果作为当前共现的分词结果,并将共现窗口沿着分词结果序列x移动,每次移动过程中统计当前共现的分词结果,直到共现窗口的始端超过分词结果序列x中的最后一个分词结果;
33、s24:统计分词结果序列y中不同分词结果在共现窗口移动过程中的共现次数,构成电子文件文本的矩阵化表示结果q:
34、;
35、其中:
36、,表示分词结果和在共现窗口移动过程中的共现次数。
37、可选地,所述s2步骤中对矩阵化表示结果进行分解重组,得到词汇结构网络,包括:
38、对电子文件文本的矩阵化表示结果进行分解重组,构建得到词汇结构网络,其中矩阵化表示结果q的分解重组流程为:
39、基于矩阵化表示结果q确定待分解的目标矩阵:
40、;
41、对进行特征分解,得到m个特征值,其中t表示转置,并按特征值由大到小的顺序进行排序:
42、;
43、其中:
44、表示特征分解得到的第m大的特征值;
45、将分解得到的特征值转换为对角矩阵:
46、;
47、其中:
48、表示对角矩阵表示,即为对角矩阵中对角线的元素值;
49、对进行特征分解,按特征值由大到小顺序对相应的特征向量排序,构成特征向量矩阵:
50、;
51、其中:
52、表示特征分解结果中第m大的特征值所对应的特征向量;
53、将分解结果重组为词汇结构网络:
54、;
55、其中:
56、表示词汇结构网络的矩阵化表示结果,为m行m列的矩阵形式,为词汇结构网络中第m行m列的元素值,对应电子文件文本中分词结果和的结构关系。
57、可选地,所述s3步骤中对预处理后的电子文件文本进行语义提取,构建得到词汇语义网络,包括:
58、对预处理后的电子文件文本进行语义提取,并将语义提取结果构建为词汇语义网络,其中基于语义提取的词汇语义网络构建流程为:
59、s31:获取去重后的分词结果序列y,计算得到分词结果序列y中任意分词结果的语义权重,其中分词结果的语义权重计算公式为:
60、;
61、;
62、;
63、;
64、;
65、其中:
66、表示分词结果的语义权重;
67、表示分词结果的位置信息,表示含有分词结果的句子在电子文件文本中的位置中位数;
68、表示分词结果的共现信息,表示矩阵化表示结果q中的元素值之和,表示矩阵化表示结果q中第m列的元素值之和;
69、表示分词结果的词频信息,表示分词结果在电子文件文本中的出现次数,表示分词结果序列y中所有分词结果在电子文件文本中的平均出现次数,表示表示分词结果序列y中所有分词结果在电子文件文本中的出现次数标准差;
70、表示分词结果的句频信息,表示电子文件文本中的句子总数,表示电子文件文本中存在分词结果的句子数;
71、s32:对分词结果序列y中的任意分词结果进行编码处理,其中分词结果的编码处理流程为:
72、s321:利用独热法对分词结果进行独热编码,得到分词结果的独热编码结果;
73、s322:利用bert模型对独热编码结果进行向量化表示,得到分词结果的词向量表示结果;
74、s323:基于语义权重对词向量表示结果进行加权映射,得到分词结果的编码处理结果:
75、;
76、其中:
77、表示以自然常数为底的指数函数;
78、s33:计算分词结果序列y中任意两个不同分词结果所对应编码处理结果的余弦相似度,并构建得到词汇语义网络,其中词汇语义网络的矩阵化表示形式为:
79、;
80、其中:
81、f表示词汇语义网络的矩阵化表示;
82、表示分词结果序列y中分词结果和所对应编码处理结果之间的余弦相似度。
83、可选地,所述s4步骤中根据所构建的词汇语义网络和词汇结构网络构建电子文件文本词汇影响力网络,包括:
84、根据所构建的词汇语义网络和词汇结构网络构建电子文件文本词汇影响力网络,其中所构建电子文件文本词汇影响力网络的矩阵表示形式为:
85、;
86、;
87、其中:
88、k表示电子文件文本词汇影响力网络的矩阵表示形式;
89、表示分词结果序列y中分词结果对的影响力,包括结构影响力和语义影响力,表示词汇结构网络中第i行j列的元素值,表示词汇语义网络中第i行j列的元素值,i和j的取值范围为[1,m]。
90、可选地,所述s5步骤中对电子文件文本词汇影响力网络中的每个词汇节点构建节点影响力树,包括:
91、对电子文件文本词汇影响力网络中的每个词汇节点构建节点影响力树,其中电子文件文本词汇影响力网络中的词汇节点集合对应分词结果序列,则分词结果对应的词汇节点为,词汇节点的节点影响力树的构建流程为:
92、s51:获取k中的第m行矩阵:
93、
94、其中:
95、表示分词结果序列y中分词结果对的影响力;
96、s52:计算得到词汇节点的影响力值 :
97、
98、其中:
99、为词汇节点所对应分词结果的结构影响力,表示词汇节点所对应分词结果的语义影响力;
100、将词汇节点作为根节点,根节点的影响力值为;
101、s53:按照所获取第m行矩阵中非k中对角线位置元素的结构影响力,并对矩阵中非k中对角线位置元素进行排序,按照排序顺序,以词汇节点作为根节点,其他元素作为子节点以及叶子节点构建二叉树,得到词汇节点的节点影响力树。在本发明实施例中,二叉树的构建流程为按照二叉树由上到下、由左到右的顺序,将除外元素,按照排序顺序进行二叉树节点填充。
102、可选地,所述s5步骤中基于节点影响力树计算每个词汇节点的链接影响力,选取电子文件文本关键词,包括:
103、基于节点影响力树计算每个词汇节点的链接影响力,其中词汇节点的链接影响力计算流程为:
104、s51:将节点影响力树中非根节点的语义影响力作为该节点向上连接路径的概率权重;
105、s52:以节点影响力树的根节点为起点,按照概率权重选取每层的遍历路径向下遍历,其中节点影响力树每层只遍历一个节点,直到遍历到节点影响力树的叶子节点;
106、s53:将所遍历节点的结构影响力进行累加求和,并将求和结果与根节点的影响力值相加,得到词汇节点的链接影响力;
107、按照预设的电子文件文本关键词数目u,选取链接影响力最大的u个词汇节点所对应的分词结果作为电子文件文本关键词。
108、可选地,所述s6步骤中将含有共同电子文件文本关键词的电子文件划为一类,并进行电子文件归档,包括:
109、计算不同电子文件的电子文件文本关键词重合率,将重合率高于预设重合阈值的电子文件划为一类,并进行电子文件归档。
110、为了解决上述问题,本发明提供一种电子设备,所述电子设备包括:
111、存储器,存储至少一个指令;
112、通信接口,实现电子设备通信;及
113、处理器,执行所述存储器中存储的指令以实现上述所述的语义分析的电子文件归档分类方法。
114、为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个指令,所述至少一个指令被电子设备中的处理器执行以实现上述所述的语义分析的电子文件归档分类方法。
115、有益效果
116、相对于现有技术,本发明提出一种语义分析的电子文件归档分类方法,该技术具有以下优势:
117、首先,本方案提出一种电子文件文本中词汇的位置结构以及语义信息表征的方法,获取去重后的分词结果序列y,计算得到分词结果序列y中任意分词结果的语义权重,其中分词结果的语义权重计算公式为:
118、
119、
120、
121、
122、
123、其中:表示分词结果的语义权重;表示分词结果的位置信息,表示含有分词结果的句子在电子文件文本中的位置中位数;表示分词结果的共现信息,表示矩阵化表示结果q中的元素值之和,表示矩阵化表示结果q中第m列的元素值之和;表示分词结果的词频信息,表示分词结果在电子文件文本中的出现次数,表示分词结果序列y中所有分词结果在电子文件文本中的平均出现次数,表示表示分词结果序列y中所有分词结果在电子文件文本中的出现次数标准差;表示分词结果的句频信息,表示电子文件文本中的句子总数,表示电子文件文本中存在分词结果的句子数;本方案根据不同分词结果在窗口中共现的频率初始化生成表征不同分词结果共现信息的矩阵化表示结果,并对矩阵化表示结果进行基于特征分解方式的分解重组处理,得到表征不同分词结果位置关联特征的词汇结构网络,并对分解结果进行结合位置信息、词频信息、句频信息的语义编码表示,通过计算不同分解结果编码表示的余弦相似度,构建得到表征分解结果语义关联特征的词汇语义网络,实现电子文件文本中词汇的位置结构以及语义信息表征。
124、同时,本方案提出一种电子文件分类方法,对电子文件文本词汇影响力网络中的每个词汇节点构建节点影响力树,其中电子文件文本词汇影响力网络中的词汇节点集合对应分词结果序列y,则分词结果对应的词汇节点为,词汇节点的节点影响力树的构建流程为:获取k中的第m行矩阵:
125、
126、其中:
127、表示分词结果序列y中分词结果对的影响力;
128、计算得到词汇节点的影响力值:
129、
130、其中:
131、为词汇节点所对应分词结果的结构影响力,表示词汇节点所对应分词结果的语义影响力;
132、将词汇节点作为根节点,根节点的影响力值为;
133、按照所获取第m行矩阵中非k中对角线位置元素的结构影响力,并对矩阵中非k中对角线位置元素进行排序,按照排序顺序,以词汇节点作为根节点,其他元素作为子节点以及叶子节点构建二叉树,得到词汇节点的节点影响力树。基于节点影响力树计算每个词汇节点的链接影响力,其中词汇节点的链接影响力计算流程为:将节点影响力树中非根节点的语义影响力作为该节点向上连接路径的概率权重;以节点影响力树的根节点为起点,按照概率权重选取每层的遍历路径向下遍历,其中节点影响力树每层只遍历一个节点,直到遍历到节点影响力树的叶子节点;将所遍历节点的结构影响力进行累加求和,并将求和结果与根节点的影响力值相加,得到词汇节点的链接影响力;按照预设的电子文件文本关键词数目u,选取链接影响力最大的u个词汇节点所对应的分词结果作为电子文件文本关键词。本方案基于词汇语义网络和词汇结构网络构建电子文件文本词汇影响力网络,并结合词汇对其他词汇的位置关联特征以及语义信息构建得到节点影响力树,并基于节点影响力树计算每个词汇节点的链接影响力,其中所语义关联词汇的位置关联特征、自身语义信息以及位置关联特征越大,则该词汇对电子文件整体位置结构以及语义结构的影响力越大,词汇节点的链接影响力越大,进而选取电子文件文本关键词,基于电子文件文本关键词实现电子文件归档分类。