一种基于实时文本分析的网络信息收集方法及系统与流程

文档序号:36407515发布日期:2023-12-16 15:59阅读:48来源:国知局
一种基于实时文本分析的网络信息收集方法及系统与流程

本发明涉及实时文本领域,尤其涉及一种基于实时文本分析的网络信息收集方法及系统。


背景技术:

1、网络信息收集技术在实时文本领域的应用越来越广泛,可以帮助网络信息收集的管理者及时、高效地收集网络信息,实现网络信息的收集。目前,网络信息具有文本信息量庞大、数据种类多样、信息密度大等特点,网络信息收集方法存在较多的不确定因素,导致网络信息收集方法存在较大的不确定性。虽然已经发明了一些网络信息收集方法和系统,但是仍不能有效解决网络信息收集方法的不确定问题。


技术实现思路

1、本发明的目的是要提供一种基于实时文本分析的网络信息收集方法及系统。

2、为达到上述目的,本发明是按照以下技术方案实施的:

3、本发明包括以下步骤:

4、a获取实时文本数据,对所述实时文本数据进行预处理,根据预处理后的所述实时文本数据获取第一数据和第二数据,其中:

5、对预处理后的所述实时文本数据进行主题提取,根据所述主题获取文本实体,对所述文本实体进行关键词提取获得第一数据;

6、对预处理后的所述实时文本数据进行句法分析获得第二数据;

7、b计算所述第一数据的相似度和所述第二数据的相似度,对所述第一数据的相似度和所述第二数据的相似度进行加权获得分类目标;

8、c根据所述分类目标构建文本分类模型,将所述实时文本数据输入所述文本分类模型获取分类数据,将分类数据输出为收集的网络信息。

9、进一步的,步骤a中所述预处理包括切分、分词、去停用词、词性标注、去除标点符号、去除数字、去除特殊字符、繁体转换、去除拼音和文本向量化。

10、进一步的,对预处理后的所述实时文本数据进行主题提取的方法,包括:

11、去除预处理后的实时文本数据中的副词、组词和形容词,保留名词构成名词词典:

12、

13、其中名词词典为b,行表示一种所述历史检索数据对应的名词,词典的长度为m,词的个数为n;将名词与词典进行匹配,构造高维的稀疏矩阵;将稀疏矩阵分解为基矩阵和系数矩阵的乘积:

14、nm×n=an×r×ur×m

15、其中列数为r,m长度词典为和n个名词的稀疏矩阵为nm×n,n行r列为的基矩阵为an×r,r列m行的系数矩阵为ur×m,基矩阵是主题的集合,系数矩阵u为匹配的主题词集合,多次迭代,对高维矩阵进行降维,当满足如下条件时停止迭代:

16、||at+1-at||<ε

17、||ut+1-ut||<ε

18、其中迭代次数为t,任意小实数为ε,第t+1次迭代的基矩阵为at+1,第t+1次迭代的系数矩阵为ut+1,第t次迭代的基矩阵为at,第t次迭代的系数矩阵为ut,输出主题词作为提取结果。

19、进一步的,根据所述主题获取文本实体的方法,包括:

20、对所述主题进行编码,采用双流结构、细粒度和粗粒度的单标识掩码标记预测文本,采用改进后的长短期神经网络进行文本实体识别,更新神经元参数:

21、et=σ(rext+qegt-1+be)

22、at=σ(raxt+qagt-1+ba)

23、vt=σ(rvxt+qvgt-1+bv)

24、gt=σt×tanh(ct)

25、其中t时刻的遗忘门为et,t时刻的输入门为at,t时刻的输出门为vt,上一时刻的主题为gt-1,t时刻输入的主题为xt,遗忘门的权重矩阵为re、qe,输入门的权重矩阵为ra、qa,输出门的权重矩阵为rv、qv,遗忘门的偏置为be,输入门的偏置为ba,输出门的偏置为bv,激活函数为σ,上一时刻的隐藏层状态为gt-1,t时刻的激活函数为σt,t时刻的记忆细胞为ct,记忆细胞的双曲正切函数为tanh(ct);

26、对编码后的主题进行分词,采用高效指针解码器排除矩阵坐标中不是实体的首字位置和不是实体的尾字位置,给出编码后的向量序列,根据实体的得分函数与向量序列计算连续序列为c类型实体的得分函数:

27、wc(i,j)=ws(i,j)+(rw)t[xi:xj]

28、其中从i到j的连续序列为实体的得分函数为ws(i,j),序列下标i到j为c类型实体的得分为(rw)t[xi:xj],根据得分进行降序排序,将前三五个输出为文本实体。

29、进一步的,对所述文本实体进行关键词提取获得第一数据的方法,包括:

30、根据关键词计算文本实体的词频:

31、

32、其中文本实体i在实体文本数据j中出现的次数为ti,j,文本实体k在实体文本数据j中出现的次数为tk,j,文本实体的数量为n,计算文本实体的逆文档频率:

33、

34、其中文本数据的信息总数为d,含文本实体i的信息数目为|{j:ti∈di}|,文本实体i的逆文档频率为si,根据词频和逆文档频率获取挑选分数:

35、wi=vi,j*si

36、其中文本实体i的挑选分数为wi,对挑选分数进行降序排序,将前8个文本实体输出为第一数据。

37、进一步的,对预处理后的所述实时文本数据进行句法分析获得第二数据的方法,包括:

38、根据语法规则将预处理后的所述实时文本数据分解成词语,采用基于统计的方法对词语进行语法解析,根据句子词语的语法关系,构建句子的语法结构,分析词语之间的依存关系,将句子的语法结构通过树形结构表示,根据句子的树结构进行树的解析和分析,将进行了输的解析和分析后的实时文本数据输出为第二数据。

39、进一步的,所述第一数据的相似度和所述第二数据的相似度的计算公式为:

40、

41、其中第一数据集合为x,实时文本数据集合为y,第一数据集合平均值为实时文本数据集合的平均值为第i个第一数据为xi,第j个实时文本数据为yj,第一数据数量为n,第二数据数量为m,第一数据i和实时文本数据j的相似度为第二数据的相似度计算同理。

42、进一步的,对所述第一数据的相似度和所述第二数据的相似度进行加权获得分类目标的方法,包括:

43、对第一数据的相似度和第二数据的相似度采用层次分析法和熵值发,获得层次分析计算的权重和熵值法计算的权重,计算第一数据和第二数据对应的综合权数:

44、

45、其中层次分析计算的权重为αj,熵值法计算的权重为βj,第j个相似度的权重为τj,输出权重。

46、进一步的,根据所述分类目标构建文本分类模型基于长短期神经网络构成,将预处理后的所述实时文本数据按照3:2随机划分成训练集和测试集,将所述训练集输入检索匹配模型进行训练,将测试集输入训练好的所述检索匹配模型,不断优化文本分类模型的参数,直到分类目标的准确率和效率皆高于0.91则停止训练。

47、第二方面,一种信息检索装置,包括:

48、数据获取模块:用于获取实时文本数据,对所述实时文本数据进行预处理,根据预处理后的所述实时文本数据获取第一数据和第二数据,其中:

49、对预处理后的所述实时文本数据进行主题提取,根据所述主题获取文本实体,对所述文本实体进行关键词提取获得第一数据;

50、对预处理后的所述实时文本数据进行句法分析获得第二数据;

51、相似度模块:用于计算所述第一数据的相似度和所述第二数据的相似度,对所述第一数据的相似度和所述第二数据的相似度进行加权获得分类目标;

52、收集模块:用于根据所述分类目标构建文本分类模型,将所述实时文本数据输入所述文本分类模型获取分类数据,将分类数据输出为收集的网络信息。

53、本发明的有益效果是:

54、本发明是一种基于实时文本分析的网络信息收集方法,与现有技术相比,本发明具有以下技术效果:

55、本发明通过预处理、获取第一数据和第二数据、构造分类目标和分类步骤,可以提高网络信息收集的准确性,从而提高网络信息收集的精度,将网络信息收集智能化,可以大大节省资源和人力成本,提高工作效率,可以实现对网络信息的自动收集,实时对待处理网络信息进行主题、实体和关键词的提取,对网络信息收集具有重要意义,可以适应不同标准的网络信息收集、不同用户的网络信息收集需求,具有一定的普适性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1