网络词语采集方法及系统与流程

文档序号:39611890发布日期:2024-10-11 13:21阅读:5来源:国知局
网络词语采集方法及系统与流程

本发明涉及自然语言处理,具体地说是网络词语采集方法及系统。


背景技术:

1、随着互联网的普及和发展,网络语言作为一种独特的表达方式,在人们的网络交流中扮演着越来越重要的角色。网络词语作为网络语言的重要组成部分,不仅反映了社会的变迁和文化的演进,也为自然语言处理、文本挖掘等领域提供了丰富的语料资源。然而,由于网络文本的多样性和动态性,如何有效地采集网络词语成为了一个具有挑战性的问题。

2、目前,已有的网络词语采集方法大多基于规则或模板进行匹配,但这种方式往往难以适应网络词语的不断变化和多样性。同时,基于机器学习的采集方法虽然具有一定的灵活性,但往往需要大量的标注数据进行训练,且对于新出现的网络词语识别能力有限。

3、在无需大量标注的前提下、如何快速及时的从海量额网络文本中识别和提取具有代表性和独特性的网络词语,是需要解决的技术问题。


技术实现思路

1、本发明的技术任务是针对以上不足,提供网络词语采集方法及系统,来解决在无需大量标注的前提下、如何快速及时的从海量额网络文本中识别和提取具有代表性和独特性的网络词语的技术问题。

2、第一方面,本发明一种网络词语采集方法,包括如下步骤:

3、数据采集:通过爬虫技术从多个网络平台中获取网络文本数据,并将网络文本数据存储至本地数据库中;

4、数据预处理:通过自然语言处理工具对网络文本数据集进行预处理,得到预处理后网络文本数据;

5、特征提取及模型训练:以预处理后的网络文本数据为输入、通过当前的词语学习模型预测输出词语特征,并结合当前预处理后网络文本数据以及预测的词语特征对当前的词语学习模型进行模型训练,所述词语学习模型用于以预处理后文本数据为输入,基于深度学习算法预测输出网络文本数据的词语特征;

6、词语筛选:基于输出的词语特征、对输出的词语特征进行筛选和验证,将通过筛选和验证的网络词语存储至网络词语库中;

7、网络词语库更新:定期执行数据采集、数据预处理、特征提取及模型训练、以及词语筛选操作,以更新网络词语库。

8、作为优选,词语特征为统计特征,包括词频和词共关系;

9、基于输出的词语特征、对输出的词语特征进行筛选时,判断对应的网络词语是否存在于网络词语库中,如果不存在,判断网络词语对应的词频是否满足预定要求,以及网络词语对应的词共关系是否符合预定要求,如果基于统计特征网络词语满足预定要求,网络词语通过筛选。

10、作为优选,对网络词语进行筛选后,对于通过筛选的网络词语,通过人工审核的方式进行验证。

11、作为优选,所述词语学习模型为基于卷积神经网络构建的网络模型或者为基于循环神经网络构建的网络模型。

12、作为优选,通过自然语言处理工具对网络文本数据集进行预处理,包括如下步骤:

13、去除冗余信息,包括html标签和标点符号;

14、对去除冗余信息的网络文本数据进行分词操作,得到多个词语;

15、对于得到的词语,去除停用词。

16、第二方面,本发明一种网络词语采集系统,用于通过如第一方面任一项所述的一种网络词语采集方法进行网络词语采集,所述系统包括数据采集模块、数据预处理模块、特征提取及模型训练模块、词语筛选模块以及网络词语库更新模块;

17、数据采集模块用于执行如下:通过爬虫技术从多个网络平台中获取网络文本数据,并将网络文本数据存储至本地数据库中;

18、数据预处理模块用于执行如下:通过自然语言处理工具对网络文本数据集进行预处理,得到预处理后网络文本数据;

19、特征提取及模型训练模块用于执行如下:以预处理后的网络文本数据为输入、通过当前的词语学习模型预测输出词语特征,并结合当前预处理后网络文本数据以及预测的词语特征对当前的词语学习模型进行模型训练,所述词语学习模型用于以预处理后文本数据为输入,基于深度学习算法预测输出网络文本数据的词语特征;

20、词语筛选模块用于执行如下:基于输出的词语特征、对输出的词语特征进行筛选和验证,将通过筛选和验证的网络词语存储至网络词语库中;

21、网络词语库更新模块用于执行如下:定期执行数据采集、数据预处理、特征提取及模型训练、以及词语筛选操作,以更新网络词语库。

22、作为优选,词语特征为统计特征,包括词频和词共关系;

23、基于输出的词语特征、对输出的词语特征进行筛选时,所述词语筛选模块用于执行如下:判断对应的网络词语是否存在于网络词语库中,如果不存在,判断网络词语对应的词频是否满足预定要求,以及网络词语对应的词共关系是否符合预定要求,如果基于统计特征网络词语满足预定要求,网络词语通过筛选。

24、作为优选,对网络词语进行筛选后,对于通过筛选的网络词语,所述词语筛选模块用于通过人工审核的方式进行验证。

25、作为优选,所述词语学习模型为基于卷积神经网络构建的网络模型或者为基于循环神经网络构建的网络模型。

26、作为优选,所述数据预处理模块用于通过自然语言处理工具对网络文本数据集进行如下操作:

27、去除冗余信息,包括html标签和标点符号;

28、对去除冗余信息的网络文本数据进行分词操作,得到多个词语;

29、对于得到的词语,去除停用词。

30、本发明的网络词语采集方法及系统具有以下优点:

31、1、无需大量标注数据,降低了数据准备的难度和成本;

32、2、能够适应网络词语的不断变化和多样性,提高了采集的准确性和灵活性;

33、3、结合深度学习模型,提高了对网络词语的识别能力;

34、4、通过定期更新,能够实时捕捉新出现的网络词语,保证了采集的时效性。



技术特征:

1.一种网络词语采集方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的网络词语采集方法,其特征在于,词语特征为统计特征,包括词频和词共关系;

3.根据权利要求1所述的网络词语采集方法,其特征在于,对网络词语进行筛选后,对于通过筛选的网络词语,通过人工审核的方式进行验证。

4.根据权利要求1所述的网络词语采集方法,其特征在于,所述词语学习模型为基于卷积神经网络构建的网络模型或者为基于循环神经网络构建的网络模型。

5.根据权利要求1所述的网络词语采集方法,其特征在于,通过自然语言处理工具对网络文本数据集进行预处理,包括如下步骤:

6.一种网络词语采集系统,其特征在于,用于通过如权利要求1-5任一项所述的一种网络词语采集方法进行网络词语采集,所述系统包括数据采集模块、数据预处理模块、特征提取及模型训练模块、词语筛选模块以及网络词语库更新模块;

7.根据权利要求6所述的网络词语采集系统,其特征在于,词语特征为统计特征,包括词频和词共关系;

8.根据权利要求6所述的网络词语采集系统,其特征在于,对网络词语进行筛选后,对于通过筛选的网络词语,所述词语筛选模块用于通过人工审核的方式进行验证。

9.根据权利要求6所述的网络词语采集系统,其特征在于,所述词语学习模型为基于卷积神经网络构建的网络模型或者为基于循环神经网络构建的网络模型。

10.根据权利要求6所述的网络词语采集系统,其特征在于,所述数据预处理模块用于通过自然语言处理工具对网络文本数据集进行如下操作:


技术总结
本发明公开了网络词语采集方法及系统,属于自然语言处理技术领域,要解决的技术问题为:在无需大量标注的前提下、如何快速及时的从海量额网络文本中识别和提取具有代表性和独特性的网络词语。包括如下步骤:通过爬虫技术从多个网络平台中获取网络文本数据;通过自然语言处理工具对网络文本数据集进行预处理;以预处理后的网络文本数据为输入、通过当前的词语学习模型预测输出词语特征,并对当前的词语学习模型进行模型训练;对输出的词语特征进行筛选和验证,将通过筛选和验证的网络词语存储至网络词语库中;定期执行数据采集、数据预处理、特征提取及模型训练、以及词语筛选操作,以更新网络词语库。

技术研发人员:王志,崔乐乐,李康康,李仰允
受保护的技术使用者:天元大数据信用管理有限公司
技术研发日:
技术公布日:2024/10/10
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1