一种基于机器学习和深度学习的中文自然语言处理系统的制作方法

文档序号:32872015发布日期:2023-01-07 04:57阅读:64来源:国知局
一种基于机器学习和深度学习的中文自然语言处理系统的制作方法

1.本发明属于语言处理技术领域,涉及一种基于机器学习和深度学习的中文自然语言处理系统。


背景技术:

2.传统的自然语言处理工具通常基于经典机器学习算法,例如支持向量机和条件随机场,随着深度学习的进步,许多基于深度神经网络模型的研究致力于改进现有自然语言处理算法,其通常将字符和单词信息以分布式表示形式编码用于输入,并且以端到端的训练方式学习自然语言处理任务,最近,越来越多的深度学习算法在自然语言处理任务中取得了优异的表现,一些使用采用最新技术、拥有良好性能的自然语言处理工具被提出,但目前基于机器学习和深度学习,且可选择覆盖多种自然语言处理任务的系统还有待完善,不能根据具体的句法类型进行分类处理,导致其处理效果较差,因此,需要进行改进。


技术实现要素:

3.本发明的目的在于提供一种基于机器学习和深度学习的中文自然语言处理系统,以解决上述背景技术中提出的问题。
4.本发明的目的可通过下列技术方案来实现:一种基于机器学习和深度学习的中文自然语言处理系统,包括:数据获取与处理模块:用于获取待处理中文文本,并将数据处理模块接收的待处理中文文本转换为计算机可读的数据格式文本;数据加工模块:接收数据获取模块转化后的数据格式文本,对数据格式文本进行类型分类,按照特定的数据类型建立格式文本类型数据库,通过设定好的算法模型对数据格式文本进行处理。
5.在上述的一种基于机器学习和深度学习的中文自然语言处理系统中,所述自然语言处理系统还包括算法模型库和数据类型库,并建立算法模型库和数据类型库之间的映射关系。
6.在上述的一种基于机器学习和深度学习的中文自然语言处理系统中,所述算法模型库用于保存自然语言处理任务的算法及根据算法训练得到的算法模型,所述数据类型库包含经过确定的不同特征类型的句子句法。
7.在上述的一种基于机器学习和深度学习的中文自然语言处理系统中,所述算法模型库包含的算法有基于概率统计和深度学习的相似度算法,基于规则解析的特殊词组提取算法,基于依存树和句子结构的句子解析算法,基于深度学习的语义槽与意图识别算法,基于深度学习的文本分类算法,基于机器学习的文本分类算法,基于机器学习的聚类算法,基于深度序列模型的分词、词性标注、命名实体识别算法。
8.在上述的一种基于机器学习和深度学习的中文自然语言处理系统中,所述数据类型库包含主谓句法特征类型、述宾句法特征类型、述补句法特征类型、定中偏正句法特征类
型、同位偏正句法特征类型、状中偏正句法特征类型、连谓句法特征类型和联合句法特征类型。
9.在上述的一种基于机器学习和深度学习的中文自然语言处理系统中,所述数据获取与处理模块包括读写单元、数据格式统一单元、数据处理单元和数据转化单元,其中,读写单元:用于读写各种类型的数据文件,其中数据文件包括:txt文件、json文件、xml文件、csv文件、numpy数据文件、pickle数据文件以及mysql数据库文件;数据格式统一单元,对不同数据格式文件进行统一处理,构建特征映射表,文本内容特征转换;数据处理单元,用于原始文本数据的清洗工作,包括去掉无效字符串、去掉停用词和繁简转换;数据转换单元,通过构建对应词表,将文本字符转换为对应的数据格式文本。
10.在上述的一种基于机器学习和深度学习的中文自然语言处理系统中,数据加工模块包括数据接收单元、句法分类单元、映射管理单元和模型调取与处理单元,其中,数据接收单元:接收经过数据获取与处理模块处理后的数据格式文本;句法分类单元:对数据格式文本进行句法分类,并与数据类型库进行匹配;映射管理单元:对数据类型库、算法模型库以及数据类型库和算法模型库之间的映射关系进行管理,包括删减、增加和排序;模型调取与处理单元:确定句法类型后,根据数据类型库和算法模型库之间的映射关系,调取算法模型库中该数据类型库下排序算法模型,得到三个输出结果,供用户自由选择。
11.与现有技术相比,本发明一种基于机器学习和深度学习的中文自然语言处理系统的优点为:设置数据获取与处理模块和数据加工模块,首先通过数据获取与处理模块对不同数据格式进行统一处理,然后数据加工模块对处理后的格式数据进行分类,确定句法类型后,根据数据类型库和算法模型库之间的映射关系,调取算法模型库中该数据类型库下排序算法模型,进而通过特定的算法模型对该类型文本数据进行处理,有效提高处理的准确率,同时集成多种算法模型处理,使用更加简单高效、方便快捷。
附图说明
12.图1是本发明一种基于机器学习和深度学习的中文自然语言处理系统的结构示意图。
具体实施方式
13.以下是本发明的具体实施例并结合附图,对本发明的技术方案作进一步的描述,但本发明并不限于这些实施例。
14.一种基于机器学习和深度学习的中文自然语言处理系统,包括:数据获取与处理模块:用于获取待处理中文文本,并将数据处理模块接收的待处理中文文本转换为计算机可读的数据格式文本;数据加工模块:接收数据获取模块转化后的数据格式文本,对数据格式文本进行
类型分类,按照特定的数据类型建立格式文本类型数据库,通过设定好的算法模型对数据格式文本进行处理。
15.如图1本发明一种基于机器学习和深度学习的中文自然语言处理系统,所述自然语言处理系统还包括算法模型库和数据类型库,并建立算法模型库和数据类型库之间的映射关系。
16.如图1本发明一种基于机器学习和深度学习的中文自然语言处理系统,所述算法模型库用于保存自然语言处理任务的算法及根据算法训练得到的算法模型,所述数据类型库包含经过确定的不同特征类型的句子句法。
17.如图1本发明一种基于机器学习和深度学习的中文自然语言处理系统,所述算法模型库包含的算法有基于概率统计和深度学习的相似度算法,基于规则解析的特殊词组提取算法,基于依存树和句子结构的句子解析算法,基于深度学习的语义槽与意图识别算法,基于深度学习的文本分类算法,基于机器学习的文本分类算法,基于机器学习的聚类算法,基于深度序列模型的分词、词性标注、命名实体识别算法。
18.如图1本发明一种基于机器学习和深度学习的中文自然语言处理系统,所述数据类型库包含主谓句法特征类型、述宾句法特征类型、述补句法特征类型、定中偏正句法特征类型、同位偏正句法特征类型、状中偏正句法特征类型、连谓句法特征类型和联合句法特征类型。
19.如图1本发明一种基于机器学习和深度学习的中文自然语言处理系统,所述数据获取与处理模块包括读写单元、数据格式统一单元、数据处理单元和数据转化单元,其中,读写单元:用于读写各种类型的数据文件,其中数据文件包括:txt文件、json文件、xml文件、csv文件、numpy数据文件、pickle数据文件以及mysql数据库文件;数据格式统一单元,对不同数据格式文件进行统一处理,构建特征映射表,文本内容特征转换;数据处理单元,用于原始文本数据的清洗工作,包括去掉无效字符串、去掉停用词和繁简转换;数据转换单元,通过构建对应词表,将文本字符转换为对应的数据格式文本。
20.如图1本发明一种基于机器学习和深度学习的中文自然语言处理系统,数据加工模块包括数据接收单元、句法分类单元、映射管理单元和模型调取与处理单元,其中,数据接收单元:接收经过数据获取与处理模块处理后的数据格式文本;句法分类单元:对数据格式文本进行句法分类,并与数据类型库进行匹配;映射管理单元:对数据类型库、算法模型库以及数据类型库和算法模型库之间的映射关系进行管理,包括删减、增加和排序;比如通过映射管理单元对数据类型库和算法模型库内部的数据类型和算法进行删减和增加。
21.模型调取与处理单元:确定句法类型后,根据数据类型库和算法模型库之间的映射关系,调取算法模型库中该数据类型库下排序算法模型,得到三个输出结果,供用户自由选择,三个输出结果是按照映射关系调取的三个不同处理算法模型处理得到的,可并排显示,供用户选择正确性更高的输出结果。
22.本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本文
中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1