本发明涉及文本挖掘和计算机信息处理技术领域,尤其涉及一种可视化的自然语言分析挖掘系统及其建模方法。
背景技术:
自然语言处理成为人工智能领域的一个热门研究方向。现有的自然语言处理系统功能较为单一,不能满足客户多元化需求。本发明通过将自然语言处理需要的多种功能模块化,满足用户多元化需求。
技术实现要素:
为解决上述技术问题,本发明的目的是提供一种可视化的自然语言分析挖掘系统及其建模方法。
本发明的目的通过以下的技术方案来实现:
一种可视化的自然语言分析挖掘系统,包括可视化算法组件模块、后台分析模块、存储模块、结果展示模块与模型再训练模块;所述
可视化算法组件模块,用于将用户选择的图形化算法组件拖拽到画布,设计自然语言挖掘分析中的数据流向,并生成描述性语言;
后台分析模块,根据流程设计中的流程描述语言进行拓扑排序解析,构建组件执行顺序序列,解决任务调度过程中数据流转的方向问题;
存储模块,用于将自然语言分析挖掘流程结束后生成的分析结果保存到书库;
结果展示模块,用于对结果数据进行展示并审核;
模型再训练模块,用于对审核通过结果并可反馈给分析模块的数据进行模型的进一步优化训练。
一种可视化的自然语言分析挖掘的建模方法,包括:
a选择预设计的图形化算法组件拖拽至画布构建具体的自然语言分析挖掘流程,确定流程过程中各算法之间的数据流向,生成流程描述语言,并发送请求到后台分析模块;
b后台分析模块对流程dag图进行逻辑解析,采用拓扑排序算法生成组件的调用顺序序列;按照流程描述语言执行具体的挖掘分析逻辑;
c流程技术生成结构化的分析结果,并使用存储模块进行存储;
d对分析结果进行查看并审核;
e对审核后的数据通过用户算法模型再优化训练。
与现有技术相比,本发明的一个或多个实施例可以具有如下优点:
可以实现高效自然语言分析挖掘,生成结构化数据,进行可用有效的知识图谱构建,可以让非技术人员在不进行编码的情况下进行自然语言分析挖掘并对已有的模型进行优化训练。
附图说明
图1是可视化的自然语言分析挖掘的建模方法流程图;
图2是可视化的自然语言分析挖掘的建模模块数据传输结构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合实施例及附图对本发明作进一步详细的描述。
本实施例提供了一种可视化的自然语言分析挖掘系统,包括可视化算法组件模块、后台分析模块、存储模块、结果展示模块与模型再训练模块;所述
可视化算法组件模块,用于将用户选择的图形化算法组件拖拽到画布,设计自然语言挖掘分析中的数据流向,并生成描述性语言;
后台分析模块,根据流程设计中的流程描述语言进行拓扑排序解析,构建组件执行顺序序列,解决任务调度过程中数据流转的方向问题;
存储模块,用于将自然语言分析挖掘流程结束后生成的分析结果保存到书库;
结果展示模块,用于对结果数据进行展示并审核;对准确度较高的结果标记为审核通过;
模型再训练模块,用于对审核通过结果并可反馈给分析模块的数据进行模型的进一步优化训练;结果也能够导入到图数据库中用于后续的知识图谱可视化展示和数据分析。
上述可视化算法组件模块包括文件数据源组件、数据库数据源组件、实体识别组件、关系抽取组件、文本分类组件和文本摘要组件;所述
文件数据源组件。通过上传文件进行数据输入。支持csv,txt,xls,xlsx,pdf,zip,rar等多种格式,并统一转化为csv格式,方便后续数据在各组件之间的流转。
数据库数据源组件,oracle,mysql,kbase等多种数据库。通过etl对数据库中数据进行抽取,并同意生成csv文件,方便后续数据在各组件之间的流转。
实体识别组件。该组件封装了对输入数据中实体进行识别的算法。识别的实体类型包括国家,人物等。该算法是通过调用已经训练好的模型对文本进行识别。模型可持续迭代训练,如将分析结果数据审核后再次输入模型进行优化训练。
关系抽取组件。该组件封装的是对输入数据中的三元组关系进行抽取的算法。该组件进行人物关系,上下位关系等抽取。该算法是通过调用已经训练好的模型对文本中的关系进行抽取。模型可持续迭代训练,如将分析结果数据审核后再次输入模型进行优化训练。
文本分类组件。该组件封装对文本类型进行分类的算法。该算法是通过调用已经训练好的模型对文本进行分类。模型可持续迭代训练,如将分析结果数据审核后再次输入模型进行优化训练。
文本摘要组件。该组件封装对文本数据中心关键文本进行抽取的算法。该算法是通过调用已经训练好的模型对文本进行识别。模型可持续迭代训练,如将分析结果数据审核后再次输入模型进行优化训练。
本实施例还提供了一种可视化的自然语言分析挖掘的建模方法。
如图1所示,为可视化的自然语言分析挖掘的建模方法流程,包括:
步骤10选择预设计的图形化算法组件拖拽至画布构建具体的自然语言分析挖掘流程,确定流程过程中各算法之间的数据流向,生成流程描述语言,并发送请求到后台分析模块;
步骤20后台分析模块对流程dag图进行逻辑解析,采用拓扑排序算法生成组件的调用顺序序列;按照流程描述语言执行具体的挖掘分析逻辑;
dag解析是根据前端配置的node和link数据生成一个有向无环图,然后对图进行拓扑排序,生成组件执行的优先级序列。根据node的配置信息,调用该组件所封装的算法。配置信息是前端组件名称和后台算法的一一映射关系。
步骤30流程技术生成结构化的分析结果,并使用存储模块进行存储;
步骤40对分析结果进行查看并审核;
步骤50对审核后的数据通过用户算法模型再优化训练。可以选择对通过审核的数据输入到已有的自然语言分析挖掘模型中,对模型进行优化训练;也可以选择输入到图数据库中,用于知识图谱的可视化展示。
该自然语言分析挖掘系统在模型的优化训练中,采用gpu并行计算对各自的模型分片进行计算。通过该技术大大加速新模型的生成,形成了快速高效的自然语言挖掘分析闭环生态圈。
可视化流程画布构建,实现一个通过拖拽方式构建自然语言挖掘分析流程的建模模块。在该模块中可以拖拽组件到画布,并用连线将各个组件进行连(如图2所示)。
上述方法通过一系列可视化组件控制,进行自然语言的自动化流程处理,生成结构化的知识图谱。在流程处理上通过对可视化流程进行dag图解析,优化高效地调用对应逻辑进行自然语言处理分析。在计算过程中,合理地分配系统中的cpu和gpu资源,大大地提高了自然语言处理的计算效率。通过可视化的图形化编程,大大降低了自然语言处理的门槛。
虽然本发明所揭露的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。