基于弹性分布式数据模型的多维度信息提取方法及装置与流程

文档序号:20029650发布日期:2020-02-28 10:13阅读:192来源:国知局
基于弹性分布式数据模型的多维度信息提取方法及装置与流程
本申请涉及数据处理领域,具体而言,涉及一种基于弹性分布式数据模型的多维度信息提取方法及装置。
背景技术
:现有技术中,主流的信息提取方式一般是基于纯语言的技术或者基于浏览器/服务器(browser/server,b/s)架构等轻量级的数据仓库技术(extract-transform-load,etl),这些技术具有容量小、速度慢、灵活性差、数据之间较为独立、没有关联性的问题,不利于后续对提取到的信息进行进一步的处理。技术实现要素:本申请实施例的目的在于提供一种基于弹性分布式数据模型的多维度信息提取方法及装置,用以解决现有技术容量小,提取的数据较为独立、没有关联性的技术问题。为了实现上述目的,本申请实施例所提供的技术方案如下所示:第一方面,本申请实施例提供一种基于弹性分布式数据模型的多维度信息提取方法,包括:获取第一预设格式的数据;其中,所述第一预设格式的数据为根据数据源中的数据得到,所述数据源中的数据包括网页数据以及业务数据;利用弹性分布式数据模型对所述第一预设格式的数据进行数据处理;将数据处理后的数据依据维度进行数据标注;根据数据标注的结果生成数据维度表,以完成对所述第一预设格式的数据的信息提取。因此,可以根据网页数据以及业务数据得到第一预设格式的数据,然后利用弹性分布式数据模型对第一预设格式的数据进行数据处理最终实现对网页数据以及业务数据的信息提取。其中,利用弹性分布式数据模型进行信息提取时,可以对海量的数据进行操作,从而增加信息提取的工作效率;同时,具有强大的复原能力,可以实现多维度的信息提取,从而充分展示数据之间的关联性。在本申请的可选实施例中,所述利用弹性分布式数据模型对所述第一预设格式的数据进行数据处理,包括:将所述第一预设格式的数据通过所述弹性分布式数据模型转化为弹性分布式数据集;对所述弹性分布式数据集进行数据清洗;对数据清洗后的弹性分布式数据集进行数据分解;对分解后的弹性分布式数据集进行实体及属性值去重;对去重后的弹性分布式数据集进行关系及属性关联;对关联后的弹性分布式数据集进行多维度分析。因此,可以利用弹性分布式模型将第一预设格式的数据转化为弹性分布式数据集,由于对大量数据进行分布式运算比常用方法计算同级别量级数据快百倍,所以可以增加信息提取的效率。此外,通过将保存好的数据转化到弹性分布式数据模型中,对数据进行分解、去重关联等分析处理后,可以得到关联性较强的数据。在本申请的可选实施例中,在所述获取第一预设格式的数据之前,所述基于弹性分布式数据模型的多维度信息提取方法还包括:获取所述数据源中的数据;对所述数据源中的数据进行数据格式分类;其中,所述数据源中的数据包括结构化数据、半结构化数据以及非结构化数据;从数据格式分类后的数据中提取所述第一预设格式的数据。因此,第一预设格式的数据可以是根据数据源中的数据得到的,通过对第一预设格式的数据进行提取,可以得到数据源中的数据提取结果,以应用于舆情分析、搜索、推荐系统等领域。在本申请的可选实施例中,所述获取数据源中的数据包括:通过爬虫技术获取所述网页数据;以及,通过驱动获取所述业务数据。因此,数据源中的数据可以包括网页数据以及业务数据,由于其来源不同,所以获取的方式也不相同,可以利用爬虫技术爬取网页以获得网页数据、利用相关驱动采集信息系统中的业务数据。在本申请的可选实施例中,在所述从数据格式分类后的数据中提取所述第一预设格式的数据之前,所述基于弹性分布式数据模型的多维度信息提取方法还包括:利用预先训练好的分词模型对分类得到的非结构化数据以及半结构化数据进行数据分词;对分词后的数据进行依存分析;根据所述依存分析利用依存关系的空间关系抽取算法对数据进行提取。因此,由于非结构化数据以及半结构化数据与有规则的结构化数据不同,其实体关系属性没有明显的关系,为了后续更好的提取信息,可以先对非结构化数据以及半结构化数据进行数据分词以及依存分析,转化为有规则的数据,从而使得最后信息提取的结果更加的准确、关联性更强。在本申请的可选实施例中,在所述利用预先训练好的分词模型对分类得到的非结构化数据以及半结构化数据进行数据分词之前,所述基于弹性分布式数据模型的多维度信息提取方法还包括:获取业务训练样本;利用所述业务训练样本对分词模型进行训练,获得所述预先训练好的分词模型。因此,对非结构化数据以及半结构化数据进行数据分词的分词模型,可以事先利用业务训练样本进行训练,得到预先训练好的分词模型,从而可以提高对非结构化数据以及半结构化数据分词的效果。在本申请的可选实施例中,在所述根据数据标注的结果生成数据维度表之后,所述基于弹性分布式数据模型的多维度信息提取方法还包括:将所述数据维度表保存为第二预设格式的数据,并输出所述第二预设格式的数据。因此,可以将生成的数据维度表保存为预设的格式,以便于利用提取的信息进行后续的数据分析以及数据挖掘。第二方面,本申请实施例提供一种基于弹性分布式数据模型的多维度信息提取装置,包括:第一获取模块,用于获取第一预设格式的数据;其中,所述第一预设格式的数据为根据数据源中的数据得到,所述数据源中的数据包括网页数据以及业务数据;数据处理模块,用于利用弹性分布式数据模型对所述第一预设格式的数据进行数据处理;数据标注模块,用于将数据处理后的数据依据维度进行数据标注;生成模块,用于根据数据标注的结果生成数据维度表,以完成对所述第一预设格式的数据的信息提取。因此,可以根据网页数据以及业务数据得到第一预设格式的数据,然后利用弹性分布式数据模型对第一预设格式的数据进行数据处理最终实现对网页数据以及业务数据的信息提取。其中,利用弹性分布式数据模型进行信息提取时,可以对海量的数据进行操作,从而增加信息提取的工作效率;同时,具有强大的复原能力,可以实现多维度的信息提取,从而充分展示数据之间的关联性。在本申请的可选实施例中,所述数据处理模块还用于:将所述第一预设格式的数据通过所述弹性分布式数据模型转化为弹性分布式数据集;对所述弹性分布式数据集进行数据清洗;对数据清洗后的弹性分布式数据集进行数据分解;对分解后的弹性分布式数据集进行实体及属性值去重;对去重后的弹性分布式数据集进行关系及属性关联;对关联后的弹性分布式数据集进行多维度分析。因此,可以利用弹性分布式模型将第一预设格式的数据转化为弹性分布式数据集,由于对大量数据进行分布式运算比常用方法计算同级别量级数据快百倍,所以可以增加信息提取的效率。此外,通过将保存好的数据转化到弹性分布式数据模型中,对数据进行分解、去重关联等分析处理后,可以得到关联性较强的数据。在本申请的可选实施例中,所述基于弹性分布式数据模型的多维度信息提取装置还包括:第二获取模块,用于获取所述数据源中的数据;数据格式分类模块,用于对所述数据源中的数据进行数据格式分类;其中,所述数据源中的数据包括结构化数据、半结构化数据以及非结构化数据;第一提取模块,用于从数据格式分类后的数据中提取所述第一预设格式的数据。因此,第一预设格式的数据可以是根据数据源中的数据得到的,通过对第一预设格式的数据进行提取,可以得到数据源中的数据提取结果,以应用于舆情分析、搜索、推荐系统等领域。在本申请的可选实施例中,所述第二获取模块还用于:通过爬虫技术获取所述网页数据;以及,通过驱动获取所述业务数据。因此,数据源中的数据可以包括网页数据以及业务数据,由于其来源不同,所以获取的方式也不相同,可以利用爬虫技术爬取网页以获得网页数据、利用相关驱动采集信息系统中的业务数据。在本申请的可选实施例中,所述基于弹性分布式数据模型的多维度信息提取装置还用于:数据分词模块,用于利用预先训练好的分词模型对分类得到的非结构化数据以及半结构化数据进行数据分词;依存分析模块,用于对分词后的数据进行依存分析;第二提取模块,用于根据所述依存分析利用依存关系的空间关系抽取算法对数据进行提取。因此,由于非结构化数据以及半结构化数据与有规则的结构化数据不同,其实体关系属性没有明显的关系,为了后续更好的提取信息,可以先对非结构化数据以及半结构化数据进行数据分词以及依存分析,转化为有规则的数据,从而使得最后信息提取的结果更加的准确、关联性更强。在本申请的可选实施例中,所述基于弹性分布式数据模型的多维度信息提取装置还包括:第三获取模块,用于获取业务训练样本;训练模块,用于利用所述业务训练样本对分词模型进行训练,获得所述预先训练好的分词模型。因此,对非结构化数据以及半结构化数据进行数据分词的分词模型,可以事先利用业务训练样本进行训练,得到预先训练好的分词模型,从而可以提高对非结构化数据以及半结构化数据分词的效果。在本申请的可选实施例中,所述基于弹性分布式数据模型的多维度信息提取装置还包括:保存模块,用于将所述数据维度表保存为第二预设格式的数据,并输出所述第二预设格式的数据。因此,可以将生成的数据维度表保存为预设的格式,以便于利用提取的信息进行后续的数据分析以及数据挖掘。第三方面,本申请实施例提供一种电子设备,包括:处理器、存储器和总线;所述处理器和所述存储器通过所述总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如第一方面中的基于弹性分布式数据模型的多维度信息提取方法。第四方面,本申请实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行第一方面中的基于弹性分布式数据模型的多维度信息提取方法。为使本申请的上述目的、特征和优点能更明显易懂,下文特举本申请实施例,并配合所附附图,作详细说明如下。附图说明为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。图1为本申请实施例提供的一种基于弹性分布式数据模型的多维度信息提取方法的流程图;图2为本申请实施例提供的步骤s102的具体实施方式的流程图;图3为本申请实施例提供的另一种基于弹性分布式数据模型的多维度信息提取方法的流程图;图4为本申请实施例提供的另一种基于弹性分布式数据模型的多维度信息提取方法的流程图;图5为本申请实施例提供的一种训练分词模型的流程图;图6为本申请实施例提供的一种基于弹性分布式数据模型的多维度信息提取装置的结构框图;图7为本申请实施例提供的一种电子设备的结构框图。具体实施方式下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。随着互联网技术的快速发展,诞生了人工智能等多种类型的新兴技术,更多的企业为了自身的利益,顺应时代的发展,开展了人工智能业务。其中,涉及人工智能的相关业务避免不了对数据的分析提取。当前主流的信息提取技术都是基于纯语言,具有容量小、速度慢、灵活性差、数据之间较为独立、没有关联性等问题;或者,基于浏览器/服务器(browser/server,b/s)架构等轻量级的数据仓库(extract-transform-load,etl)采集工具,通过多种数据源,如数据库、文本文件、webservice等,同样的,存在难以适用于大规模数据、处理速度缓慢、很难实现多维度信息提取和复原能力,以致工作效率低下的问题,同时提取出的结果较为单一、数据之间关联性较差、对分析数据的完整性和多样性存在不足。基于上述分析,申请人提供了一种基于弹性分布式数据模型的多维度信息提取方法,该方法通过弹性分布式数据模型可以实现对海量数据进行操作,并且具有强大的复原能力,可实现多维度信息提取等高灵活度数据操作,有利用大幅增加工作效率,充分展示数据之间的关联性和完整性。下面对本申请实施例提供的基于弹性分布式数据模型的多维度信息提取方法进行详细的介绍。请参照图1,图1为本申请实施例提供的一种基于弹性分布式数据模型的多维度信息提取方法的流程图,该基于弹性分布式数据模型的多维度信息提取方法可以包括如下步骤:步骤s101:获取第一预设格式的数据。步骤s102:利用弹性分布式数据模型对第一预设格式的数据进行数据处理。步骤s103:将数据处理后的数据依据维度进行数据标注。步骤s104:根据数据标注的结果生成数据维度表,以完成对第一预设格式的数据的信息提取。具体的,在进行信息提取时,可以利用服务器对多种数据进行信息提取,例如:网页数据、业务数据等。换句话说,首先服务器可以获取第一预设格式的数据,其中,第一预设格式的数据可以为根据数据源中的数据得到,而数据源中的数据可以包括网页数据以及业务数据。需要说明的是,本申请实施例对第一预设格式同样不作具体的限定,例如,第一预设格式可以为三元组格式、数据库表格式、csv格式等规律性较强的格式。其中,为了使后续提取信息的过程更加方便,上述第一预设格式可以选择比较规范的数据格式。服务器获取第一预设格式的数据的方式有多种,例如:服务器自身通过数据源中的数据得到第一预设格式的数据,或者,服务器接收其他服务器、其他外部设备发送的第一预设格式的数据等,本申请对此不作具体的限定,本领域技术人员可以根据实际情况进行合适的选择。此外,通过数据源中的数据得到第一预设格式的数据的过程将在后续实施例中进行详细的叙述,此处暂不介绍。举例来说,三元组是指形如((x,y),z)的集合,常简记为(x,y,z),对于在实际问题中出现的大型的稀疏矩阵,若用常规分配方法在计算机中储存,将会产生大量的内存浪费,而且在访问和操作的时候也会造成大量时间上的浪费,然而由于其自身的稀疏特性,可以通过将非零元素所在的行、列以及它的值构成一个三元组(x,y,z),然后再按某种规律存储这些三元组,这种方法既可以节约存储空间,在信息提取中,将数据源中的数据提取成三元组还可以算作一个初步的数据清洗,更利于后续的工作。在获取到第一预设格式的数据之后,可以利用弹性分布式数据模型对第一预设格式的数据进行数据处理。其中,利用弹性分布式数据模型对第一预设格式的数据进行数据处理的具体过程同样将在后续实施例中进行详细的叙述,此处暂不介绍。在利用弹性分布式数据模型对第一预设格式的数据进行数据处理之后,根据处理结果对处理后的数据依据维度进行数据标注。其中,进行数据标注依据的维度可以根据需求不同而发生改变,例如:假设数据源中的数据是旅行社的参团名单,当需要获取提取的信息中包括参团人员的姓名及其性别时,则可以对处理后的数据中的姓名以及性别进行分别的标注。另外,属于同一维度的数据可以分别进行标记,以便后续根据标注的维度生成数据维度表,该数据维度表即为对数据进行信息提取的结果。在本申请实施例中,可以根据网页数据以及业务数据得到第一预设格式的数据,然后利用弹性分布式数据模型对第一预设格式的数据进行数据处理最终实现对网页数据以及业务数据的信息提取。其中,利用弹性分布式数据模型进行信息提取时,可以对海量的数据进行操作,从而增加信息提取的工作效率;同时,具有强大的复原能力,可以实现多维度的信息提取,从而充分展示数据之间的关联性。进一步的,请参照图2,图2为本申请实施例提供的步骤s102的具体实施方式的流程图,步骤s102可以包括如下步骤:步骤s201:将第一预设格式的数据通过弹性分布式数据模型转化为弹性分布式数据集。步骤s202:对弹性分布式数据集进行数据清洗。步骤s203:对数据清洗后的弹性分布式数据集进行数据分解。步骤s204:对分解后的弹性分布式数据集进行实体及属性值去重。步骤s205:对去重后的弹性分布式数据集进行关系及属性关联。步骤s206:对关联后的弹性分布式数据集进行多维度分析。具体的,在利用弹性分布式数据模型对第一预设格式的数据进行数据处理时,首先可以利用弹性分布式数据模型将上述获取得到的第一预设格式的数据转化为弹性分布式数据集。其中,目前的mapreduce框架都是把中间结果写入到分布式文件系统(hadoopdistributedfilesystem,hdfs)中,带来了大量的数据复制、磁盘输入/输出(input/output,i/o)和序列化的开销。而基于弹性分布式数据模型的分区列表、单独分区计算函数和本地优先算法,使用弹性分布式数据模型在内存中对大量数据进行分布式运算比常用方法计算同级别量级数据快百倍。同时,弹性分布式数据模型提供了一个抽象的数据架构,使得在利用该模型进行数据处理的过程中不用担心底层数据的分布式特性,只需将具体的应用逻辑表达为一系列转换处理,将处理的数据转化为弹性分布式数据集(resilientdistributeddataset,rdd)。而不同的rdd之间的转换操作形成依赖关系,可以实现管道化,从而避免了中间结果的存储,大大降低了数据复制、磁盘i/o和序列化开销。此外,弹性分布式数据模型具有的rdd依赖关系、key-value数据类型分区算法等优秀特性,实现了完整的作业调度、内存管理、容错机制和存储系统交互等优秀功能。因此,可以利用弹性分布式数据模型将第一预设格式的数据转化为对应的rdd,然后对数据进行数据清洗、数据分解、实体及属性值去重、关系及属性关联、多维度分析等,以完成对第一预设格式的数据的处理。下面以三元组格式数据“中国,中文名称,中国”以及“中国,英文名称,china”为例对利用弹性分布式数据模型对第一预设格式的数据进行数据处理的过程中,实体、属性、属性值、关系的意思进行说明:在“中国,中文名称,中国”中,第一个“中国”为第一实体,“中文名称”为关系,第二个“中国”为第二实体;在“中国,英文名称,china”中,“中国”为实体,“英文名称”为属性,“china”为属性值。基于上述说明,在数据清洗的过程中,可以去除无效数据、去除空字段数据、去除重复数据等。在数据分解过程中,可以将处理的数据根据不同的结构类型分为架构化数据、半结构化数据、非结构化数据,还可以根据数据的维度、实体、属性值等进行分解等。在实体及属性值去重的过程中,可以对分解后的数据中,重复的实体及属性值进行去重,例如:分解后的数据中存在两个“中国”,那么,去重后的数据中只存在一个“中国”。在关系及属性关联的过程中,“中国”可以与“中文名称”、“英文名称”以及“china”相关联。在多维度分析的过程中,在弹性分布式数据集中进行上述分析得到结果并依据指定需求将结果放入不同数据集中。在本申请实施例中,可以利用弹性分布式模型将第一预设格式的数据转化为弹性分布式数据集,由于对大量数据进行分布式运算比常用方法计算同级别量级数据快百倍,所以可以增加信息提取的效率。此外,通过将保存好的数据转化到弹性分布式数据模型中,对数据进行分解、去重关联等分析处理后,可以得到关联性较强的数据。进一步的,请参照图3,图3为本申请实施例提供的另一种基于弹性分布式数据模型的多维度信息提取方法的流程图,在步骤s101之前,上述基于弹性分布式数据模型的多维度信息提取方法还可以包括如下步骤:步骤s301:获取数据源中的数据。步骤s302:对数据源中的数据进行数据格式分类。步骤s303:从数据格式分类后的数据中提取第一预设格式的数据。具体的,上述步骤s101中获取的第一预设格式的数据可以根据数据源中的数据得到。其中,数据源中的数据按照结构划分可以包括结构化数据、半结构化数据以及非结构化数据,结构化数据是有规则的实体关系属性和实体属性属性值相关的数据,而半结构化数据以及非结构化数据是无明显关系的数据。举例来说,“姚明非常喜欢篮球”是一个非结构化数据,而mysql表、csv,xml等数据格式规整的数据则是结构化数据,例如表1中的数据。表1结构化数据id姓名职业1王学生2刘工人依据上述数据源中的数据类型,可以将数据源中的数据分为结构化数据以及半结构化数据与非结构化数据两类数据,然后分别从结构化数据以及半结构化数据与非结构化数据中提取出步骤s101中的第一预设格式的数据。其中,结构化数据与半结构化数据以及非结构化数据由于其源头不同,因此获取的方式也不相同。作为一种实施方式,半结构化数据以及非结构化数据包括网页数据,通常来源于网站;结构化数据包括业务数据,通常来源于信息系统,在该种情况下,步骤s301可以包括如下步骤:通过爬虫技术获取网页数据,以及通过驱动获取业务数据。在本申请实施例中,第一预设格式的数据可以是根据数据源中的数据得到的,通过对第一预设格式的数据进行提取,可以得到数据源中的数据提取结果,以应用于舆情分析、搜索、推荐系统等领域。进一步的,请参照图4,图4为本申请实施例提供的另一种基于弹性分布式数据模型的多维度信息提取方法的流程图,在步骤s303之前,上述基于弹性分布式数据模型的多维度信息提取方法还可以包括如下步骤:步骤s401:利用预先训练好的分词模型对得到的非结构化数据以及半结构化数据进行数据分词。步骤s402:对分词后的数据进行依存分析。步骤s403:根据依存分析利用依存关系的空间关系抽取算法对数据进行提取。具体的,针对结构化数据,可以简单的提取出第一预设格式的数据,以从表1中的结构化数据提取出三元组结构的数据为例,提取的数据为“王,id,1”、“王,姓名,王”、“王,职业,学生”。而针对半结构化数据与非结构化数据,在获取到数据后,需要对半结构化数据与非结构化数据进行相应的处理之后,才可以提取出第一预设格式的数据。下面同样以“姚明非常喜欢篮球”为例对步骤s401-步骤s403进行说明。首先,可以利用预先训练好的分词模型对分类得到的非结构化数据以及半结构化数据进行数据分词,即将数据中的词语区分开,分词之后的数据为“姚明,非常,喜欢,篮球”。分词之后,可以对数据进行依存分析,即分析分词后的词语中的主语、状语、谓语、宾语等,依存分析之后的数据为“主语:姚明,状语:非常,谓语:喜欢,宾语:篮球”。依存分析之后,可以利用依存关系的空间关系抽取算法对数据进行提取,即根据各个词语之间的关系对数据进行提取,提取之后的数据为“姚明,喜欢,篮球”。以提取出三元组格式的数据为例“姚明非常喜欢篮球”最终提取为第一预设格式的数据为“姚明,喜欢,篮球”。在本申请实施例中,由于非结构化数据以及半结构化数据与有规则的结构化数据不同,其实体关系属性没有明显的关系,为了后续更好的提取信息,可以先对非结构化数据以及半结构化数据进行数据分词以及依存分析,转化为有规则的数据,从而使得最后信息提取的结果更加的准确、关联性更强。进一步的,请参照图5,图5为本申请实施例提供的一种训练分词模型的流程图,在步骤s401之前,上述基于弹性分布式数据模型的多维度信息提取方法还可以包括如下步骤:步骤s501:获取业务训练样本。步骤s502:利用业务训练样本对分词模型进行训练,获得预先训练好的分词模型。具体的,在对非结构化数据以及半结构化数据进行分词的过程中,可以利用预先训练好的分词模型实现分词的功能。而在使用上述分词模型之前,需要先对分词模型进行训练,以得到适用于对应场景的训练好的分词模型。训练的过程中,首先可以获取业务训练样本。由于业务数据是数据格式规整的数据,因此大部分业务数据可以理解为已经分词完成的数据,将获取到的业务训练样本输入分词模型中,经过大规模样本的训练,最终可以得到一个较为准确的分词模型,可以应用在本申请实施例中。在本申请实施例中,对非结构化数据以及半结构化数据进行数据分词的分词模型,可以事先利用业务训练样本进行训练,得到预先训练好的分词模型,从而可以提高对非结构化数据以及半结构化数据分词的效果。进一步的,在步骤s104之后,上述基于弹性分布式数据模型的多维度信息提取方法还可以包括如下步骤:将数据维度表保存为第二预设格式的数据,并输出第二预设格式的数据。具体的,在获取到数据维度表之后,可以将上述数据维度表保存为第二预设格式的数据,本申请实施例对第二预设格式同样不作具体的限定,可以为csv、text、json等,本领域技术人员可以根据实际情况进行合适的选择。需要说明的是,此处的第二预设格式与步骤s101中的第一预设格式没有必然的联系,第一预设格式与第二预设格式可以是一样的,例如:三元组格式,也可以是不一样的。在将数据保存为第二预设格式的数据之后,则保存的数据即为从最初数据源中的数据中提取到的多维度的信息。并且,在后续的数据分析过程中,可以利用上述方法中提取到的信息进行舆情分析、搜索、推荐系统等。在本申请实施例中,可以将生成的数据维度表保存为预设的格式,以便于利用提取的信息进行后续的数据分析以及数据挖掘。进一步的,在步骤s302中对数据进行格式分类的同时,还可以对数据的性质进行分类,例如:军事类、娱乐类等,以便后续在应用提取到的信息时,可以结合性质进行分析。进一步的,为了更清楚的说明本申请实施例提供的基于弹性分布式数据模型的多维度信息提取方法,下面介绍一个较为完整的执行流程:第一步,采集网络中现有的数据以及现有业务数据。第二步,对第一步中采集的数据进行数据格式分类。第三步,针对非结构化数据以及结构化数据,利用预训练好的模型对数据进行分词,然后对分词后的数据进行依存分词,然后利用依存关系的空间关系抽取算法提取数据。第四步,从结构化数据中或者非结构化数据以及结构化数据提取的数据中提取三元组格式数据。第五步,加载弹性分布式数据模型以及三元组格式数据。第六步,利用弹性分布式数据模型将三元组格式数据转化为弹性分布式数据集。第七步,对弹性分布式数据集进行数据清洗(去重、过滤、校验等),然后对清洗后的数据进行三元组数据分解,然后对分解后的数据进行实体及属性值去重,然后对去重后的数据进行关系及属性关联,然后对关联后的数据进行多维度分析。第八步,根据多维度分析的结果依据维度随数据进行标注。第九步,生成维度表。第十步,保存为csv、text、json等格式。请参照图6,图6为本申请实施例提供的一种基于弹性分布式数据模型的多维度信息提取装置的结构框图,该基于弹性分布式数据模型的多维度信息提取装置600可以包括:第一获取模块601,用于获取第一预设格式的数据;其中,所述第一预设格式的数据为根据数据源中的数据得到,所述数据源中的数据包括网页数据以及业务数据;数据处理模块602,用于利用弹性分布式数据模型对所述第一预设格式的数据进行数据处理;数据标注模块603,用于将数据处理后的数据依据维度进行数据标注;生成模块604,用于根据数据标注的结果生成数据维度表,以完成对所述第一预设格式的数据的信息提取。在本申请实施例中,可以根据网页数据以及业务数据得到第一预设格式的数据,然后利用弹性分布式数据模型对第一预设格式的数据进行数据处理最终实现对网页数据以及业务数据的信息提取。其中,利用弹性分布式数据模型进行信息提取时,可以对海量的数据进行操作,从而增加信息提取的工作效率;同时,具有强大的复原能力,可以实现多维度的信息提取,从而充分展示数据之间的关联性。进一步的,所述数据处理模块602还用于:将所述第一预设格式的数据通过所述弹性分布式数据模型转化为弹性分布式数据集;对所述弹性分布式数据集进行数据清洗;对数据清洗后的弹性分布式数据集进行数据分解;对分解后的弹性分布式数据集进行实体及属性值去重;对去重后的弹性分布式数据集进行关系及属性关联;对关联后的弹性分布式数据集进行多维度分析。在本申请实施例中,可以利用弹性分布式模型将第一预设格式的数据转化为弹性分布式数据集,由于对大量数据进行分布式运算比常用方法计算同级别量级数据快百倍,所以可以增加信息提取的效率。此外,通过将保存好的数据转化到弹性分布式数据模型中,对数据进行分解、去重关联等分析处理后,可以得到关联性较强的数据。进一步的,所述基于弹性分布式数据模型的多维度信息提取装置600还包括:第二获取模块,用于获取所述数据源中的数据;数据格式分类模块,用于对所述数据源中的数据进行数据格式分类;其中,所述数据源中的数据包括结构化数据、半结构化数据以及非结构化数据;第一提取模块,用于从数据格式分类后的数据中提取所述第一预设格式的数据。在本申请实施例中,第一预设格式的数据可以是根据数据源中的数据得到的,通过对第一预设格式的数据进行提取,可以得到数据源中的数据提取结果,以应用于舆情分析、搜索、推荐系统等领域。进一步的,所述第二获取模块还用于:通过爬虫技术获取所述网页数据;以及,通过驱动获取所述业务数据。在本申请实施例中,数据源中的数据可以包括网页数据以及业务数据,由于其来源不同,所以获取的方式也不相同,可以利用爬虫技术爬取网页以获得网页数据、利用相关驱动采集信息系统中的业务数据。进一步的,所述基于弹性分布式数据模型的多维度信息提取装置600还用于:数据分词模块,用于利用预先训练好的分词模型对分类得到的非结构化数据以及半结构化数据进行数据分词;依存分析模块,用于对分词后的数据进行依存分析;第二提取模块,用于根据所述依存分析利用依存关系的空间关系抽取算法对数据进行提取。在本申请实施例中,由于非结构化数据以及半结构化数据与有规则的结构化数据不同,其实体关系属性没有明显的关系,为了后续更好的提取信息,可以先对非结构化数据以及半结构化数据进行数据分词以及依存分析,转化为有规则的数据,从而使得最后信息提取的结果更加的准确、关联性更强。进一步的,所述基于弹性分布式数据模型的多维度信息提取装置600还包括:第三获取模块,用于获取业务训练样本;训练模块,用于利用所述业务训练样本对分词模型进行训练,获得所述预先训练好的分词模型。在本申请实施例中,对非结构化数据以及半结构化数据进行数据分词的分词模型,可以事先利用业务训练样本进行训练,得到预先训练好的分词模型,从而可以提高对非结构化数据以及半结构化数据分词的效果。进一步的,所述基于弹性分布式数据模型的多维度信息提取装置600还包括:保存模块,用于将所述数据维度表保存为第二预设格式的数据,并输出所述第二预设格式的数据。在本申请实施例中,可以将生成的数据维度表保存为预设的格式,以便于利用提取的信息进行后续的数据分析以及数据挖掘。请参照图7,图7为本申请实施例提供的一种电子设备的结构框图,该电子设备包括:至少一个处理器701,至少一个通信接口702,至少一个存储器703和至少一个通信总线704。其中,通信总线704用于实现这些组件直接的连接通信,通信接口702用于与其他节点设备进行信令或数据的通信,存储器703存储有处理器701可执行的机器可读指令。当电子设备运行时,处理器701与存储器703之间通过通信总线704通信,机器可读指令被处理器701调用时执行上述基于弹性分布式数据模型的多维度信息提取方法。例如,本申请实施例的处理器701通过通信总线704从存储器703读取计算机程序并执行该计算机程序可以实现如下方法:步骤s101:获取第一预设格式的数据。步骤s102:利用弹性分布式数据模型对第一预设格式的数据进行数据处理。步骤s103:将数据处理后的数据依据维度进行数据标注。步骤s104:根据数据标注的结果生成数据维度表,以完成对第一预设格式的数据的信息提取。在一些示例中,处理器701还可以对非结构数据以及半结构化数据进行处理,也就是说,可以执行如下步骤:步骤s401:利用预先训练好的分词模型对分类得到的非结构化数据以及半结构化数据进行数据分词。步骤s402:对分词后的数据进行依存分析。步骤s403:根据依存分析利用依存关系的空间关系抽取算法对数据进行提取。处理器701可以是一种集成电路芯片,具有信号处理能力。上述处理器701可以是通用处理器,包括中央处理器(centralprocessingunit,cpu)、网络处理器(networkprocessor,np)等;还可以是数字信号处理器(digitalsignalprocessing,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现成可编程门阵列(field-programmablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。其可以实现或者执行本申请实施例中公开的各种方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。存储器703可以包括但不限于随机存取存储器(randomaccessmemory,ram),只读存储器(readonlymemory,rom),可编程只读存储器(programmableread-onlymemory,prom),可擦除只读存储器(erasableprogrammableread-onlymemory,eprom),电可擦除只读存储器(electricerasableprogrammableread-onlymemory,eeprom)等。可以理解,图7所示的结构仅为示意,电子设备还可包括比图7中所示更多或者更少的组件,或者具有与图7所示不同的配置。图7中所示的各组件可以采用硬件、软件或其组合实现。于本申请实施例中,电子设备可以是,但不限于台式机、笔记本电脑、智能手机、智能穿戴设备、车载设备等实体设备,还可以是虚拟机等虚拟设备。另外,电子设备也不一定是单台设备,还可以是多台设备的组合,例如服务器集群,等等。于本申请实施例中,基于弹性分布式数据模型的多维度信息提取方法中的服务器可以采用图7示出的电子设备实现。本申请实施例还提供一种计算机程序产品,包括存储在非暂态计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令被计算机执行时,计算机能够执行上述实施例中基于弹性分布式数据模型的多维度信息提取方法的步骤,例如包括:获取第一预设格式的数据;其中,所述第一预设格式的数据为根据数据源中的数据得到,所述数据源中的数据包括网页数据以及业务数据;利用弹性分布式数据模型对所述第一预设格式的数据进行数据处理;将数据处理后的数据依据维度进行数据标注;根据数据标注的结果生成数据维度表,以完成对所述第一预设格式的数据的信息提取。在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。另外,作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。再者,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1