本发明涉及数据处理技术领域,尤其涉及一种数据挖掘方法及装置。
背景技术:
随着互联网在全球范围内的飞速发展,互联网每日都会产生数以万计的数据,为了从这些数据中获取有价值的信息,则需要对这些数据进行有效的挖掘。其中,数据挖掘又称数据库中的知识发现(Knowledge Discover in Database,KDD),是目前人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。
目前,在对网络中各种数据进行整体挖掘时,由于网络中的各种数据对应的行业或维度不同,因此在对数据进行挖掘时会存在行业或维度等干扰信息,从而造成挖掘的数据无法达到预期效果,进而现有的数据挖掘方法挖掘的数据准确率低。
技术实现要素:
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的
为达到上述目的,本发明主要提供如下技术方案:
一方面,本发明实施例提供了一种数据挖掘方法,该方法包括:
提取行业特征信息,所述行业特征信息是从所述待挖掘数据中提取的多个词语;
将所述行业特征信息和预置行业知识库中各个行业的行业信息分别进行匹配,所述预置行业知识库中保存有与各个行业的分别对应的行业信息;
获取与所述行业特征信息匹配度最高的行业;
根据所述获取的行业,对所述待挖掘数据进行数据挖掘。
另一方面,本发明实施例还提供一种数据挖掘装置,该装置包括:
提取单元,用于提取行业特征信息,所述行业特征信息是从所述待挖掘数据中提取的多个词语;
匹配单元,用于将所述行业特征信息和预置行业知识库中各个行业的行业信息分别进行匹配,所述预置行业知识库中保存有与各个行业的分别对应的行业信息;
获取单元,用于获取与所述行业特征信息匹配度最高的行业;
挖掘单元,用于根据所述获取的行业,对所述待挖掘数据进行数据挖掘。
借由上述技术方案,本发明实施例提供的技术方案至少具有下列优点:
本发明实施例提供的一种数据挖掘方法及装置,首先从待挖掘数据中提取行业特征信息,所述行业特征信息是从所述待挖掘数据中提取的多个词语,然后将所述行业特征信息和预置行业知识库中各个行业的行业信息分别进行匹配,所述预置行业知识库中保存有与各个行业分别对应的行业信息,获取与所述行业特征信息匹配度最高的行业,最后根据所述获取的行业,对所述待挖掘数据进行数据挖掘。与目前对网络中各种数据进行整体挖掘相比,本发明首先从待挖掘数据中提取行业特征信息,然后将所述行业特征信息和预置行业知识库中各个行业的行业信息分别进行匹配,从中获取与所述行业特征信息匹配度最高的行业,最后根据所述获取的行业,对所述待挖掘数据进行数据挖掘,从而实现了根据待挖掘数据对应的行业对待挖掘数据的挖掘,进而提高了数据挖掘的准确性。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目 的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本发明实施例提供的一种数据挖掘方法流程图;
图2为本发明实施例提供的另一种数据挖掘方法流程图;
图3为本发明实施例提供的一种数据挖掘装置的组成框图;
图4为本发明实施例提供的另一种数据挖掘装置的组成框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
为使本发明技术方案的优点更加清楚,下面结合附图和实施例对本发明作详细说明。
本发明实施例提供了一种数据挖掘方法,如图1所示,所述方法包括:
S101、提取行业特征信息。
其中,所述行业特征信息是从所述待挖掘数据中提取的多个词语。在本发明实施例中,所述行业特征信息用于表示待挖掘数据所对应的实际意义,具体可以为名词、形容词等,本发明实施例不做具体限定。
需要说明的是,从待挖掘数据中提取行业特征信息的过程具体可以如下所示:首先需要对待挖掘数据进行分词,然后可通过NLP(神经语言程序学)技术对待挖掘数据中划分的词进行分析,去除待挖掘数据中一些没有实际意义的词语,以及语法错误的词语,最后将待挖掘中剩下的词语确定为行业特征信息。在本发明实施例中,从待挖掘数据中提取行业特征信息,是为了在后续步骤中通过所述行业特征信息确定待挖掘数据所对应的行业。
S102、将所述行业特征信息和预置行业知识库中各个行业的行业信息分别进行匹配。
其中,所述预置行业知识库中保存有与各个行业分别对应的行业信息。所述预置行业知识库可以根据实际行业分类需求建立,也可以根据用户对行业分类的需求建立,本发明实施例不做具体限定。需要说明的是,预置行业知识库中保存的各个行业的行业信息,具体可以包括产品信息、公司信息、人物信息等一列列主体关联关系的信息,本发明实施例不做具体限定。
在本发明实施例中,将行业特征信息和预置知识行业库中各个行业的行业信息分别进行匹配,即分别计算行业特征信息和预置知识行业库中各个行业的行业信息的相似度。例如,行业特征信息的内容具体为中国人民银行、金融、人民币、发行、假币、等特征信息,则需要将这些特征信息和预置行业知识库中各个行业的行业信息进行匹配,经过匹配得到匹配度最高的行业。对于本发明实施例,将所述行业特征信息和预置行业知识库中各个行业的行业信息分别进行匹配,是为了确定待挖掘数据所对应的行业,然后可在后续步骤中根据待挖掘数据的行业对待挖掘数据进行挖掘,从而实现了待挖掘数据的挖掘结果符合待挖掘数据的行业特性,进而提高了数据挖掘的准确性。
S103、获取与所述行业特征信息匹配度最高的行业。
例如,所述行业特征信息是有由关于证券、基金、期货、银行、上市公司等信息,则经过将所述行业特征信息和预置行业知识库中各个行业的行业信息分别进行匹配,发现该行业特征信息和金融行业的匹配度为50%、和银行行业的匹配度为90%、和投资行业的匹配度为40%,则获取与所述行业特征信息匹配度最高的行业为银行行业。
S104、根据所述获取的行业,对所述待挖掘数据进行数据挖掘。
对于本发明实施例,首先从待挖掘数据中提取行业特征信息,然后将所述行业特征信息和预置行业知识库中各个行业的行业信息分别进行匹配,所述预置行业知识库中保存有与各个行业分别对应的行业信息,获取与所述行业特征信息匹配度最高的行业,最后根据所述获取的行业,对所述待挖掘数据进行数据挖掘。从而实现了待挖掘数据的挖掘结果符合待挖掘数据对应的行业特征,进而提高了数据挖掘的准确性。
本发明实施例提供的一种数据挖掘方法,首先从待挖掘数据中提取行业特征信息,所述行业特征信息是从所述待挖掘数据中提取的多个词语,然后将所述行业特征信息和预置行业知识库中各个行业的行业信息分别进行匹配,所述预置行业知识库中保存有与各个行业分别对应的行业信息,获取与所述行业特征信息匹配度最高的行业,最后根据所述获取的行业,对所述待挖掘数据进行数据挖掘。与目前对网络中各种数据进行整体挖掘相比,本发明首先从待挖掘数据中提取行业特征信息,然后将所述行业特征信息和预置行业知识库中各个行业的行业信息分别进行匹配,从中获取与所述行业特征信息匹配度最高的行业,最后根据所述获取的行业,对所述待挖掘数据进行数据挖掘,从而实现了根据待挖掘数据对应的行业对待挖掘数据的挖掘,进而提高了数据挖掘的准确性。
本发明实施例提供了另一种数据挖掘方法,如图2所示,所述方法包括:
S201、从待挖掘数据中提取行业特征信息。
其中,所述行业特征信息是从所述待挖掘数据中提取的多个词语。在本发明实施例中,所述行业特征信息用于表示待挖掘数据所对应的实际意义,具体可以为名词、形容词等,本发明实施例不做具体限定。
对于本发明实施例,步骤S201包括:对所述待挖掘数据进行分词;按照预置过滤规则对所述待挖掘数据中的词语进行过滤;将所述待挖掘数据中过滤后的各个词语确定为所述行业特征信息。其中,所述预置过滤规则可以根据实际情况进行设定,也可以由系统默认配置,如可以根据NLP(神经语言程序学)技术对分词后的待挖掘数据进行分析,过滤掉待挖掘数据中的一些没有实际意义及语法错误的词语,本发明实施例不做具体限定。将所述待挖掘数据中过滤后的各个词语确定为所述行业特征信息。在本发明实施例中,从待挖掘数据中提取行业特征信息,是为了在后续步骤中通过所述行业特征信息确定待挖掘数据所对应的行业。
在本发明实施例中,所述按照预置过滤规则对所述待挖掘数据中的词语进行过滤后,所述方法还包括:获取所述过滤后的各个词语分别在所述待挖掘数据中出现的次数;获取出现次数大于预置阈值的词语;所述将所 述待挖掘数据中过滤后的各个词语确定为所述行业特征信息包括:将所述出现次数大于预置阈值的词语确定为所述行业特征信息。其中,所述预置阈值可以根据实际情况进行设置,如所述预置阈值具体可以为10、15、20等,本发明实施例不做具体限定。需要说明的是,预置阈值的数值越大,从待挖掘数据中确定的词语越多;预置阈值的数值越小,从待挖掘数据汇总确定的词语越少。对于本发明实施例,将出现次数大于预置阈值的词语确定为所述行业特征信息,可以减少从待挖掘数据中提取的行业特征信息内容,且大于预置阈值的词语可以精确表示待挖掘数据对应的含义,因此将出现次数大于预置阈值的词语确定为所述行业特征信息,可以提高数据挖掘的效率及准确性。
S202、根据预置行业分类标准对预置行业知识库中的行业进行分类。
其中,所述阈值行业分类标准可以根据实际行业分类需求进行设定,如所述阈值行业分类标准可以参考申万行业、行业分类国家标准和证监会行业分类标准,对预置行业知识库中的行业进行分类,本发明实施例不做具体限定。
S203、根据预置行业层级标准将预置行业知识库中的各个行业划分成多个行业层级。
其中,所述预置行业层级标准可以根据实际行业层级标准进行设定,也可以根据用户对行业层级的需求进行设定,本发明实施例不做具体限定。对于本发明实施例,预置行业知识库中的行业层级之间是具有从属关系的,具体可以通过数型结构表示行业的层级关系。例如,根据预置行业层级标准可以将服务行业划分成三个层级,第一层级对应的行业有为服务行业,第二层级对应的行业有餐饮业、旅游业,第三层级对应的行业有连锁餐饮、五星酒店、旅行社和宾馆,其中第二层级的餐饮业和旅游业从属于第一层级的服务行业,第三层级的连锁餐饮和五星酒店从属于第二层级的餐饮业,第三层级的连锁餐饮和五星酒店从属于第二层级的旅游业。需要说明的是,预置行业知识库中的各个行业的行业层级数可以根据实际需求进行配置,具体可以为2层、3层、4层等,本发明实施例不做具体限定。
S204、将所述行业特征信息和预置行业知识库中各个行业的行业信息 分别进行匹配。
其中,所述预置行业知识库中保存有与各个行业分别对应的行业信息。所述预置行业知识库可以根据实际行业分类需求建立,也可以根据用户对行业分类的需求建立,本发明实施例不做具体限定。需要说明的是,预置行业知识库中保存的各个行业的行业信息,具体可以包括产品信息、公司信息、人物信息等一列列主体关联关系的信息,本发明实施例不做具体限定。
对于本发明实施例,步骤S204包括:将所述行业特征信息和预置行业知识库中的最高层级的各个行业的行业信息分别进行匹配;判断与所述行业特征信息匹配度最高的最高层级的行业,是否存在对应的子行业层级;若存在,则将所述行业特征信息和所述子行业层级中的各个行业的行业信息分别进行匹配。例如,所述行业特征信息为中华汽车,预置行业知识库中的最高层级的行业有汽车行业、火车行业;汽车行业对应的子行业有进口汽车业、国产汽车业;国产汽车行业对应的子行业有中华汽车、长城汽车。则首先将行业特征信息和预置行业知识库中的最高层级的行业分别进行匹配,然后获取到与中华汽车匹配度最高的最高层级的行业为汽车行业,继续将中华汽车与汽车行业对应的进口汽车业和国产汽车业分别进行匹配,获取到与中华汽车匹配度最高的第二层级的行业为国产汽车行业,再继续将中华汽车与国产汽车行业对应的进口汽车业和国产汽车业分别进行匹配,最终得到与中华汽车匹配度最高的行业为第三层级的中华汽车。
在本发明实施例中,将行业特征信息按层级的和预置知识库中的各个行业的行业信息进行匹配,可以提高行业特征信息的匹配效率以及匹配精度,从而提高了数据挖掘的效率。
S205、获取与所述行业特征信息匹配度最高的行业。
对于本发明实施例,当所述行业特征信息按层级的和预置知识库中的各个行业的行业信息进行匹配时,所述获取与所述行业特征信息匹配度最高的行业包括:获取所述子行业层级中与所述行业特征信息匹配度最高的行业。需要说明的是,获取的子行业层级中的行业是行业层级中最末级的行业层级,即获取的行业再无对应的子行业层级,在本发明实施例中,获 取所述子行业层级中与所述行业特征信息匹配度最高的行业,可以提高获取待挖掘数据对应的行业精度,从而可提高数据挖掘的精确度。
S206、根据所述获取的行业,对所述待挖掘数据进行数据挖掘。
对于本发明实施例,首先从待挖掘数据中提取行业特征信息,然后将所述行业特征信息和预置行业知识库中各个行业的行业信息分别进行匹配,所述预置行业知识库中保存有与各个行业分别对应的行业信息,获取与所述行业特征信息匹配度最高的行业,最后根据所述获取的行业,对所述待挖掘数据进行数据挖掘。从而实现了待挖掘数据的挖掘结果符合待挖掘数据对应的行业特征,进而提高了数据挖掘的准确性。
本发明实施例提供的另一种数据挖掘方法,首先从待挖掘数据中提取行业特征信息,所述行业特征信息是从所述待挖掘数据中提取的多个词语,然后将所述行业特征信息和预置行业知识库中各个行业的行业信息分别进行匹配,所述预置行业知识库中保存有与各个行业分别对应的行业信息,获取与所述行业特征信息匹配度最高的行业,最后根据所述获取的行业,对所述待挖掘数据进行数据挖掘。与目前对网络中各种数据进行整体挖掘相比,本发明首先从待挖掘数据中提取行业特征信息,然后将所述行业特征信息和预置行业知识库中各个行业的行业信息分别进行匹配,从中获取与所述行业特征信息匹配度最高的行业,最后根据所述获取的行业,对所述待挖掘数据进行数据挖掘,从而实现了根据待挖掘数据对应的行业对待挖掘数据的挖掘,进而提高了数据挖掘的准确性。
进一步地,本发明实施例提供一种数据挖掘装置,如图3所示,所述装置包括:提取单元31、匹配单元32、获取单元33、挖掘单元34。
提取单元31,用于提取行业特征信息,所述行业特征信息是从所述待挖掘数据中提取的多个词语。
匹配单元32,用于将所述行业特征信息和预置行业知识库中各个行业的行业信息分别进行匹配,所述预置行业知识库中保存有与各个行业分别对应的行业信息。
获取单元33,用于获取与所述行业特征信息匹配度最高的行业。
挖掘单元34,用于根据所述获取的行业,对所述待挖掘数据进行数据 挖掘。
需要说明的是,本发明实施例提供的一种数据挖掘装置所涉及各功能单元的其他相应描述,可以参考图1所示方法的对应描述,在此不再赘述,但应当明确,本实施例中的装置能够对应实现前述方法实施例中的全部内容。
本发明实施例提供的一种数据挖掘装置,首先从待挖掘数据中提取行业特征信息,所述行业特征信息是从所述待挖掘数据中提取的多个词语,然后将所述行业特征信息和预置行业知识库中各个行业的行业信息分别进行匹配,所述预置行业知识库中保存有与各个行业分别对应的行业信息,获取与所述行业特征信息匹配度最高的行业,最后根据所述获取的行业,对所述待挖掘数据进行数据挖掘。与目前对网络中各种数据进行整体挖掘相比,本发明首先从待挖掘数据中提取行业特征信息,然后将所述行业特征信息和预置行业知识库中各个行业的行业信息分别进行匹配,从中获取与所述行业特征信息匹配度最高的行业,最后根据所述获取的行业,对所述待挖掘数据进行数据挖掘,从而实现了根据待挖掘数据对应的行业对待挖掘数据的挖掘,进而提高了数据挖掘的准确性。
进一步地,本发明实施例提供另一种数据挖掘装置,如图4所示,所述装置包括:提取单元41、匹配单元42、获取单元43、挖掘单元44。
提取单元41,用于从待挖掘数据中提取行业特征信息,所述行业特征信息是从所述待挖掘数据中提取的多个词语。
匹配单元42,用于将所述行业特征信息和预置行业知识库中各个行业的行业信息分别进行匹配,所述预置行业知识库中保存有与各个行业分别对应的行业信息。
获取单元43,用于获取与所述行业特征信息匹配度最高的行业。
挖掘单元44,用于根据所述获取的行业,对所述待挖掘数据进行数据挖掘。
进一步地,所述提取单元41包括:
分词模块411,用于对所述待挖掘数据进行分词。
过滤模块412,用于按照预置过滤规则对所述待挖掘数据中的词语进行 过滤。
确定模块413,用于将所述待挖掘数据中过滤后的各个词语确定为所述行业特征信息。
进一步地,所述提取单元41还包括:获取模块414。
所述获取模块414,用于获取所述过滤后的各个词语分别在所述待挖掘数据中出现的次数;
所述获取模块414,还用于获取出现次数大于预置阈值的词语;
所述确定模块413,具体用于将所述出现次数大于预置阈值的词语确定为所述行业特征信息。
进一步地,所述装置还包括:
分类单元45,用于根据预置行业分类标准对所述预置行业知识库中的行业进行分类。
划分单元46,用于根据预置行业层级标准将所述预置行业知识库中的各个行业划分成多个行业层级。
进一步地,所述匹配单元42包括:
匹配模块421,用于将所述行业特征信息和预置行业知识库中的最高层级的各个行业的行业信息分别进行匹配;
判断模块422,判断与所述行业特征信息匹配度最高的最高层级的行业,是否存在对应的子行业层级;
匹配模块421,若存在对应的子行业层级,则将所述行业特征信息和所述子行业层级中的各个行业的行业信息分别进行匹配。
所述获取单元43,具体用于获取所述子行业层级中与所述行业特征信息匹配度最高的行业。
需要说明的是,本发明实施例提供的另一种数据挖掘装置所涉及各功能单元的其他相应描述,可以参考图2所示方法的对应描述,在此不再赘述,但应当明确,本实施例中的装置能够对应实现前述方法实施例中的全部内容。
本发明实施例提供的另一种数据挖掘装置,首先从待挖掘数据中提取行业特征信息,所述行业特征信息是从所述待挖掘数据中提取的多个词语, 然后将所述行业特征信息和预置行业知识库中各个行业的行业信息分别进行匹配,所述预置行业知识库中保存有与各个行业分别对应的行业信息,获取与所述行业特征信息匹配度最高的行业,最后根据所述获取的行业,对所述待挖掘数据进行数据挖掘。与目前对网络中各种数据进行整体挖掘相比,本发明首先从待挖掘数据中提取行业特征信息,然后将所述行业特征信息和预置行业知识库中各个行业的行业信息分别进行匹配,从中获取与所述行业特征信息匹配度最高的行业,最后根据所述获取的行业,对所述待挖掘数据进行数据挖掘,从而实现了根据待挖掘数据对应的行业对待挖掘数据的挖掘,进而提高了数据挖掘的准确性。
所述数据挖掘装置包括处理器和存储器,上述提取单元、匹配单元、获取单元、挖掘单元、划分单元和分类单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来提高数据挖掘的准确性。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:从待挖掘数据中提取行业特征信息,所述行业特征信息是从所述待挖掘数据中提取的多个词语;将所述行业特征信息和预置行业知识库中各个行业的行业信息分别进行匹配,所述预置行业知识库中保存有与各个行业分别对应的行业信息;获取与所述行业特征信息匹配度最高的行业;根据所述获取的行业,对所述待挖掘数据进行数据挖掘。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的 形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光 盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。