一种投资数据处理方法及装置与流程

文档序号：15079994发布日期：2018-08-03 18:55阅读：139来源：国知局

本申请涉及数据处理技术领域，具体而言，涉及一种投资数据处理方法及装置。

背景技术：

现有金融投资领域中，选取合适的投资项目获取最大的收益是每一个投资人都有的想法，而传统的投资项目的选择是要依靠基金经理以及分析师对于行业的分析以及预测。

发明人在研究中发现，现有技术中这种方法所生产的投资组合的优劣高度依赖投资经理、分析师的分析能力以及其擅长的行业的状况。而在市面上的投资项目数量十分庞大，人的精力又是有限的，投资经理以及分析师只可能在自己所擅长的领域内选择有限的投资项目进行分析。从而避开了大部分的投资项目，尤其是那些存在投资潜力但分析师并不了解的领域。这种选择投资项目的方式，一方面耗费的分析师的人力成本过高，另一方面也无法保证投资的最优化。

技术实现要素：

有鉴于此，本申请的目的在于提供一种投资数据处理方法及装置，以在降低人力成本的同时，进一步保证投资的最大化，实用性更佳。

第一方面，本申请提供了一种投资数据处理方法，所述方法包括：

确定待评估投资产品的预设个数的特征参数；

根据预设的聚类算法，从所述预设个数的特征参数中筛选出用于分析所述待评估投资产品的特征参数集；

基于所述待评估投资产品的历史收益数据和在筛选出的所述特征参数集下的特征值，训练得到收益预测模型；

基于训练得到的所述收益预测模型，预测所述待评估投资产品在未来预设时间段内的预期收益。

结合第一方面，本申请提供了第一方面的第一种可能的实施方式，其中，所述根据预设的聚类算法，从所述预设个数的特征参数中筛选出用于分析所述待评估投资产品的特征参数集，包括：

基于所述预设个数的特征参数，确定不同的特征参数组合；

根据预设的聚类算法，分别使用不同的特征参数组合对所述待评估投资产品进行聚类，确定所述不同的特征参数组合分别对应的聚类结果；

根据所述聚类结果，从所述不同的特征参数组合中选择一种特征参数组合作为所述特征参数集。

结合第一方面的第一种可能的实施方式，本申请提供了第一方面的第二种可能的实施方式，其中，所述根据所述聚类结果，从所述不同的特征参数组合中选择一种特征参数组合作为所述特征参数集，包括：

根据聚类后得到的各个聚类簇的统计特征之间的差异性，从所述不同的特征参数组合中选择一种使得所述差异性最大的特征参数组合作为所述特征参数集。

结合第一方面，本申请提供了第一方面的第三种可能的实施方式，其中，所述基于所述待评估投资产品的历史收益数据和在筛选出的所述特征参数集下的特征值，训练得到收益预测模型，包括：

将所述待评估投资产品划分为不同的待评估投资产品组合；

根据预设的聚类算法，使用筛选出的所述特征参数集对所述不同的待评估投资产品组合进行聚类，得到多个聚类簇：其中，每个聚类簇中包含至少一个待评估投资产品组合；

根据聚类后每个聚类簇的统计特征，从所述多个聚类簇中选择一个对应的所述统计特征最优的聚类簇；

基于选择的所述聚类簇中的各个待评估投资产品的历史收益数据和在筛选出的所述特征参数集下的特征值，训练得到收益预测模型。

结合第一方面的第三种可能的实施方式，本申请提供了第一方面的第四种可能的实施方式，其中，在所述将所述待评估投资产品划分为不同的待评估投资产品组合之前，还包括：

根据用户自定义参数，对所述待评估投资产品进行过滤。

结合第一方面，本申请提供了第一方面的第五种可能的实施方式，其中，所述方法还包括：

基于每个所述待评估投资产品在未来预设时间段内的预期收益，确定每个所述待评估投资产品的预期夏普比率；

从所述待评估投资产品中，选择对应的所述预期夏普比率最高的预设数量个待评估投资产品作为推荐的待评估投资产品。

第二方面，本申请还提供了一种投资数据处理装置，所述装置包括：

特征参数确定模块，用于确定待评估投资产品的预设个数的特征参数；

特征参数集筛选模块，用于根据预设的聚类算法，从所述预设个数的特征参数中筛选出用于分析所述待评估投资产品的特征参数集；

预测模型训练模块，用于基于所述待评估投资产品的历史收益数据和在筛选出的所述特征参数集下的特征值，训练得到收益预测模型；

预期收益预测模块，用于基于训练得到的所述收益预测模型，预测所述待评估投资产品在未来预设时间段内的预期收益。

结合第二方面，本申请提供了第二方面的第一种可能的实施方式，其中，所述特征参数集筛选模块包括：

特征参数组合确定单元，用于基于所述预设个数的特征参数，确定不同的特征参数组合；

聚类结果确定单元，用于根据预设的聚类算法，分别使用不同的特征参数组合对所述待评估投资产品进行聚类，确定所述不同的特征参数组合分别对应的聚类结果；

特征参数集选择单元，用于根据所述聚类结果，从所述不同的特征参数组合中选择一种特征参数组合作为所述特征参数集。

结合第二方面的第一种可能的实施方式，本申请提供了第二方面的第二种可能的实施方式，其中，所述特征参数集选择单元，具体用于根据聚类后得到的各个聚类簇的统计特征之间的差异性，从所述不同的特征参数组合中选择一种使得所述差异性最大的特征参数组合作为所述特征参数集。

结合第二方面的第一种可能的实施方式，本申请提供了第二方面的第三种可能的实施方式，其中，所述预测模型训练模块包括：

投资产品组合划分单元，用于将所述待评估投资产品划分为不同的待评估投资产品组合；

投资产品组合聚类单元，用于根据预设的聚类算法，使用筛选出的所述特征参数集对所述不同的待评估投资产品组合进行聚类，得到多个聚类簇：其中，每个聚类簇中包含至少一个待评估投资产品组合；

聚类簇选择单元，用于根据聚类后每个聚类簇的统计特征，从所述多个聚类簇中选择一个对应的所述统计特征最优的聚类簇；

预测模型训练单元，用于基于选择的所述聚类簇中的各个待评估投资产品的历史收益数据和在筛选出的所述特征参数集下的特征值，训练得到收益预测模型。

本申请提供的投资数据处理方法及装置，其首先确定待评估投资产品的预设个数的特征参数；然后根据预设的聚类算法，从所述预设个数的特征参数中筛选出用于分析所述待评估投资产品的特征参数集；再者基于所述待评估投资产品的历史收益数据和在筛选出的所述特征参数集下的特征值，训练得到收益预测模型；最后基于训练得到的所述收益预测模型，预测所述待评估投资产品在未来预设时间段内的预期收益，其基于待评估投资产品的历史收益数据和在筛选出的所述特征参数集下的特征值训练得到的收益预测模型进行该待评估投资产品在未来预设时间段内的预期收益的预测，预测的效率和准确度均较高，以在降低人力成本的同时，进一步保证投资的最大化，实用性更佳。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例所提供的一种投资数据处理方法的流程图；

图2示出了本申请实施例所提供的另一种投资数据处理方法的流程图；

图3示出了本申请实施例所提供的另一种投资数据处理方法的流程图；

图4示出了本申请实施例所提供的另一种投资数据处理方法的流程图；

图5示出了本申请实施例所提供的一种投资数据处理装置的结构示意图；

图6示出了本申请实施例所提供的一种投资数据处理装置中特征参数集筛选模块的结构示意图；

图7示出了本申请实施例所提供的一种投资数据处理装置中预测模型训练模块的结构示意图；

图8示出了本申请实施例所提供的一种计算机设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

考虑到现有技术中所生产的投资组合的优劣高度依赖投资经理、分析师的分析能力以及其擅长的行业的状况，一方面耗费的分析师的人力成本过高，另一方面也无法保证投资的最优化。基于此，本申请实施例提供了一种投资数据处理方法及装置，以在降低人力成本的同时，进一步保证投资的最大化，实用性更佳。

参见图1所示的本申请实施例提供的投资数据处理方法的流程图，上述方法具体包括如下步骤：

S101、确定待评估投资产品的预设个数的特征参数。

这里，本申请实施例中的待评估投资产品可以是股票产品，还可以社保产品，还可以是其他产品。为了便于进行示例说明，接下来以股票产品进行阐述。该股票产品可以是一只股票产品，还可是多只股票产品对应的混合股票产品。上述特征参数是基于数据库中保存的股票量价数据以及公司基本面数据确认的。其中，上述特征参数可以包括但不限于下述参数：技术参数、统计参数、希尔伯特-黄变换(Hilbert-Huang Transform，HHT)时频谱参数、时域特征、频域特征、小波包时频幅度谱特征。

值得说明的是，本申请提供的投资数据处理方法可以运行于搭载Hadoop以及Spark的服务器集群上，并可以使用HDFS/Hive分布式储存以及Spark分布式计算。有关Hadoop以及Spark集群的部署方法可以采用现有技术中的任一种方式，在此不再赘述。

其中，本申请可以预先将待评估投资产品的相关标识信息等从MYSQL数据库通过SQOOP转储到HDFS文件系统，其中包括待评估投资产品的编号，待评估投资产品对应股票组合的股票代码。在每日收盘后，当日数据获取完毕时，可以设置定时计划任务定时运行以存储相应待评估投资产品的标识信息。另外，本申请还可以将当日生成的待投资产品与数据库中的相关内容进行比较，若上述待投资产品并未出现在现有的数据库中，则赋予该待投资产品新的标识信息，并添加到上述数据库中。若上述待投资产品已经出现在现有的数据库中，则不做处理。最后，本申请随着待投资产品的规模变大，还可以更新上述数据库或者其他辅助数据库，以便Spark数据处理时使用。

S102、根据预设的聚类算法，从预设个数的特征参数中筛选出用于分析待评估投资产品的特征参数集。

这里，本申请实施例考虑到不同的待评估投资产品具有的特征参数也并不完全相同，因此，为了确保在对特征参数进行完整选取的同时，还能够排除其他非相关特征参数的干扰因素，本申请实施例还从预设个数的特征参数中选取了对应的特征参数集。

其中，该特征参数集是基于各个特征参数组合的聚类结果进行确定的。

S103、基于待评估投资产品的历史收益数据和在筛选出的特征参数集下的特征值，训练得到收益预测模型。

这里，基于历史收益数据以及筛选出的特征参数集的特征值训练收益预测模型。其中，上述收益预测模型是采用机器学习的方法训练得到的，有多种方法可以实现，本申请实施例中的收益预测模型是预测模型，也即是可以采用分类方法或者回归方法具体进行实现。

S104、基于训练得到的收益预测模型，预测待评估投资产品在未来预设时间段内的预期收益。

这里，收益预测模型训练的目的在于给定一个特征值，以及预设时间段即能够预测出待评估投资产品在未来预设时间段内的预期收益，从而满足用户投资最大化的需求。

本申请实施例提供的投资数据处理方法，其首先确定待评估投资产品的预设个数的特征参数；然后根据预设的聚类算法，从预设个数的特征参数中筛选出用于分析待评估投资产品的特征参数集；再者基于待评估投资产品的历史收益数据和在筛选出的特征参数集下的特征值，训练得到收益预测模型；最后基于训练得到的收益预测模型，预测待评估投资产品在未来预设时间段内的预期收益，其基于待评估投资产品的历史收益数据和在筛选出的特征参数集下的特征值训练得到的收益预测模型进行该待评估投资产品在未来预设时间段内的预期收益的预测，预测的效率和准确度均较高，以在降低人力成本的同时，进一步保证投资的最大化，实用性更佳。

参见图2，上述特征参数集筛选过程具体包括如下步骤：

S201、基于预设个数的特征参数，确定不同的特征参数组合；

S202、根据预设的聚类算法，分别使用不同的特征参数组合对待评估投资产品进行聚类，确定不同的特征参数组合分别对应的聚类结果；

S203、根据聚类结果，从不同的特征参数组合中选择一种特征参数组合作为特征参数集。

这里，本申请实施例首先通过预设个数确定对应于特征参数组合的个数，然后通过迭代尝试不同的特征参数组合对待评估投资产品进行聚类，确定不同的特征参数组合分别对应的聚类结果，最后基于聚类后得到的各个聚类簇的统计特征之间的差异性，从不同的特征参数组合中选择一种使得差异性最大的特征参数组合作为特征参数集。

其中，在通过比较各个聚类簇的统计特征后，确定每个聚类簇与其他聚类簇之间的差异性，若差异性比较大，则表明该聚类簇比较显著，可以从不同的特征参数组合选取出对应的特征参数组合，若差异性比较小，则表明该聚类簇不显著，则将对应的特征参数组合舍弃掉。

另外，本申请实施例中的聚类算法可以是K-MEANS聚类算法，还可以是层次聚类算法，还可以是其他聚类算法，本申请实施例对此不做具体的限制。

参见图3，本申请实施例提供的投资数据处理方法通过如下步骤训练上述收益预测模型：

S301、将待评估投资产品划分为不同的待评估投资产品组合；

S302、根据预设的聚类算法，使用筛选出的特征参数集对不同的待评估投资产品组合进行聚类，得到多个聚类簇：其中，每个聚类簇中包含至少一个待评估投资产品组合；

S303、根据聚类后每个聚类簇的统计特征，从多个聚类簇中选择一个对应的统计特征最优的聚类簇；

S304、基于选择的聚类簇中的各个待评估投资产品的历史收益数据和在筛选出的特征参数集下的特征值，训练得到收益预测模型。

这里，本申请实施例首先将待评估投资产品划分为不同的待评估投资产品组合，然后根据使用筛选出的特征参数集对不同的待评估投资产品组合进行聚类，得到多个聚类簇，然后基于聚类后的每个聚类簇的统计特征，从多个聚类簇中选择一个对应的统计特征最优的聚类簇，最后将筛选出的特征参数集下的特征值作为收益预测模型的输入特征，将任一个待评估投资产品的历史收益数据作为收益预测模型的输入结果，训练得到对应于该任一个待评估投资产品的收益预测模型。

其中，本申请实施例可以采用神经网络模型作为收益预测模型，模型训练阶段也就是训练神经网络模型中一些未知的参数信息的过程。之后，就可以基于该收益预测模型为用户提供收益预测服务此时只需要将用户提供的特征参数集的特征值输入到训练好的收益预测模型中即可。

本申请实施例在将待评估投资产品划分为不同的待评估投资产品组合之前，还根据用户自定义参数，对待评估投资产品进行过滤。

具体的，本申请实施例中的用户自定义参数，可以是最短交易天数、相对大盘胜率、历史平均绝对收益、历史最大回撤、历史夏普比率、组合所包含上市公司平均年净利润增幅等参数中的一种或多种。通过输入一个或多个参数过滤条件，即可对待评估投资产品进行初步过滤，得到符合条件的精简待评估投资产品。例如，可以设定过去250个交易日中，以每7个交易日为滑窗，每7个交易日的收益率均高于沪深300等相关过滤参数筛选出相应的待评估投资产品，进一步提高后续模型训练的效率。

同理，本申请实施例还可以在对待评估投资产品进行不同的待评估投资产品组合的划分后，对各个待评估投资产品组合进行上述过滤操作，以进一步提高后续模型训练的效率。

本申请实施例提供的投资数据处理方法还能够基于预期夏普比率选取推荐的待评估投资产品，参见图4，上述投资数据处理方法还包括：

S401、基于每个待评估投资产品在未来预设时间段内的预期收益，确定每个待评估投资产品的预期夏普比率；

S402、从待评估投资产品中，选择对应的预期夏普比率最高的预设数量个待评估投资产品作为推荐的待评估投资产品。

这里，本申请实施例在通过收益预测模型预测到每个待评估投资产品在未来预设时间段内的预期收益，确定每个待评估投资产品的基金绩效评价标准化指标——预期夏普比率，可以通过预期夏普比率的大小对各个待评估投资产品进行排序，然后从待评估投资产品中，选择对应的预期夏普比率最高的预设数量个待评估投资产品作为推荐的待评估投资产品。

基于同一申请构思，本申请实施例中还提供了与投资数据处理方法对应的投资数据处理装置，由于本申请实施例中的装置解决问题的原理与本申请实施例上述投资数据处理方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

参见图5所示，本申请实施例所提供的投资数据处理装置，包括：

特征参数确定模块11，用于确定待评估投资产品的预设个数的特征参数；

特征参数集筛选模块22，用于根据预设的聚类算法，从预设个数的特征参数中筛选出用于分析待评估投资产品的特征参数集；

预测模型训练模块33，用于基于待评估投资产品的历史收益数据和在筛选出的特征参数集下的特征值，训练得到收益预测模型；

预期收益预测模块44，用于基于训练得到的收益预测模型，预测待评估投资产品在未来预设时间段内的预期收益。

如图6所示，上述特征参数集筛选模块22包括：

特征参数组合确定单元221，用于基于预设个数的特征参数，确定不同的特征参数组合；

聚类结果确定单元222，用于根据预设的聚类算法，分别使用不同的特征参数组合对待评估投资产品进行聚类，确定不同的特征参数组合分别对应的聚类结果；

特征参数集选择单元223，用于根据聚类结果，从不同的特征参数组合中选择一种特征参数组合作为特征参数集。

在具体实施中，特征参数集选择单元223，具体用于根据聚类后得到的各个聚类簇的统计特征之间的差异性，从不同的特征参数组合中选择一种使得差异性最大的特征参数组合作为特征参数集。

如图7所示，上述预测模型训练模块33包括：

投资产品过滤单元331，用于根据用户自定义参数，对待评估投资产品进行过滤。

投资产品组合划分单元332，用于将待评估投资产品划分为不同的待评估投资产品组合；

投资产品组合聚类单元333，用于根据预设的聚类算法，使用筛选出的特征参数集对不同的待评估投资产品组合进行聚类，得到多个聚类簇：其中，每个聚类簇中包含至少一个待评估投资产品组合；

聚类簇选择单元334，用于根据聚类后每个聚类簇的统计特征，从多个聚类簇中选择一个对应的统计特征最优的聚类簇；

预测模型训练单元335，用于基于选择的聚类簇中的各个待评估投资产品的历史收益数据和在筛选出的特征参数集下的特征值，训练得到收益预测模型。

如图5所示，上述投资数据处理装置还包括：

投资产品推荐模块55，用于基于每个待评估投资产品在未来预设时间段内的预期收益，确定每个待评估投资产品的预期夏普比率；从待评估投资产品中，选择对应的预期夏普比率最高的预设数量个待评估投资产品作为推荐的待评估投资产品。

对应于图1至图4中的投资数据处理方法，本申请实施例还提供了一种计算机设备，如图8所示，该设备包括存储器1000、处理器2000及存储在该存储器1000上并可在该处理器2000上运行的计算机程序，其中，上述处理器2000执行上述计算机程序时实现上述投资数据处理方法的步骤。

具体地，上述存储器1000和处理器2000能够为通用的存储器和处理器，这里不做具体限定，当处理器2000运行存储器1000存储的计算机程序时，能够执行上述投资数据处理方法，从而解决目前依靠基金经理以及分析师对于行业的分析以及预测所带来的人力成本高，且无法保证投资最大化的问题，进而达到在降低人力成本的同时，进一步保证投资的最大化，实用性更佳的效果。

对应于图1至图4中的投资数据处理方法，本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述投资数据处理方法的步骤。

具体地，该存储介质能够为通用的存储介质，如移动磁盘、硬盘等，该存储介质上的计算机程序被运行时，能够执行上述投资数据处理方法，从而解决目前依靠基金经理以及分析师对于行业的分析以及预测所带来的人力成本高，且无法保证投资最大化的问题，进而达到在降低人力成本的同时，进一步保证投资的最大化，实用性更佳的效果。

本申请实施例所提供的投资数据处理方法及装置的计算机程序产品，包括存储了程序代码的计算机可读存储介质，程序代码包括的指令可用于执行前面方法实施例中的方法，具体实现可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张家林
技术所有人：张家林
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。