本发明属于信息
技术领域:
:,具体涉及情景感知计算技术,特别地涉及一种面向金融高频交易数据的情景感知测定方法和系统。
背景技术:
::在金融经济市场,越来越多的学者开始关注高频金融交易数据的研究,深层次挖掘金融高频数据隐含的特征来发掘金融市场的微观经济规律,为投资者提供投资预判的决策参考。目前,众多的研究者从统计计量分析的角度来研究高频交易数据,从数据的外部表现探索其统计性特征与规律,进行建模与分析。然而,金融高频数据在很大程度上受到微结构噪声的干扰并具有情景依赖的动态变化特征,传统的统计学分析建模方法在实际应用中存在着如下局限性:1、金融高频数据往往难以满足较好的统计检验要求,计算结果误差较大,预测准确性不高;2、对不断变化的情景冲击和微结构噪声的干扰难以作出很好的描述,没有上述信息的反馈机制,无法对选用的模型进行自我修正与完善。大量研究表明,在进行高频交易操作时,操作者的行为决策与金融市场的特定情景对其所产生的心理刺激下的认知反应、情绪心理密切相关,具有典型的情景依赖特征,因此,采用情景感知技术对金融现象的研究正成为热点。通过情景感知技术对实际场景的情景信息进行采集、筛选和分析,进而更好的把握金融交易的动态变化特征,使得预测结果更为精准。技术实现要素:本发明的目的是针对现有统计计量分析技术的不足,提出了一种面向金融高频交易数据的情景感知测定方法和系统,从情景感知角度计算宏观环境、自然环境和金融政策事件变化所产生的情景冲击对高频交易的影响,为用户更好地提供金融高频交易的决策参考。本发明提出面向金融高频交易数据的情景感知测定方法,包括以下技术步骤:步骤1:建立金融高频交易数据库;依次包括数据导入、数据整理和数据分类共三个过程,其中:数据导入:将分时金融高频交易数据文件(Txt或Excel格式)、分笔金融高频交易数据文件(Txt或Excel格式)导入到数据库模块;数据整理:调用数据整理函数DataProcess,对已经导入的数据进行检查与整理,去掉重复的数据;数据分类:调用分类函数DataClassify,将数据依据分笔交易数据、分时交易数据(如5分钟分时交易数据、15分钟分时交易数据和30分钟分时交易数据)插入到数据库对应的表中;步骤2:建立情景关联规则库;依次包括特征变量提取、数据挖掘和建立情景关联规则共三个过程,其中:特征变量提取:将影响高频交易数据的宏观经济指标、自然环境因素和金融政策事件的特征提取出来,构成特征变量集;数据挖掘:根据历史高频交易数据,结合特征变量,采用聚类方法、神经网络技术、计量分析手段进行数据挖掘,得出规律;建立情景关联规则:在数据库中建立情景关联规则表tableRule,tableRule的结构包括:规则编号、规则内容、规则类型、可信度共四个字段,其中:规则编号:初始值是1,采用自动增1的方式;规则内容:采用varchar(200)类型,将之前数据挖掘所得出的规律归纳成规则形式予以保存;规则类型:采用varchar(10)类型,0代表负向相关,1代表正向相关;可信度:采用numeric(9,4)类型,记录当前规则内容的可信程度百分比;步骤3:情景感知计算;包括情景识别和基于ACD(自回归条件时间间隔)模型的计算,其中,情景识别:根据步骤2所构建的特征变量集和情景关联规则库,对当前高频交易数据情景进行识别,选出匹配程度最高的规则作为此时的情景;基于ACD(自回归条件时间间隔)模型的计算:通过调用ACD模型来计算此规则下的高频交易股价波动状况;步骤4:结果反馈与更新;给出情景感知计算结果,即当前规则下的高频交易股价波动规则,再将所得结果反馈至情景关联规则库,并通过触发器自动更新对应的规则。基于上述测定方法,本发明还提供一种面向金融高频交易数据的情景感知测定系统,该测定系统包括:金融高频交易数据库模块,情景关联规则库模块,情景感知计算模块,结果反馈与更新模块;所述金融高频交易数据库模块包括依次连接的数据导入、数据整理和数据分类3个子模块,这3个子模块分别执行步骤1中3个过程的功能;所述情景关联规则库模块包括包括依次连接的特征变量提取、数据挖掘和建立情景关联规则3个子模块,这3个子模块分别执行步骤2中3个过程的功能;所述情景感知计算模块包括情景识别和基于ACD(自回归条件时间间隔)模型的计算2个子模块,这2个子模块分别执行步骤3中2个过程的功能。本发明从情景感知角度计算宏观经济环境、自然环境和金融政策事件所产生的情景冲击对高频交易的影响,为用户提供金融高频交易操作决策参考,达到规避风险、更好获利的目的。本发明优点:(1)综合考虑到宏观经济环境、自然环境和金融政策事件对金融高频交易所产生的动态效应,更好地利于用户做出投资判断;(2)具备反馈机制,能不断完善情景关联规则库,使计算结果更准确。附图说明图1是本发明整体架构图。图2是本发明人工神经网络模型参数及训练误差值收敛图。图3是本发明高频交易数据实施蚁群聚类流程图。具体实施方式下面参照附图,对本发明的各种实施作进一步的详细描述。图1示出了本发明整体架构图。其中:步骤1:在Oracle10G数据库中建立名字为“HFT”的表空间,并新建名字为“HFT_Database”的数据库,数据库空间策略为“空间大小初始为100G,满时自动增加方式”;接着,将分时金融高频交易数据文件(Txt或Excel格式)、分笔金融高频交易数据文件(Txt或Excel格式)导入到“HFT_Database”数据库模块;然后调用数据整理函数DataProcess去掉重复的数据;接着调用分类函数DataClassify将数据依据分笔交易数据、分时交易数据(5分钟分时交易数据、15分钟分时交易数据和30分钟分时交易数据)插入到数据库对应的表tableFlag1、tableFlag2、tableFlag3和tableFlag4中,数据整理函数DataProcess和分类函数DataClassify的逻辑代码实现见附录1;步骤2:建立情景关联规则库由特征变量提取、数据挖掘和建立情景关联规则共三个过程组成,具体实现如下:特征变量提取:从宏观经济指标、自然环境因素和金融政策事件共三方面来提取特征变量,其中,宏观经济指标特征变量通过从国家统计局发布的统计数据中选取宏观经济相关的指标来实现;自然环境因素特征变量由不可抗拒天灾因素、大气、水、植物、动物、土壤环境变化构成;金融政策事件特征变量由国务院办公厅、中国人民银行、证监会发布的与金融交易市场有关的信息组成;数据挖掘:采用Matlab软件编写程序代码来实现蚁群聚类寻找出价、量形态存在相似性的高频交易时段;运用神经网络技术对历史高频交易数据分析,进而预测证券波动走势;通过假设检验及计量经济分析来挖掘高频交易数据的规律;其中,聚类寻找相似的高频交易时段的关键是计算数据对象的相似度,本发明计算数据对象的相似度包括:计算对象的属性概率和计算对象的相似度共两个过程,具体如下:计算对象的属性概率:假设所取样本数据集D中共有5000个数据对象,d1,d2,…,d5000;每个数据对象共有5个属性(交易时刻、成交价、成交量、成交金额、成交笔数)A1,A2,…,A5,用Xij表示第di个对象的Aj属性,Xij在D中所有数据对象的Aj中共出现qij次,则对象Xi在属性Aj上的属性概率为:;计算对象的相似度:对象的相似度指的是待聚类对象和它周围数据对象之间的相似程度,对象Xi的相似度是该对象的各个属性的属性概率的算术平均值,本例中共5个属性,因此,对象的相似度通过以下的公式计算得出:;建立情景关联规则:通过在“HFT_Database”数据库中建立情景关联规则表tableRule,tableRule的结构包括:规则编号(ruleId)、规则内容(ruleContext)、规则类型(ruleType)、可信度(creditRatio)共四个字段,其中,规则编号:初始值是1,采用自动增1的方式;规则内容:采用varchar(200)类型,将之前数据挖掘所得出的规律归纳成规则形式予以保存,典型的规则如:{某地地震:>6级}->{当地上市公司股票将在一周内出现22%的最大跌幅};规则类型:采用varchar(10)类型,0代表负向相关,1代表正向相关;可信度:采用numeric(9,4)类型,记录当前规则内容的可信程度百分比;步骤3:根据步骤2所构建的特征变量集和情景关联规则库,对当前高频交易数据情景进行识别,选出匹配程度最高的规则作为此时的情景,接着调用ACD模型来计算此规则下的高频交易股价波动状况,其中,ACD模型通过在Matlab软件里建模来完成,ACD(p,q)模型的形式为:式中p,q为相应的延迟阶数;为持续时间,即i、j两个连续事件间的间隔;,,j=0,…p,(即),,j=0,…q,(即),是线性回归方程的参数;为第i个持续期的条件期望,由其滞后p个的条件期望和滞后q个过去实际的持续期共同来决定(有关ACD模型描述参见文献“自回归条件持续期(ACD)模型研究[J].统计与决策,2006,12:39-40”);ACD模型的参数采用极大似然估计法给出(极大似然估计法内容参见文献“极大似然估计方法介绍[J].长春理工大学学报,2010,5(6):53-54”),如对2013年4日22日的沪深300股指交易价格久期的ACD(1,1)模型的参数估计,我们将交易价格久期限定为股指的价格上升或者下降1个点时的时间间隔,然后采用极大似然法估计结果为:,,;α+β的和接近1,说明交易价格久期持续性强,具有很强的聚类性.即沪深300股指交易通常在某一段时间内价格变动很频繁,但是在另一段时间内的价格却很平稳;步骤4:给出当前情景感知的计算结果,即当前规则下的高频交易股价波动规则,再将所得结果反馈至情景关联规则库,并通过触发器自动更新对应的规则,触发器逻辑代码见附录2。图2示出了本发明人工神经网络模型参数及训练误差值收敛图。为了建立情景关联规则库,数据挖掘时采用人工神经网络技术寻找规律,人工神经网络先对历史数据进行训练学习,然后用于预测,从图2中可以看到,人工神经网络模型参数设置如下:输入层节点数:5;隐藏层节点数:11;输出层节点数:1;隐含层神经元传递函数:tansig;输出层神经元传统函数:purelin;训练函数:traingdx;样本学习结束条件:误差精度E=0.001;循环次数:1000次;学习速率初始值:0.1;动量因子的初始值:0.9;经过754步训练,训练的误差小于10-3,满足了设定的误差要求,可以用于情景关联规则的数据挖掘。图3示出了本发明高频交易数据实施蚁群聚类流程图。其中:如流程5所示,初始化蚁群的观察半径、蚁群数目和迭代次数,例如:观察半径设置为7,蚁群蚂蚁数目为60,迭代次数为5000;如流程6所示,将待聚类对象(高频交易数据对象)及蚂蚁随机分布到固定大小的二维平面,例如:每一高频交易数据对象包括交易时刻、成交价、成交量、成交金额和成交笔数共5属性,二维平面大小在Matlab软件中以400*400表示;如流程7所示,蚂蚁移动到任一待聚类对象位置,例如:某蚂蚁移动到点(3,3);如流程8所示,根据对象相似度计算公式,计算对象相似度,并调用Matlab软件的rand()函数生成一个(0,1)之间的随机数R1;如流程9所示,判断对象相似度是大于随机数R1,如果相似度大于R1则进入流程10;否则返回流程7蚂蚁移动到任一待聚类对象位置;如流程10所示,该蚂蚁搬起对象移动到二维平面的随机位置,该随机位置是调用Matlab软件的randint(1,2,[1400])函数生成的一个二维横、纵坐标在(1,400)范围内的点;如流程11所示,根据对象相似度计算公式,计算对象相似度,并调用Matlab软件的rand()函数生成一个(0,1)之间的随机数R2;如流程12所示,判断对象相似度是大于随机数R2,如果相似度大于R2则进入流程11;否则返回流程10搬起对象移动到二维平面的随机位置;如流程13所示,蚂蚁将所背负的包括交易时刻、成交价、成交量、成交金额和成交笔数共5属性的高频交易数据对象放在此位置,该位置的坐标是在流程10所产生的,并且将迭代次数累加1;如流程14所示,判断是否达到最大迭代次数,如果已经达到最大迭代次数则进入流程15,否则返回流程7蚂蚁移动到任一待聚类对象位置;如流程15所示,运算结束返回聚类结果。附录附录1数据整理函数DataProcess和分类函数DataClassify的逻辑代码如下:publicstaticvoidDataProcess(){/*去掉重复的数据*/selectdistinct*into#TempTablefromtableName;droptabletableName;select*intotableNamefrom#TempTable;droptable#TempTable;};publicstaticvoidDataClassify(){ifdatais分笔交易数据insertintotableFlag1values(data);elseifdatais5分钟数据insertintotableFlag2values(data);elseifdatais15分钟数据insertintotableFlag3values(data);elseinsertintotableFlag4values(data);}。附录2触发器逻辑代码如下:createtriggerupdateRuleontableRuleafterupdateasifupdate(tableCalculateResult)beginupdatetableRulesetcreditRatio=重新计算过的置信度fromtableRulewhereruleId=最匹配规则的idend。当前第1页1 2 3 当前第1页1 2 3