一种数据商品的价格评估方法及系统与流程

文档序号:12748741阅读:523来源:国知局
一种数据商品的价格评估方法及系统与流程

本发明涉及电子商务技术领域,尤其涉及一种数据商品的价格评估方法及系统。



背景技术:

随着科技的发展,现在已经全面进入了信息化时代。在信息化时代中,数据作为一种商品是可以进行交易的,但是,考虑到买方或者卖方无法有效地衡量数据的价格,导致了卖方利益或者买方利益的受损。

而且,现有技术中还不存在对数据商品的价格进行评估的方法和系统。而为了使数据商品在市场交易时有价格作为交易基础,需要对数据商品进行价格评估。



技术实现要素:

本发明目的是提供一种数据商品的价格评估方法及系统,以解决目前数据商品无法准确评估价格的问题。

本发明解决技术问题采用如下技术方案:一种数据商品的价格评估系统,其包括:

识别模块,其用于识别待评估的数据商品的种类;当待评估的数据商品属于结构化数据、非结构化数据和半结构化数据时,则对待评估的数据商品的价格进行评估;当待评估的数据商品不属于结构化数据、非结构化数据和半结构化数据时,则结束对数据商品的价格评估过程;

质量评估模块,用于对数据商品进行质量评估;

价格评估模块,基于所述质量评估模块所得到的指标,对数据商品的价格进行评估。

可选的,所述质量评估模块包括:

一致性评估单元,其用于对数据商品的一致性进行评估;

有效性评估单元,其对数据商品的有效性进行评估;

重复性评估单元,其对数据商品内的数据的重复性进行评估;

稀缺性评估单元,其对数据商品的稀缺性进行评估;

数据量评估单元,其对所述数据商品的数据量进行评估;

结构化程度评估单元,其基于数据内容中的非结构化、半结构化、结构化数据占比,计算数据整体的结构化程度。

可选的,所述价格评估模块包括:

相似数据商品查找单元,其用于获取数据交易市场中的相似数据商品;

相似数据商品平均价格计算单元,用于计算这些相似数据商品的平均价格;

标准差计算单元,用于计算相似数据商品的标准差;

数据商品价值评估单元,其用于评估数据商品价值;

数据商品价格评估单元,其用于评估数据商品价格。

可选的,当存在相似数据商品时,采用下式完成数据商品的价格评估,

<mrow> <mi>&gamma;</mi> <mrow> <mo>(</mo> <mover> <mi>P</mi> <mo>&OverBar;</mo> </mover> <mo>+</mo> <mo>(</mo> <mrow> <mi>F</mi> <mo>-</mo> <mn>0.6</mn> </mrow> <mo>)</mo> <mi>&sigma;</mi> <mo>)</mo> </mrow> <mo>&lt;</mo> <mi>P</mi> <mo>&lt;</mo> <mi>&gamma;</mi> <mrow> <mo>(</mo> <mover> <mi>P</mi> <mo>&OverBar;</mo> </mover> <mo>+</mo> <mo>(</mo> <mrow> <mi>F</mi> <mo>-</mo> <mn>0.4</mn> </mrow> <mo>)</mo> <mi>&sigma;</mi> <mo>)</mo> </mrow> </mrow>

式中,F为价值评估得分,为相似数据商品平均价格,σ为相似数据商品的标准差,γ为用户反馈修正系数,取值区间为[0.9,1],初次使用其值为1;

当不存在相似数据商品时,通过下式评估数据产品的价格:

<mrow> <mi>P</mi> <mo>=</mo> <mover> <mi>P</mi> <mo>^</mo> </mover> <mrow> <mo>(</mo> <mn>1</mn> <mo>+</mo> <mi>F</mi> <mo>)</mo> </mrow> </mrow>

式中,为成本价格,F为价值评估得分。

本发明解决技术问题还采用如下技术方案:一种数据商品的价格评估方法,其包括以下步骤:

S10、确定待评估的数据商品种类;当待评估的数据商品属于结构化数据、非结构化数据和半结构化数据时,则对待评估的数据商品的价格进行评估;当待评估的数据商品不属于结构化数据、非结构化数据和半结构化数据时,则结束对数据商品的价格评估过程;

S20、对数据商品进行质量评估;对数据商品的质量评估包括一致性评估、有效性评估、重复性评估、稀缺性评估、数据量评估和结构化程度评估;

S30、对数据商品进行价格评估;

其中步骤S30具体包括:

S3011、查找相似数据商品;如果存在相似的数据商品,则执行步骤S3012、S3013、S3014和S3015;如果不存在相似的数据商品,则执行步骤S3014和S3016;

S3012、计算相似数据商品平均价格;

S3013、计算相似数据商品的标准差;

S3014、评估数据商品价值;

S3015、根据下式评估数据商品价格:

<mrow> <mi>&gamma;</mi> <mrow> <mo>(</mo> <mover> <mi>P</mi> <mo>&OverBar;</mo> </mover> <mo>+</mo> <mo>(</mo> <mrow> <mi>F</mi> <mo>-</mo> <mn>0.6</mn> </mrow> <mo>)</mo> <mi>&sigma;</mi> <mo>)</mo> </mrow> <mo>&lt;</mo> <mi>P</mi> <mo>&lt;</mo> <mi>&gamma;</mi> <mrow> <mo>(</mo> <mover> <mi>P</mi> <mo>&OverBar;</mo> </mover> <mo>+</mo> <mo>(</mo> <mrow> <mi>F</mi> <mo>-</mo> <mn>0.4</mn> </mrow> <mo>)</mo> <mi>&sigma;</mi> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

式中,F为价值评估得分,为相似数据商品平均价格,σ为相似数据商品的标准差,γ为用户反馈修正系数,取值区间为[0.9,1],初次使用其值为1;

S3016、根据下式评估数据商品价格:

<mrow> <mi>P</mi> <mo>=</mo> <mover> <mi>P</mi> <mo>^</mo> </mover> <mrow> <mo>(</mo> <mn>1</mn> <mo>+</mo> <mi>F</mi> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

式中,为成本价格,F为价值评估得分,即成本法所评估的价格是在成本的基础之上,加上一定的利润额度。

可选的,在所述步骤S20中,通过下式评估数据商品的一致性:

<mrow> <mi>f</mi> <mi>y</mi> <mo>=</mo> <mn>1</mn> <mo>-</mo> <mfrac> <mn>1</mn> <mn>3</mn> </mfrac> <mrow> <mo>(</mo> <mfrac> <mrow> <mo>|</mo> <mrow> <msub> <mi>L</mi> <mi>a</mi> </msub> <mo>-</mo> <msub> <mi>L</mi> <mi>m</mi> </msub> </mrow> <mo>|</mo> </mrow> <mrow> <mi>max</mi> <mrow> <mo>(</mo> <msub> <mi>L</mi> <mi>a</mi> </msub> <mo>,</mo> <msub> <mi>L</mi> <mi>m</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>+</mo> <mfrac> <mrow> <mo>|</mo> <mrow> <msub> <mi>S</mi> <mi>a</mi> </msub> <mo>-</mo> <msub> <mi>S</mi> <mi>m</mi> </msub> </mrow> <mo>|</mo> </mrow> <mrow> <mi>max</mi> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mi>s</mi> </msub> <mo>,</mo> <msub> <mi>S</mi> <mi>m</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>+</mo> <mi>P</mi> <mo>)</mo> </mrow> <mo>,</mo> <mi>P</mi> <mo>&Element;</mo> <mo>{</mo> <mn>0</mn> <mo>,</mo> <mn>1</mn> <mo>}</mo> </mrow>

式中:fy表示一致性指标的得分;La表示实际数据量;Lm表示元数据记录数据量;Sa表示实际数据文件大小;Sm表示元数据记录文件大小;P表示数据格式一致性;使用文件后缀名判别,如果文件后缀名与元数据中记录的数据名相同,则赋值0,否则赋值为1。

可选的,在所述步骤S20中,通过下式评估数据商品的有效性:

<mrow> <mi>H</mi> <mo>=</mo> <mfrac> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>a</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> </mrow> <mi>N</mi> </mfrac> <mo>;</mo> </mrow>

式中,H表示有效性指标的得分;aij表示第i行、第j列数据是否为有效值。如果是有效值则取0,不是有效值则取1;N代表全体的数据个数,假设数据商品共m行、n列,则N=m×n,m,n为自然数。

可选的,在所述步骤S20中,通过下式评估数据商品的重复性:

<mrow> <mi>f</mi> <mi>c</mi> <mo>=</mo> <mn>1</mn> <mo>-</mo> <mfrac> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <msub> <mi>a</mi> <mi>i</mi> </msub> </mrow> <mi>N</mi> </mfrac> <mo>;</mo> </mrow>

式中,fc表示重复性指标的得分,ai表示某条重复记录出现的次数;N为记录的总数;其中,fc取值范围为[0,1],fc值越大,信息重复性小,数据价值越高。

可选的,在所述步骤S20中,根据下式评估数据商品的稀缺性:

<mrow> <mi>f</mi> <mi>x</mi> <mo>=</mo> <mfrac> <mrow> <mn>2</mn> <msup> <mi>e</mi> <mrow> <mo>-</mo> <mi>y</mi> <mo>/</mo> <mi>x</mi> </mrow> </msup> </mrow> <mrow> <mn>1</mn> <mo>+</mo> <msup> <mi>e</mi> <mrow> <mo>-</mo> <mi>y</mi> <mo>/</mo> <mi>x</mi> </mrow> </msup> </mrow> </mfrac> <mo>;</mo> </mrow>

其中,fx表示稀缺性指标的得分,y表示市场出现的相似数据商品的数据数量;x表示当前数据商品的数据数量,e为自然对数的底。

可选的,在所述步骤S20中,根据下式评估数据商品的数据量:

<mrow> <mi>f</mi> <mi>s</mi> <mo>=</mo> <mn>1</mn> <mo>-</mo> <mfrac> <mrow> <mo>|</mo> <mrow> <msub> <mi>L</mi> <mi>a</mi> </msub> <mo>-</mo> <msub> <mi>L</mi> <mi>m</mi> </msub> </mrow> <mo>|</mo> </mrow> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> <mrow> <mo>(</mo> <msub> <mi>L</mi> <mi>a</mi> </msub> <mo>,</mo> <msub> <mi>L</mi> <mi>m</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>

式中,fs表示数据量指标的得分,La表示实际数据量;Lm表示元数据记录数据量;fs的取值范围为[0,1],当fs接近于0说明数据量远小于元数据中的数据量;fs等于1时表明数据量符合元数据提供的数量。

本发明具有如下有益效果:本发明可以数据商品价格评估流程的自动化、标准化,减少人工评估带来的工作量大、主观评估标准不一和技术水平差异大的缺点,使数据商品价格在同一评估体系下进行价格评估,确保数据商品价格的客观性和合理性,有利于数据商品的顺利交易。

附图说明

图1为本发明的数据商品的价格评估系统的结构示意图;

图2为本发明的数据商品的价格评估方法的流程图;

具体实施方式

下面结合实施例及附图对本发明的技术方案作进一步阐述。

实施例1

本实施例提供了一种数据商品的价格评估系统,其包括:

识别模块,其用于识别待评估的数据商品的种类,当待评估的数据商品属于上述结构化数据、非结构化数据和半结构化数据时,则对待评估的数据商品的价格进行评估;当待评估的数据商品不属于结构化数据、非结构化数据和半结构化数据时,则结束本次数据商品的价格评估过程。

质量评估模块,用于对数据商品进行质量评估。本实施例中,所述质量评估模块包括:

一致性评估单元,其用于对数据商品的一致性进行评估,即评估实际数据和承诺的数据是否一致。承诺的数据一般使用元数据。元数据是关于数据的数据,记录了数据商品的各个指标项,比如大小、条数、文件格式、时间、作者等。本实施例中,通过下式评估数据商品的一致性:

<mrow> <mi>f</mi> <mi>y</mi> <mo>=</mo> <mn>1</mn> <mo>-</mo> <mfrac> <mn>1</mn> <mn>3</mn> </mfrac> <mrow> <mo>(</mo> <mfrac> <mrow> <mo>|</mo> <mrow> <msub> <mi>L</mi> <mi>a</mi> </msub> <mo>-</mo> <msub> <mi>L</mi> <mi>m</mi> </msub> </mrow> <mo>|</mo> </mrow> <mrow> <mi>max</mi> <mrow> <mo>(</mo> <msub> <mi>L</mi> <mi>a</mi> </msub> <mo>,</mo> <msub> <mi>L</mi> <mi>m</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>+</mo> <mfrac> <mrow> <mo>|</mo> <mrow> <msub> <mi>S</mi> <mi>a</mi> </msub> <mo>-</mo> <msub> <mi>S</mi> <mi>m</mi> </msub> </mrow> <mo>|</mo> </mrow> <mrow> <mi>max</mi> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mi>a</mi> </msub> <mo>,</mo> <msub> <mi>S</mi> <mi>m</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>+</mo> <mi>P</mi> <mo>)</mo> </mrow> <mo>,</mo> <mi>P</mi> <mo>&Element;</mo> <mo>{</mo> <mn>0</mn> <mo>,</mo> <mn>1</mn> <mo>}</mo> </mrow>

式中:fy表示一致性指标的得分;La表示实际数据量;Lm表示元数据记录数据量;Sa表示实际数据文件大小;Sm表示元数据记录文件大小;P表示数据格式一致性;使用文件后缀名判别,如果文件后缀名与元数据中记录的数据名相同,则赋值0,否则赋值为1。

在所得到的结果中,fy取值范围为[0,1],值越大,一致性越好,数据价值越高。

有效性评估单元,其对数据商品的有效性进行评估,本实施例中,通过计算有效数据在数据量中的占比而得到,公式为:

<mrow> <mi>H</mi> <mo>=</mo> <mfrac> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>a</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> </mrow> <mi>N</mi> </mfrac> </mrow>

式中,H表示有效性指标的得分;aij表示第i行、第j列数据是否为有效值。如果是有效值则取0,不是有效值则取1;N代表全体的数据个数,假设数据商品共m行、n列,则N=m×n,m,n为自然数。

H的取值范围为[0,1],H值越大,表示数据有效性越好。

重复性评估单元,其对数据商品内的数据的重复性进行评估;信息重复性越高,数据价值越小,并通过下式计算:

<mrow> <mi>f</mi> <mi>c</mi> <mo>=</mo> <mn>1</mn> <mo>-</mo> <mfrac> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <msub> <mi>a</mi> <mi>i</mi> </msub> </mrow> <mi>N</mi> </mfrac> <mo>.</mo> </mrow>

式中,fc表示重复性指标的得分,ai表示某条重复记录出现的次数;N为记录的总数;其中,fc取值范围为[0,1],fc值越大,信息重复性小,数据价值越高。

稀缺性评估单元,其对数据商品的稀缺性进行评估;如果同类数据越多,稀缺性越低;同类数据越少,稀缺性越高,并通过下式计算:

<mrow> <mi>f</mi> <mi>x</mi> <mo>=</mo> <mfrac> <mrow> <mn>2</mn> <msup> <mi>e</mi> <mrow> <mo>-</mo> <mi>y</mi> <mo>/</mo> <mi>x</mi> </mrow> </msup> </mrow> <mrow> <mn>1</mn> <mo>+</mo> <msup> <mi>e</mi> <mrow> <mo>-</mo> <mi>y</mi> <mo>/</mo> <mi>x</mi> </mrow> </msup> </mrow> </mfrac> <mo>.</mo> </mrow>

其中,fx表示稀缺性指标的得分,y表示市场出现的相似数据商品的数据数量;x表示当前数据商品的数据数量,e为自然对数的底。

数据稀缺性的计算,需要获取当前数据交易市场的数据商品目录,包括数据商品的数量和字段名称。在做比较时,需要将当前数据字段名称提出,依次比较各个数据商品的字段名称,并计算文本相似度。相似度高于某一阈值,则认为它们是相似数据。再用相似数据的数量来计算当前数据的稀缺性,计算文本相似度可以采用现有技术中的方式,在此不再一一赘述。

fx的取值范围为[0,1],当fx接近于0说明数据非常不稀缺;fx等于1时表明当前数据交易市场无相似数据。

数据量评估单元,其对所述数据商品的数据量进行评估;通过计算实际数据量与元数据量的差异来计算数据量指标,公式如下:

<mrow> <mi>f</mi> <mi>s</mi> <mo>=</mo> <mn>1</mn> <mo>-</mo> <mfrac> <mrow> <mo>|</mo> <mrow> <msub> <mi>L</mi> <mi>a</mi> </msub> <mo>-</mo> <msub> <mi>L</mi> <mi>m</mi> </msub> </mrow> <mo>|</mo> </mrow> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> <mrow> <mo>(</mo> <msub> <mi>L</mi> <mi>a</mi> </msub> <mo>,</mo> <msub> <mi>L</mi> <mi>m</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>

式中,fs表示数据量指标的得分,La表示实际数据量;Lm表示元数据记录数据量;fs的取值范围为[0,1],当fs接近于0说明数据量远小于元数据中的数据量;fs等于1时表明数据量符合元数据提供的数量。

结构化程度评估单元,其基于数据内容中的非结构化、半结构化、结构化数据占比,计算数据整体的结构化程度。本实施例中,所述结构化程度评估通过下式计算:fj=0×q+0.5×p+1×h;

式中,fj表示结构化程度指标的得分,q为非结构化比例,p为半结构化比例;h为结构化比例;其中,p+q+h=1。

fj的取值范围为[0,1]之间,fj越小说明是结构化数据越少,反之是结构化数据居多。

价格评估模块,用于对数据商品的价格进行评估,本实施例中,为实现对所述数据商品的价格进行评估,所述价格评估模块包括:

相似数据商品查找单元,其用于获取数据交易市场中的相似数据商品,本实施例中,可以通过获取数据交易市场的数据目录,然后计算文本相似性,找到与当前数据商品的相似数据商品,将这些数据商品的信息提出来,包括价格、条数、大小、字段名、数据商品名等。

文本相似度计算使用夹角余弦公式,首先将所有文本进行中文分词,得到词条文档矩阵,然后利用夹角余弦公式计算文本之间两两的相似度,找到与当前词数集的文本相似度较高的文本,可以认为是当前数据商品的相似数据商品。

相似数据商品平均价格计算单元,用于计算这些相似数据商品的平均价格;本实施例中,首先计算这些数据商品的平均价格和数据量。利用数据量当权重,计算这些价格的加权平均数。假设有z个相似数据商品,它们的平均价格为:

其中,Pi为各个数据商品的价格,Ni为各个数据商品的条数。所述平均价格为当前数据价格的锚,大致确定当前数据商品的价格所在量级。

标准差计算单元,用于计算相似数据商品的标准差;其根据数据商品的平均价格,即每条的数据价格,计算数据价格的标准差,以此衡量数据价格的波动范围。这z个数据商品的标准差为:

其中,Pi为各个数据商品的价格,为数据商品的平均价格,Ni为各个数据商品的条数。

数据商品价值评估单元,其用于评估数据商品价值,本实施例中,首先对数据商品的一致性指标、有效性指标、重复性指标、稀缺性指标、数据量指标和结构化程度指标设置权重,其中各指标的权重参见表一:

表一:各指标的权重

一般认为,一致性、有效性、稀缺性对数据的价格影响最大。一致性得分高说明和承诺的数据一致,可信度高;有效性说明数据的有效可用程度;稀缺性说明了数据的来源是否稀缺和珍贵。

数据量的多少是价格是否累加的因素,如果单位量级的数据具有类似价值,则数据量越大,数据产品价值越高。重复性对数据价值影响不大,只是在按照数据量计费时才考虑是否应该计入价格。结构化程度,间接说明了数据的易用程度,一般来说,结构化数据更利于数据的操作。

本实施例中,根据下式计算数据商品的综合得分:

<mrow> <mi>F</mi> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mn>6</mn> </munderover> <msub> <mi>&alpha;</mi> <mi>i</mi> </msub> <msub> <mi>w</mi> <mi>i</mi> </msub> </mrow>

式中,ai为各个指标的得分,即一致性指标、有效性指标、重复性指标、稀缺性指标、数据量指标和结构化程度指标的得分,wi为各个指标的权重。

数据商品价格评估单元,其用于评估数据商品价格,本实施例中,可以采用下式完成数据商品的价格评估,

<mrow> <mi>&gamma;</mi> <mrow> <mo>(</mo> <mover> <mi>P</mi> <mo>&OverBar;</mo> </mover> <mo>+</mo> <mo>(</mo> <mrow> <mi>F</mi> <mo>-</mo> <mn>0.6</mn> </mrow> <mo>)</mo> <mi>&sigma;</mi> <mo>)</mo> </mrow> <mo>&lt;</mo> <mi>P</mi> <mo>&lt;</mo> <mi>&gamma;</mi> <mrow> <mo>(</mo> <mover> <mi>P</mi> <mo>&OverBar;</mo> </mover> <mo>+</mo> <mo>(</mo> <mrow> <mi>F</mi> <mo>-</mo> <mn>0.4</mn> </mrow> <mo>)</mo> <mi>&sigma;</mi> <mo>)</mo> </mrow> </mrow>

式中,F为价值评估得分,为相似数据商品平均价格,σ为相似数据商品的标准差,γ为用户反馈修正系数,取值区间为[0.9,1],初次使用其值为1。

而且,本实施例中,当网上找不到相似数据商品,可以通过下式评估数据产品的价格:

<mrow> <mi>P</mi> <mo>=</mo> <mover> <mi>P</mi> <mo>^</mo> </mover> <mrow> <mo>(</mo> <mn>1</mn> <mo>+</mo> <mi>F</mi> <mo>)</mo> </mrow> </mrow>

式中,为成本价格,F为数据商品的评估价值,即成本法所评估的价格是在成本的基础之上,加上一定的利润额度。

实施例2

本实施例提供了一种数据商品的价格评估方法,其包括以下步骤:

S10、确定待评估的数据商品种类

本实施例中,所述数据商品的价格评估方法并非适用于所有数据商品,其仅仅适用于结构化数据、非结构化数据和半结构化数据。当待评估的数据商品属于上述数据类型时,则对待评估的数据商品的价格进行评估;当待评估的数据商品不属于上述数据类型时,则结束本次数据商品的价格评估过程。

其中,结构化数据指可以存储在数据库里,可以用二维表结构来逻辑表达实现的数据;非结构化数据是指没有固定结构的数据,包括但不限于办公文档、文本、图片、各类报表、图像和音频、视频数据;半结构化数据是指数据具有隐含结构但又不是以二维表之类的形式存在的,介于结构化和非结构化知识源之间的数据,包括但不限于XML、HTML、JSON等格式的数据。

S20、对数据商品进行质量评估。

本实施例中,对数据商品的质量评估包括一致性评估、有效性评估、重复性评估、稀缺性评估、数据量评估和结构化程度评估。

具体地,所述一致性评估是指实际数据和承诺的数据是否一致。承诺的数据一般使用元数据。元数据是关于数据的数据,记录了数据商品的各个指标项,比如大小、条数、文件格式、时间、作者等。

本实施例中,通过下式评估数据商品的一致性:

<mrow> <mi>f</mi> <mi>y</mi> <mo>=</mo> <mn>1</mn> <mo>-</mo> <mfrac> <mn>1</mn> <mn>3</mn> </mfrac> <mrow> <mo>(</mo> <mfrac> <mrow> <mo>|</mo> <mrow> <msub> <mi>L</mi> <mi>a</mi> </msub> <mo>-</mo> <msub> <mi>L</mi> <mi>m</mi> </msub> </mrow> <mo>|</mo> </mrow> <mrow> <mi>max</mi> <mrow> <mo>(</mo> <msub> <mi>L</mi> <mi>a</mi> </msub> <mo>,</mo> <msub> <mi>L</mi> <mi>m</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>+</mo> <mfrac> <mrow> <mo>|</mo> <mrow> <msub> <mi>S</mi> <mi>a</mi> </msub> <mo>-</mo> <msub> <mi>S</mi> <mi>m</mi> </msub> </mrow> <mo>|</mo> </mrow> <mrow> <mi>max</mi> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mi>a</mi> </msub> <mo>,</mo> <msub> <mi>S</mi> <mi>m</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>+</mo> <mi>P</mi> <mo>)</mo> </mrow> <mo>,</mo> <mi>P</mi> <mo>&Element;</mo> <mo>{</mo> <mn>0</mn> <mo>,</mo> <mn>1</mn> <mo>}</mo> </mrow>

式中:fy表示一致性指标的得分;La表示实际数据量;Lm表示元数据记录数据量;Sa表示实际数据文件大小;Sm表示元数据记录文件大小;P表示数据格式一致性;使用文件后缀名判别,如果文件后缀名与元数据中记录的数据名相同,则赋值0,否则赋值为1。

在所得到的结果中,fy取值范围为[0,1],值越大,一致性越好,数据价值越高。

所述有效性评估,即数据有效性,是指存储在数据库中的数据,应该具有实际使用的意义,也是指数据商品中的数据值均为正确的状态,其值是通过计算有效数据在数据量中的占比而得到,公式为:

<mrow> <mi>H</mi> <mo>=</mo> <mfrac> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>a</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> </mrow> <mi>N</mi> </mfrac> </mrow>

式中,H表示有效性指标的得分;aij表示第i行、第j列数据是否为有效值。如果是有效值则取0,不是有效值则取1;N代表全体的数据个数,假设数据商品共m行、n列,则N=m×n,m,n为自然数。

H的取值范围为[0,1],H值越大,表示数据有效性越好。

所述重复性评估,即信息重复性指标,是计算重复数据的出现比率。信息重复性越高,数据价值越小,并通过下式计算:

<mrow> <mi>f</mi> <mi>c</mi> <mo>=</mo> <mn>1</mn> <mo>-</mo> <mfrac> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <msub> <mi>a</mi> <mi>i</mi> </msub> </mrow> <mi>N</mi> </mfrac> <mo>.</mo> </mrow>

式中,fc表示重复性指标的得分,ai表示某条重复记录出现的次数;N为记录的总数;其中,fc取值范围为[0,1],fc值越大,信息重复性小,数据价值越高。

本实施例中,所述稀缺性评估根据同类数据的提供情况,计算数据的稀缺程度。如果同类数据越多,稀缺性越低;同类数据越少,稀缺性越高,并通过下式计算:

<mrow> <mi>f</mi> <mi>x</mi> <mo>=</mo> <mfrac> <mrow> <mn>2</mn> <msup> <mi>e</mi> <mrow> <mo>-</mo> <mi>y</mi> <mo>/</mo> <mi>x</mi> </mrow> </msup> </mrow> <mrow> <mn>1</mn> <mo>+</mo> <msup> <mi>e</mi> <mrow> <mo>-</mo> <mi>y</mi> <mo>/</mo> <mi>x</mi> </mrow> </msup> </mrow> </mfrac> <mo>.</mo> </mrow>

其中,fx表示稀缺性指标的得分,y表示市场出现的相似数据商品的数据数量;x表示当前数据商品的数据数量,e为自然对数的底。

数据稀缺性的计算,需要获取当前数据交易市场的数据商品目录,包括数据商品的数量和字段名称。在做比较时,需要将当前数据字段名称提出,依次比较各个数据商品的字段名称,并计算文本相似度。相似度高于某一阈值,则认为它们是相似数据。再用相似数据的数量来计算当前数据的稀缺性,计算文本相似度可以采用现有技术中的方式,在此不再一一赘述。

fx的取值范围为[0,1],当fx接近于0说明数据非常不稀缺;fx等于1时表明当前数据交易市场无相似数据。

所述数据量评估是指数据商品记录的条数,也指数据商品的明细记录总和,并通过计算实际数据量与元数据量的差异来计算数据量指标,公式如下:

<mrow> <mi>f</mi> <mi>s</mi> <mo>=</mo> <mn>1</mn> <mo>-</mo> <mfrac> <mrow> <mo>|</mo> <mrow> <msub> <mi>L</mi> <mi>a</mi> </msub> <mo>-</mo> <msub> <mi>L</mi> <mi>m</mi> </msub> </mrow> <mo>|</mo> </mrow> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> <mrow> <mo>(</mo> <msub> <mi>L</mi> <mi>a</mi> </msub> <mo>,</mo> <msub> <mi>L</mi> <mi>m</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>

式中,fs表示数据量指标的得分,La表示实际数据量;Lm表示元数据记录数据量;fs的取值范围为[0,1],当fs接近于0说明数据量远小于元数据中的数据量;fs等于1时表明数据量符合元数据提供的数量。

结构化程度评估是基于数据内容中的非结构化、半结构化、结构化数据占比,计算数据整体的结构化程度。本实施例中,所述结构化程度评估通过下式计算:fj=0×q+0.5×p+1×h;

式中,fj表示结构化程度指标的得分,q为非结构化比例,p为半结构化比例;h为结构化比例;其中,p+q+h=1。

fj的取值范围为[0,1]之间,fj越小说明是结构化数据越少,反之是结构化数据居多。

S30、对数据商品进行价格评估。

数据评估价格是建立在数据评估价值的基础之上的,只有对数据进行价值评估以后,才能评估价格。评估价格要解决的问题是,评估价值的结果是一个0至1之间的小数,而评估价格是在0到正无穷之间的一个价格。两个评估价值相同的数据商品,对应的价格可能会差距成百倍、上千倍。因此,对数据进行价格评估,需要用锚来确定数据的量级或者波动中心。

本发明中锚的确定,使用市场法和成本法两种评估方法。其中市场法价格评估方法需要获取当前数据交易市场的相似数据商品;对于无法获得相似数据商品的数据商品采取成本法价格评估方法。

本实施例中,所述市场法包括以下步骤:

S3011、查找相似数据商品

首先获取数据交易市场的数据目录,通过计算文本相似性,找到与当前数据商品的相似数据商品,将这些数据商品的信息提出来,包括价格、条数、大小、字段名、数据商品名等。

文本相似度计算使用夹角余弦公式,首先将所有文本进行中文分词,得到词条文档矩阵,然后利用夹角余弦公式计算文本之间两两的相似度,找到与当前词数集的文本相似度较高的文本,可以认为是当前数据商品的相似数据商品。

S3012、计算相似数据商品平均价格

在得到相似的数据商品后,分别计算这些数据商品的平均价格和数据量。利用数据量当权重,计算这些价格的加权平均数。假设有z个相似数据商品,它们的平均价格为:

其中,Pi为各个数据商品的价格,Ni为各个数据商品的条数。所述平均价格为当前数据价格的锚,大致确定当前数据商品的价格所在量级。

S3013、计算相似数据商品的标准差

根据数据商品的平均价格,即每条的数据价格,计算数据价格的标准差,以此衡量数据价格的波动范围。这z个数据商品的标准差为:

其中,Pi为各个数据商品的价格,为数据商品的平均价格,Ni为各个数据商品的条数。

S3014、评估数据商品价值

对数据商品的一致性指标、有效性指标、重复性指标、稀缺性指标、数据量指标和结构化程度指标设置权重,其中各指标的权重参见表二:

表二:各指标的权重

一般认为,一致性、有效性、稀缺性对数据的价格影响最大。一致性得分高说明和承诺的数据一致,可信度高;有效性说明数据的有效可用程度;稀缺性说明了数据的来源是否稀缺和珍贵。

数据量的多少是价格是否累加的因素,如果单位量级的数据具有类似价值,则数据量越大,数据产品价值越高。重复性对数据价值影响不大,只是在按照数据量计费时才考虑是否应该计入价格。结构化程度,间接说明了数据的易用程度,一般来说,结构化数据更利于数据的操作。

本实施例中,根据下式计算数据商品的综合得分:

<mrow> <mi>F</mi> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mn>6</mn> </munderover> <msub> <mi>&alpha;</mi> <mi>i</mi> </msub> <msub> <mi>w</mi> <mi>i</mi> </msub> </mrow>

式中,ai为各个指标的得分,即一致性指标、有效性指标、重复性指标、稀缺性指标、数据量指标和结构化程度指标的得分,wi为各个指标的权重。

S3015、评估数据商品价格

本实施例中,所述数据商品的价格由以下因素决定。首先,平均价格决定了定价的基准。其次,评估价值决定了定价的浮动区间。如果F得分大于0.6,那么该数据商品的价格会在平均价格以上浮动,浮动范围为0.2个标准差。如果F小于0.4,那么该数据商品的价格会在平均价格以下浮动,浮动范围为0.2个标准差。如果F大于0.4小于0.6,那么该数据商品的价格会在平均价格左右浮动,浮动范围为0.2个标准差。最后,用户对该数据商品或类似数据商品的上一次反馈评估值,对数据商品的价格完成最后的修正。

<mrow> <mi>&gamma;</mi> <mrow> <mo>(</mo> <mover> <mi>P</mi> <mo>&OverBar;</mo> </mover> <mo>+</mo> <mo>(</mo> <mrow> <mi>F</mi> <mo>-</mo> <mn>0.6</mn> </mrow> <mo>)</mo> <mi>&sigma;</mi> <mo>)</mo> </mrow> <mo>&lt;</mo> <mi>P</mi> <mo>&lt;</mo> <mi>&gamma;</mi> <mrow> <mo>(</mo> <mover> <mi>P</mi> <mo>&OverBar;</mo> </mover> <mo>+</mo> <mo>(</mo> <mrow> <mi>F</mi> <mo>-</mo> <mn>0.4</mn> </mrow> <mo>)</mo> <mi>&sigma;</mi> <mo>)</mo> </mrow> </mrow>

式中,F为价值评估得分,为相似数据商品平均价格,σ为相似数据商品的标准差,γ为用户反馈修正系数,取值区间为[0.9,1],初次使用其值为1。

本实施例中,当网上找不到相似数据商品,需使用成本法来评估数据产品的价格,具体而言,使用数据商品用户的期望价格、或者数据的购买价格、或者数据的成本价格等,其步骤包括:

首先进行价值评估,即与市场法的步骤S3014相同。

其次,通过下述公式评估数据产品价格。

<mrow> <mi>P</mi> <mo>=</mo> <mover> <mi>P</mi> <mo>^</mo> </mover> <mrow> <mo>(</mo> <mn>1</mn> <mo>+</mo> <mi>F</mi> <mo>)</mo> </mrow> </mrow>

式中,为成本价格,F为价值评估得分,即成本法所评估的价格是在成本的基础之上,加上一定的利润额度。

本实施例中,所述数据商品的价值评估方法还可以包括步骤S40,将所述评估的价格在数据商品信息显示终端上显示。

以上实施例的先后顺序仅为便于描述,不代表实施例的优劣。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1