1.本发明实施例涉及数据分析技术领域,尤其涉及一种数据钻取方法、装置、服务器及存储介质。
背景技术:2.目前,在政务服务的业务场景中,根据业务数据分析时,例如分析“为什么当前办证量突增”的原因时,通常,依赖业务分析员的经验得到分析结果,因结果的准确性完全依赖分析人员的经验,分析的结果存在一定的主观性,尤其对于没有经验的分析人员来说,不仅更加耗时耗力,结果的准确性也难以得到保证,而且依赖人工分析原因的方式,还存在效率底下的问题。若要提高结果的准确性,需要耗费更多资深的人力资源,具有较高的人力成本问题。因此,在政务服务领域,目前亟需一种数据钻取方法,以自动根据业务数据给出结果的原因。
技术实现要素:3.有鉴于此,本发明实施例提供一种数据钻取方法、装置、服务器及存储介质,以实现自动根据业务数据分析并给出结果的原因。
4.第一方面,本发明实施例提供了一种数据钻取方法,包括:
5.根据预先所构建数据字典,从确定的待钻取文本中选定钻取指标,并确定所述钻取指标关联的因果信息组合;
6.确定各所述因果信息组合的排列指标值,并按照各所述排列指标值对各所述因果信息组合排序;
7.根据排序后的因果信息组合结合设定的因果筛选策略,确定所述钻取指标对应的目标因果信息。
8.第二方面,本发明实施例还提供了一种数据钻取装置,包括:
9.信息组合确定模块,用于根据预先所构建数据字典,从确定的待钻取文本中选定钻取指标,并确定所述钻取指标关联的因果信息组合;
10.指标值确定模块,用于确定各所述因果信息组合的排列指标值,并按照各所述排列指标值对各所述因果信息组合排序;
11.因果信息确定模块,用于根据排序后的因果信息组合结合设定的因果筛选策略,确定所述钻取指标对应的目标因果信息。
12.第三方面,本发明实施例还提供了一种服务器,所述服务器包括:
13.一个或多个处理器;
14.存储装置,用于存储一个或多个程序;
15.当所述一个或多个程序被所述一个或多个处理器执行时,使得所述处理器实现如本发明实施例中任一所述的数据钻取方法。
16.第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机
程序,所述计算机程序被处理器执行时实现如本发明实施例中任一所述的数据钻取方法。
17.本发明实施例的技术方案,通过根据预先所构建数据字典,从确定的待钻取文本中选定钻取指标,并确定所述钻取指标关联的因果信息组合;确定各所述因果信息组合的排列指标值,并按照各所述排列指标值对各所述因果信息组合排序;根据排序后的因果信息组合结合设定的因果筛选策略,确定所述钻取指标对应的目标因果信息。上述技术方案,在基于数据字典得到钻取指标的因果信息组合的基础上,并结合因果筛选策略得到最终的目标因果信息,相比现有技术,提供了一套根据业务数据可以自动分析并给出结果原因的方法,可以为业务分析员在进行业务数据分析时提供有力的参考依据,从而可以提高业务数据分析的精确度以及效率。
附图说明
18.图1为本发明实施例一提供的一种数据钻取方法的流程图;
19.图2为本发明实施例二提供的一种数据钻取方法的流程图;
20.图3是本发明实施例三提供的一种数据钻取装置的结构示意图;
21.图4为本发明实施例四提供的一种服务器的结构示意图。
具体实施方式
22.下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
23.实施例一
24.图1为本发明实施例一提供的一种数据钻取方法的流程图,本实施例可适用于数据钻取的情况,例如可以根据文本数据信息自动分析出相应的原因信息,该方法可以由本发明实施例中的数据钻取装置来执行,该装置可采用软件和/或硬件的方式实现,并集成在服务器中。如图1所示,该方法具体包括如下步骤:
25.s110、根据预先所构建数据字典,从确定的待钻取文本中选定钻取指标,并确定钻取指标关联的因果信息组合。
26.其中,数据字典可以包括表结构schema信息和各种数据表等信息。需要说明的是,根据业务需求的分析,可以形成各种数据表,例如可以包括数据的来源以及数据去向的数据表,数据之间的上下游来源以及去向的数据表,描述各业务属性、业务语义含义以及业务含义和业务属性关联信息的数据表,以及描述目标指标与各维度关联信息的数据表等信息。表结构schema信息可以认为是用于描述各数据表的结构和属性信息以及表征不同数据表之间关系的结构表。而依据表结构schema信息可以构建指标库模型。
27.其中,待钻取文本可以理解为待业务数据分析文本,待钻取文本可以包括政务相关的业务内容,例如“为什么当前办证量突增”。对于待钻取文本的来源,本发明实施例对此不作限制,例如可以来自对用户的语音请求进行语音识别(语音转文字)而确定的待钻取文本,也可以来自对用户的文本请求进行信息提取而确定的待钻取文本。当然,待钻取文本中所包括的内容的语言可以是中文的。其中,钻取指标可以理解为数据字典中与待钻取文本中的关键词相匹配的专业词汇或信息。其中,因果信息组合可以理解为一个结果信息可以
有多个不同维度原因信息的组合,例如一个结果(问题)是“为什么当前办证量突增”,那么相应的原因(答案)可以是多种的,可以从不同维度分析或利用各种方法得到的各种原因。
28.本发明实施例,可以将预先构建的数据字典中的信息与从确定的待钻取文本中的关键词进行匹配,从而可以从数据字典中筛选出与待钻取文本中的关键词相匹配的信息,并可以根据预先定义的规则以及数据字典中的信息构建出与钻取指标关联的因果信息组合。
29.s120、确定各因果信息组合的排列指标值,并按照各排列指标值对各因果信息组合排序。
30.可以理解的是,每一个结果(问题)可以有多个原因(答案),但每个原因(答案)对该结果(问题)的解答所作出的贡献是不同的。因此,排列指标值可以理解为贡献度。
31.本发明实施例,可以通过将因果信息组合中的每个原因信息(答案)与相应的结果(问题)进行语义相似度的计算,所计算的相似度的值可以作为排列指标值,并且可以按照该排列指标值对因果信息组合进行排序,具体来说,可以按照降序进行排序,例如排列指标值越高的,相应的原因信息(答案)越靠前。
32.s130、根据排序后的因果信息组合结合设定的因果筛选策略,确定钻取指标对应的目标因果信息。
33.本发明实施例,可以对排序后的因果信息组合再次进行筛选,可以将排序后的因果信息组合结合设定的因果筛选策略,筛选出与钻取指标对应的目标因果信息,从而可以为用户提供与钻取指标更匹配的因果信息。其中,因果筛选策略可以是按照排列指标值对应的贡献度从大到小的顺序将排列指标对应的贡献度进行累加,如果所累加的值大于一定的阈值,则停止累加,结束累加之后,将参与累加的贡献度所对应的各因果信息组合作为与钻取指标对应的目标因果信息。
34.本发明实施例的技术方案,通过根据预先所构建数据字典,从确定的待钻取文本中选定钻取指标,并确定钻取指标关联的因果信息组合;确定各因果信息组合的排列指标值,并按照各排列指标值对各因果信息组合排序;根据排序后的因果信息组合结合设定的因果筛选策略,确定钻取指标对应的目标因果信息。上述技术方案,在基于数据字典得到钻取指标的因果信息组合的基础上,并结合因果筛选策略得到最终的目标因果信息,相比现有技术,提供了一套根据业务数据可以自动分析并给出结果原因的方法,可以为业务分析员在进行业务数据分析时提供有力的参考依据,从而可以提高业务数据分析的精确度以及效率。
35.实施例二
36.图2为本发明实施例二提供的一种数据钻取方法的流程图,本发明实施例以上述实施例为基础进行优化。如图2所示,本发明实施例二提供的一种数据钻取方法,具体包括如下步骤:
37.s201、对待钻取文本进行分词处理,获得包含至少一个关键名词的名词列表。
38.本发明实施例,可以对待钻取文本进行分词处理,具体来说,可以先将停用词、标点符号、无意义的词进行过滤,然后可以按照词性进行分词,当然也可以利用分词工具按照词性进行分词,每个词之间可以用空格隔开。为了能够得到更具有代表文本意义的关键词,可以按照名词进行分词,从而可以得到一个或多个关键名词,该一个或多个关键名词可以
组成一个名词列表。
39.s202、根据名词列表及数据字典中的指标库模型,确定钻取指标。
40.其中,指标库模型可以是由根据表结构schema信息构建的模型。
41.本发明实施例,可以将名词列表中的名词分别与数据字典中的指标模型中的信息进行匹配,以能够在指标库模型中筛选出与名词列表中的名词相匹配的信息,即钻取指标。当然,一个名词可以匹配一个或多个钻取指标。例如名词为a,所匹配的钻取指标可以是c和d。又如,名词为“办证量”,匹配的钻取指标为“办件量”。
42.s203、根据预定义的分析维度规则以及数据字典中的数据信息,构建钻取指标的因果信息组合。
43.其中,分析维度规则可以理解为基于业务分析员的分析数据的历史经验而积累的规则,例如,时间维度、地域维度以及人员维度等维度。
44.本发明实施例,可以根据预先定义的分析维度规则以及数据字典中信息构建出与钻取指标关联的因果信息组合。具体的,可以按照时间维度、地域维度以及人员维度在数据字典的数据信息中查找与钻取指标关联的维度信息,然后根据分析维度规则将这些维度信息与钻取指标组合构建因果信息组合。
45.s204、针对每种因果信息组合,根据数据字典中涉及的数据表、所关联元数据的数据地图,确定因果信息组合的排列指标值。
46.其中,元数据可以理解为描述数据属性的信息,具有指示存储位置、历史数据、资源查找、文件记录等功能。数据地图可以是数据与地图结合的图,可以用于分析和展示与位置相关的数据。
47.本发明实施例,对于每种因果信息组合,可以根据数据字典中设计的数据表、关联的元数据的数据地图自动计算得到排列指标值。
48.s205、根据排列指标值以及相关趋势计算公式,确定因果信息组合相对钻取指标的因果贡献度。
49.其中,相关趋势计算公式可以理解为具有突出排列指标值的短期趋势的作用。如果将当前时间业务范围的排列指标值记为t,前一周期时间业务范围排列指标值记为y,则相关趋势计算公式可以等于(t-y)/y*100%。以当天(江门)使用移动端办件量为例,当前时间可以是当天,业务范围可以是江门;前一周期时间可以是前一天。
50.本发明实施例,可以根据排列指标值以及相关趋势计算公式相结合,则可以得到因果信息组合对应于钻取指标的因果贡献度。
51.s206、将各因果信息组合按照因果贡献度由高到低排序。
52.本发明实施例,可以按照因果贡献度对因果信息组合由高到低进行排序。
53.s207、获取包含排序后各因果信息组合的组合队列,并获得各因果信息组合基于所对应排列指标值确定的因果贡献度。
54.本发明实施例,可以获取按照因果贡献度由高到低排序后的各因果信息组合的组合队列,同时获取各因果信息组合基于排列指标值确定的因果贡献度,也就说也获取组合队列中的各因果信息组合对应的因果贡献度。
55.s208、从组合队列中首个因果信息组合开始,进行相应因果贡献度的累加,并将累加结果与设定的因果筛选阈值进行比对。
56.本发明实施例,可以从组合队列中的第一个因果信息组合开始,可以按照由前往后的顺序将相应的因果贡献度进行累加,并可以将累加结果值与设定的因果筛选阈值进行比对。其中,因果筛选阈值可以为80%。
57.具体来说,可以先取因果贡献度最大的两个值压入栈中进行累加,然后从栈中取出两个值累加,最后着将累加值入栈;接下来可以继续将排序为第三的因果贡献度的值压入栈中,然后,从栈中取出两个值累加,最后着将累加值入栈;接下来的操作依次类推。每次在将累加值压入栈前判断累加值是否达到了阈值,如果没有,则继续压入栈中,如果达到了阈值,则停止压入栈中。其中,栈可以是一种仅在表尾插入和删除操作的线性表。
58.s209、当累加结果大于因果筛选阈值时,结束因果贡献度的累加操作。
59.本发明实施例,可以将累加的结果值与因果筛选阈值进行比较,如果累加的结果值大于因果筛选阈值时,就停止因果贡献度的累加。
60.s210、将因果信息组合中参与因果贡献度累加的各因果信息组合确定为钻取指标的目标因果信息。
61.本发明实施例,在结束因果贡献度的累加之后,可以将因果信息组合中的参与因果贡献度累加的各因果信息组合确定为钻取指标的目标因果信息,也就是说,将因果贡献度累加结束之前对应的各因果信息组合确定为钻取指标的目标因果信息(原因)。
62.进一步的,在上述发明实施例的基础上,根据名词列表及数据字典中的指标库模型,确定钻取指标,包括:
63.a1、将名词列表中各关键名词与数据字典中的指标库模型进行匹配,相对各关键名词分别选定至少一个相匹配的钻取候选指标,构成相应的候选列表。
64.本发明实施例,可以将名词列表中的各个关键名词,分别与数据字典中的指标库模型中的信息进行匹配,一个关键名词可以匹配一个或多个钻取候选指标,并构成相应的候选列表,也就是说,一个关键名词对应一个候选列表,名词列表中有多个关键名词,那么相应的有多个候选列表,而且一个候选列表中可以有一个或多个钻取候选指标。
65.b1、将各候选列表分别映射到多维空间向量,确定各多维空间向量与数据字典所包含数据表的相似度值。
66.本发明实施例,可以将各候选列表分别映射到多维空间向量,当然可以通过词向量工具将候选列表中的词映射到多维空间向量中,相应的也可以通过词向量工具将数据字典中的数据表分别映射到多维空间向量中,从而各候选列表所对应的多维空间向量可以和各数据表所对应的多维空间向量进行相似度的计算,并可以确定相应的相似度值。
67.c1、确定最高相似度值对应的目标数据表和目标候选列表,将目标候选列表中各钻取候选指标与目标数据表中指标进行匹配,将最高度量值对应的钻取候选指标作为钻取指标。
68.本发明实施例,在得到各候选列表与所有数据表的相似度值之后,可以得到相似度值最高的所对应的目标数据表和目标候选列表,然后将目标候选列表中各钻取候选指标分别与目标数据表中的指标(信息)进行匹配,将所匹配的最高度量值所对应的钻取候选指标作为钻取指标。
69.进一步的,在上述发明实施例的基础上,根据预定义的分析维度规则以及数据字典中的数据信息,构建钻取指标的因果信息组合,包括:
70.a2、基于数据字典中的数据信息,从时间维度、地域维度以及人员维度查找与钻取指标关联的维度信息。
71.其中,时间维度可以理解为以天、月或年等为单位的维度,地域维度可以理解为与地名相关的维度,人员维度可以理解为人名、年龄或人所做的事情等维度。
72.本发明实施例,可以基于数据字典中的数据信息,可以按照时间维度、地域维度以及人员维度查找与钻取指标关联的维度信息。例如,可以按照最后一天或最近一个月、江门或广州以及年龄的维度查找“办件量”相关联的维度信息。其中,最近一天和最近一月可以理解为时间维度,江门和广州可以理解为地域维度,“办件量”为钻取指标。
73.b2、根据分析维度规则将时间维度、地域维度以及人员维度对应的各维度信息与钻取指标进行组合,获得至少一种第一因果信息组合。
74.本发明实施例,可以将时间维度、地域维度以及人员维度对应的各维度信息与钻取指标进行组合,得到一种或多种第一因果信息的组合。例如,最近一天(江门)使用移动端办件量,又如最近一月(广州)使用移动端办件量等,再如江门上线了公积金办理事项,这样的信息组合可以认为是第一因果信息的组合。
75.c2、根据雪花维度建模及钻取指标相关的时间维度、地域维度以及人员维度,确定钻取指标匹配的其他可用维度,并结合数据信息及分析维度规则,获得基于各其他可用维度形成的至少一种第二因果信息组合。
76.其中,雪花维度建模具有维度细分的功能。例如,时间维度为一天,那么根据雪花维度建模可以将一天细分为半天或一个小时等时间维度。又如,地域维度为江门,那么根据雪花维度建模可以将江门市细分为蓬江区、江海区等更细化的地名。
77.本发明实施例,可以根据雪花维度建模及钻取指标相关的时间维度、地域维度以及人员维度,可以分别得到钻取指标匹配的更细化的相应的各其它可用维度,并结合数据信息及分析维度规则,可以获取到基于各可用维度所形成的一种或多种第二因果信息组合。
78.具体的,相关的时间维度、地域维度以及人员维度根据元数据的数据地图进行深度优先遍历,业务范围进行广度优先遍历,在达到最深的路径后进行回溯,因此所有的异常路径都可以被覆盖。根据所得到的路径结合构建的抽象语法树自动生成第二因果信息组合。其中,业务范围也可以通过元数据获得,例如“江门”。
79.d2、将各第一因果信息组合及各第二因果信息组合确定为钻取指标的因果信息组合。
80.本发明实施例,可以将各第一因果信息组合和各第二因果信息组合都作为钻取指标的因果信息组合。
81.进一步的,在上述发明实施例的基础上,在确定钻取指标对应的目标因果信息之后,还包括:
82.采用设定的可视化处理策略,将目标因果信息转化为趋势帕累托图及散点图,并将趋势帕累托图及散点图作为待钻取文本的钻取报告反馈至相关用户。
83.其中,趋势帕累托图可以是按照发生频率大小顺序绘制的直方图,表示有多少结果是已确认类型或范畴的原因所造成。散点图可以是指在回归分析中,数据点在直角坐标系平面上的分布图,散点图表示因变量随自变量而变化的大致趋势。
84.本发明实施例,在得到最终的目标因果信息之后,可以将目标因果信息进行可视化。具体来说,可以采用可视化处理策略,将目标因果信息转换为趋势帕累托图及散点图,同时将该趋势帕累托图及散点图作为待钻取文本的钻取报告反馈至相关业务员或用户,便于业务员或用户查看,同时也使得相关业务员可以通过钻取报告进一步从业务角度来验证结果。
85.实施例三
86.图3是本发明实施例三提供的一种数据钻取装置的结构示意图,可执行本发明任意实施例所提供的数据钻取优化方法,具备执行方法相应的功能模块和有益效果。该装置可以由软件和/或硬件实现,所述装置具体包括:信息组合确定模块310、指标值确定模块320和因果信息确定模块330。
87.信息组合确定模块310,用于根据预先所构建数据字典,从确定的待钻取文本中选定钻取指标,并确定所述钻取指标关联的因果信息组合;
88.指标值确定模块320,用于确定各所述因果信息组合的排列指标值,并按照各所述排列指标值对各所述因果信息组合排序;
89.因果信息确定模块330,用于根据排序后的因果信息组合结合设定的因果筛选策略,确定所述钻取指标对应的目标因果信息。
90.本发明实施例的技术方案,通过信息组合确定模块通过根据预先所构建数据字典,从确定的待钻取文本中选定钻取指标,并确定所述钻取指标关联的因果信息组合;通过指标值确定模块确定各所述因果信息组合的排列指标值,并按照各所述排列指标值对各所述因果信息组合排序;通过因果信息确定模块根据排序后的因果信息组合结合设定的因果筛选策略,确定所述钻取指标对应的目标因果信息。上述技术方案,在基于数据字典得到钻取指标的因果信息组合的基础上,并结合因果筛选策略得到最终的目标因果信息,相比现有技术,提供了一套根据业务数据可以自动分析并给出结果原因的方法,可以为业务分析员在进行业务数据分析时提供有力的参考依据,从而可以提高业务数据分析的精确度以及效率。
91.进一步的,在上述发明实施例的基础上,所述信息组合确定模块包括:
92.名词获取单元,用于对所述待钻取文本进行分词处理,获得包含至少一个关键名词的名词列表;
93.指标确定单元,用于根据所述名词列表及所述数据字典中的指标库模型,确定所述钻取指标;
94.信息组合构建单元,用于根据预定义的分析维度规则以及所述数据字典中的数据信息,构建所述钻取指标的因果信息组合。
95.进一步的,在上述发明实施例的基础上,所述指标确定单元具体用于:
96.将所述名词列表中各关键名词与所述数据字典中的指标库模型进行匹配,相对各关键名词分别选定至少一个相匹配的钻取候选指标,构成相应的候选列表;
97.将各所述候选列表分别映射到多维空间向量,确定各所述多维空间向量与所述数据字典所包含数据表的相似度值;
98.确定最高相似度值对应的目标数据表和目标候选列表,将所述目标候选列表中各钻取候选指标与所述目标数据表中指标进行匹配,将最高度量值对应的钻取候选指标作为
standardarchitecture,isa)总线,微通道体系结构(micro channel architecture,mca)总线,增强型isa总线、视频电子标准协会(video electronics standardsassociation,vesa)局域总线以及外围组件互连(peripheral component interconnect,pci)总线。
119.服务器412典型地包括多种计算机系统可读介质。这些介质可以是任何能够被服务器412访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
120.存储装置428可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(randomaccess memory,ram)440和/或高速缓存存储器442。服务器412可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统434可以用于读写不可移动的、非易失性磁介质(图4未显示,通常称为“硬盘驱动器”)。尽管图4中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如只读光盘(compact disc-read only memory,cd-rom)、数字视盘(digital video disc-read only memory,dvd-rom)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线418相连。存储装置428可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
121.具有一组(至少一个)程序模块426的程序436,可以存储在例如存储装置428中,这样的程序模块426包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块426通常执行本发明所描述的实施例中的功能和/或方法。
122.服务器412也可以与一个或多个外部设备414(例如键盘、指向设备、摄像头、显示器424等)通信,还可与一个或者多个使得用户能与该服务器412交互的设备通信,和/或与使得该服务器412能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口422进行。并且,服务器412还可以通过网络适配器420与一个或者多个网络(例如局域网(localareanetwork,lan),广域网widearea network,wan)和/或公共网络,例如因特网)通信。如图所示,网络适配器420通过总线418与服务器412的其它模块通信。应当明白,尽管图4中未示出,可以结合服务器412使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、磁盘阵列(redundantarrays ofindependent disks,raid)系统、磁带驱动器以及数据备份存储系统等。
123.处理器416通过运行存储在存储装置428中的程序,从而执行各种功能应用以及数据处理,例如实现本发明上述实施例所提供的数据钻取方法。
124.实施例五
125.本发明实施例五提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该程序被处理装置执行时实现如本发明实施例中的数据钻取方法。本发明上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式
紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、rf(射频)等等,或者上述的任意合适的组合。
126.在一些实施方式中,客户端、服务器可以利用诸如http(hypertext transfer protocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“lan”),广域网(“wan”),网际网(例如,互联网)以及端对端网络(例如,ad hoc端对端网络),以及任何当前已知或未来研发的网络。
127.上述计算机可读介质可以是上述服务器中所包含的;也可以是单独存在,而未装配入该服务器中。
128.上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该服务器执行时,使得该服务器:根据预先所构建数据字典,从确定的待钻取文本中选定钻取指标,并确定所述钻取指标关联的因果信息组合;
129.确定各所述因果信息组合的排列指标值,并按照各所述排列指标值对各所述因果信息组合排序;
130.根据排序后的因果信息组合结合设定的因果筛选策略,确定所述钻取指标对应的目标因果信息。
131.可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括但不限于面向对象的程序设计语言—诸如java、smalltalk、c++,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
132.附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令
的组合来实现。
133.描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元的名称在某种情况下并不构成对该单元本身的限定。
134.本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、片上系统(soc)、复杂可编程逻辑设备(cpld)等等。
135.在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
136.注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。