一种形成知识和构建知识链的方法与流程

文档序号:13736240阅读:396来源:国知局
一种形成知识和构建知识链的方法与流程

本发明涉及生产管理,特别是涉及文本中的知识分析和构建知识链。



背景技术:

文本的语义分析在互联网和大数据时代具有特殊的地位和意义。在各行各业中基础数据处理方式经历了定性—定量—定性的发展过程。原始的定性描述其特点在于该时期相关学科技术不成熟,工程和研究领域得不到或处理不了定量数据,或者数据之间关系无法确定。所以该阶段是较原始的定性分析阶段。之后随着计算机技术的发展,可处理线性或非线性数据,进而对定量数据进行建模、规划、反演等分析,使工程领域的定量数据得到的充分应用。第三阶段是随着互联网和大数据发展,非结构化数据急剧增加,定量分析方法无法处理,因此再次运用定性方法进行描述。此阶段以大数据和深度学习为特征。文本的语义分析就是适应大数据和深度学习的重要方面之一。

关于文本的语义分析,目前主要研究各具特点,但都存在一些不足之处。即如何在文本的叙述中找出知识,进而将知识连接形成一种推理,这种推理就是知识链。在大数据和深度学习组成的基元知识生态系统中,充填了丰富的知识和知识链。知识的产生算法不能太复杂,因为基数较大稍作变化复杂程度迅猛增长;同理知识链的生成也存在相同的问题。

考虑人分析文本的过程,一般吸收信息的单位是句,即一句话。每一句话相当于给出了一个知识。当人读完所有的文本,则建立起一条或多条知识链。当然这些文本信息中有孤立的知识不构成知识链,也有冗余和矛盾的知识。这样需要对知识的有效性进行分析。得到有效知识通过知识之间的关系建立知识链。一条知识链叙述了一个完整的事实,翻译成文本形式是一段推理或表述,描述文本中的一个中心意思。当然可根据要解决的问题来形成知识链,比如对于企业安全现状的评述文本,从其中找出安全问题和对策;又如企业生产经营管理调研报告,从中找出不合理问题及其对策。

这里给出一种形成知识和构建知识链的方法,即基元图的方法。该方法源于可拓学的基元理论,进一步图形化表示。知识的基本单元是文本中的以句号分割的论述单位。再通过知识之间对象关系进行连接形成知识链。使用该方法分析某服装集团生产经营调研报告,从中找出问题并给出解决方法。



技术实现要素:

1基元与基元图

在大数据和深度学习的知识生态环境下,信息和知识成为解决实际问题的重要资源,同时也产生了信息爆炸和知识过载等问题。可拓学中的基元将信息表达为对象,属性,量值的三元组形式,构建问题描述模型。以基元形式化表达信息的方式如式(1)所示。

式中:o(object)表示某对象(物、动作或关系词),c1,c2,…,cn表示对象o的n个特征,v1,v2,…,vn表示对象o关于上述特征的相应量值。

以上描述了基元的形式和用途,如下进行基元图的构建。基元图的中心为基元模型中的object,也是一个知识的核心,由于构建知识的单位是文本中的一句话。一般这句话的中心对象就是object。例如:小明是学生,学习兴趣低,期末考试必须及格。这句话中的object是小明;属性(特征)为学习兴趣度和××期末考试成绩,值分别是低和及格。使用基元表示如式(2)所示。用基元图表示如图1所示。

基元图表示知识的核心object的特点是只有向外的箭头线,箭头线指向属性。属性分为指标属性、倾向属性和对象属性。指标属性泛指外界对对象object的希望和要求,如期末考试,是一种被动的状态。倾向属性泛指对象object自身的期望和考量,如学习,是一种主动的状态。对象属性泛指对象object相关联的其他object,如学生,是一种关联状态,引出相关的知识。对象属性是形成知识链的关键,可认为对象属性是对object的进一步解释,用以知识的扩展。

指标属性、倾向属性和对象属性可以有对应的值,图中属性和值用“|”分开。一个object是否具有属性,属性是否具有值取决于对应的那句文本。一般情况下指标属性和倾向属性是有值得,否则这两个属性存在将失去意义。对象属性可以没有值,只作为对象相互连接形成知识链的桥梁。具备指标属性和倾向属性的对象才能称为知识,对象和对象之间的连接形成知识链。可认为对象的集合是知识链的骨架,而属性则是描述知识的状态。那么具有n个属性的基元图基本形式表示为图2所示。

图2中可以看到只存在一层的对象与属性关联作用,这样设置考虑三方面因素。一是一句文本中一般只包含一层意思,不会表达多层含义;二是人脑的思维总是一层一层的联想和分析的。三是具体实现方法时考虑使用关系数据库,可将每个对象与属性的关联作用作为成对信息存储于数据库。

另外还需注意,在由多个知识组成的基元知识生态系统中,可能有隐含的知识。这些知识隐含在生态系统中,对于计算机而言是隐秘的,而对于人来说是显而易见的。例如实例分析中的生产企业、销售企业和集团知识的基元图。实际中还是需要人工设定,实质上是对信息的相关性分类,是一种有师学习。

2基元图构建知识链

以句号分割的一句文本可以形成一个知识,那么在一段文本中的若干句文本可形成至少一条知识链。形成知识链的动力是知识的进一步解释,即用object的对象属性解释object。如仍解释不清则对象属性作为object后的对象属性进一步解释,如图3中小明—学生,学生—目标|学习,进而形成链状结构。这种对object的遍历是深度的,理论上可贯穿分布在整个基元知识生态系统中的所有相关知识,具体的可根据所解决的问题而定。

知识链是广义的,可以是单向的、双向的,甚至树状的,但绝不可能是环状的。因为环状知识链意味着知识的循环解释,即用未解释的知识解释未解释的知识。另外一个文本中所有知识形成的基元知识生态系统中,可能出现不属于任何知识链的知识,在形成知识链的推理过程中是无用的。两个知识链通过一个知识时,可在一定程度上证明两个知识链存在着关联性,也可以适当的合并知识链。举简短文:小明是学生,学习兴趣低,期末考试必须及格。学生的第一目标就是学习。这个两句话组成的文本可以表示为图3。

图3中虚线可表示一个知识链,有两个对象object组成,一个是小明,一个是学生。从小明出发,了解到的信息是小明是学生,所以目标是学习,但是小明学习兴趣低,所以规定了期末考试必须及格。实现上述知识链在数据库中的存储,可表示为4行成对数据,即小明—学习兴趣|低;小明—学生;小明—期末考试|及格;学生—目标|学习。至于在数据库中的查找和知识的连接算法可使用数据库一般操作方法。

上述例子比较简单,只说明了如何构建知识和知识链。知识构成知识链可用于文本语义分析,进行逻辑推理,分析文本中隐含的问题。下面给出一个实际的企业调研信息进行分析。

附图说明

图1基元图

图2n个属性的基元图

图3知识链

图4基元知识生态系统

具体实施方式

某服装集团下属5家生产企业和3家销售公司,集团管理层对年度利润和生产情况调查,得到的结论如下:5家生产企业和3家销售公司的年度利润指标都完成良好,但集团整体利润却不升反降。针对这一现象集团要求找到原因并给出对策。

如下是对这5家生产企业、3家销售公司和集团进行调研所得到的信息,当然实际信息很多,这里给出的是具有代表性的信息。将这些文本信息用句号隔开可形成16句话,即16个知识。

1)集团公司以利润完成指标对各下属单位包括生产厂实施业绩考核管理。

2)生产企业在产能不足的情况下,面临如何对内销订单和外贸订单进行取舍的问题。

3)生产类型有三类:①面向自营渠道订货的生产,②面向单位团购的定制生产,③oem贴牌代加工生产。

4)衬衫的加工费:①面向自营渠道订货的生产,(14元/件)②面向单位团购的定制生产,(18元/件)③oem贴牌代加工生产,(18元/件)。

5)衬衫的平均加工批量:①面向自营渠道订货的生产,(100-900件/批)②面向单位团购的定制生产,(10-24件/批)③oem贴牌代加工生产,(2100-3000件/批)。

6)生产厂利润来源:①面向自营渠道订货的生产,(35%)②面向单位团购的定制生产,(12%)③oem贴牌代加工生产,(53%)。

7)衬衫的平均交货率:①面向自营渠道订货的生产,(87%)②面向单位团购的定制生产,(78%)③oem贴牌代加工生产,(100%)。

8)单件衬衫对集团的毛利润:①面向自营渠道订货的生产,(220元)②面向单位团购的定制生产,(290元)③oem贴牌代加工生产,(11元)。

9)各加工类型占集团公司利润比重:①面向自营渠道订货的生产,(71%)②面向单位团购的定制生产,(7%)③oem贴牌代加工生产,(22%)。

10)2年后销售量与发货量的比率:①面向自营渠道订货的生产,61%;②面向单位团购的定制生产,100%;③oem贴牌代加工生产,100%。

11)集团财务数据统计显示,企业利润来源主要是自营专卖店销售和团购业务销售。

12)利润指标是集团对下属单位考核的主要指标之一,生产厂连续3年平均利润都完成指标的96%以上,但销售公司利润只完成82%,集团整体利润只完成87%。

13)对完成利润指标低于85%的下属单位负责人,年底扣发奖金,公示、降职。

14)影响自营专卖店销售的主要因素是畅销品缺货,订货后生产交货不及时;交货不及时也是造成团购客户不满意的主要因素。

15)生产厂一旦承接oem贴牌代加工生产订单,则往往生产能力不足,需要统筹安排生产计划。

16)生产厂的加工规则是:优先加工利润高、批量大的订单。

根据上述16条叙述信息绘制基元图表示知识并建立知识链。当然上述16条信息中存在重复、冗余和不相关信息。绘图过程是人工完成的,在分析过程中重复、冗余和不相关的知识进行了处理。使用者16条信息表示成知识组成的基元知识生态系统如图4所示。

首先对图4进行说明,对象或属性中“数字+)”的组合表示知识与上述16条信息的对应关系;①、②、③分别表示面向自营渠道订货的生产、面向单位团购的定制生产和oem贴牌代加工生产,进而简化图中表示。图中的虚线表示连接在一起的知识链,交叉位置不表示相交。下面来具体分析图4中反映的信息。

问题描述,为什么生产企业和销售公司的年度利润指标都完成良好,但集团整体利润下降。

从生产企业→优先加工利润高、批量大的订单+完成利润指标85%→生产厂利润来源→③oem贴牌代加工生产(53%);生产企业→批量大的订单→衬衫的平均加工批量→oem贴牌代加工生产,(2100-3000件/批)。结论生产企业→oem贴牌代加工生产。

从销售企业→完成利润指标85%→销售量与发货量的比率→②面向单位团购的定制生产+oem贴牌代加工生产。结论销售企业→②面向单位团购的定制生产+③oem贴牌代加工生产。

从集团→集团财务数据统计+各加工类型占集团公司利润比重+单件衬衫对集团的毛利润→①面向自营渠道订货的生产+②面向单位团购的定制生产。结论集团→①面向自营渠道订货的生产+②面向单位团购的定制生产。

上述知识链说明,生产企业为了追求利益和指标最终倾向于③oem贴牌代加工生产;销售企业为了完成指标倾向于②面向单位团购的定制生产和③oem贴牌代加工生产。而集团则希望①面向自营渠道订货的生产+②面向单位团购的定制生产。可见各方的利益不同,完成订单的形式也不同。

从图4中可以看出,一些知识并不属于任何知识链。他们在问题的分析中不起任何作用。也有一些知识是重复的,比如2),15)和16)条,订单的舍弃与追求利益是等价的,图中并未知识化2)条。而将16)作为倾向属性与企业相连。12)条论述与所解决问题等价,且与1)条的考核管理—利润指标等价,所以并未知识化12)条。13)条为生产企业和销售企业的指标属性。7)和14)条等价,同时说明了直营店与生产企业的关系。生产企业、集团和销售企业是暗含的对象object,上述16条均属于对这三个object的描述,所以可形成三个知识。图4中共有13个知识和三条知识链构成了基元知识生态系统,其中发挥作用的有9个,另外4个为无用知识。所以针对生产和销售企业利润与集团利润的矛盾问题分析,上述16条信息中心只有16)、13)、5)、6)、8)、9)、10)和11)条是起作用的。

根据分析结果解决上述矛盾。首先明确关系,集团是下属企业的管理者,不创造直接利润,但制定指标是其主要作用。生产和销售企业在完成指标的前提下,追求最大利益。最大利益的最求是不可避免的,所以只能改变指标。从集团的整体利益出发,①面向自营渠道订货的生产占利润比重最大;单件衬衫对集团的毛利润①和②远大于③。所以考核指标的制定要优先保证①和②生产;或者将5家生产企业中指定几家专门保证①和②生产,其余进行③生产,执行不同的考核指标。核心就是保证集团利益的最大化。理论上这两种方法都是以增加知识作为途径,进而可产生新的知识链,以寻求解决问题的最优方案。

当然上述16条信息可以进一步绘制成更为细致的基元图表示知识,问题的不同也可以得到不同的知识链。这是个千变万化的问题,如果可以把信息完全详细地分解为基元图表示的基元知识生态系统,那么这个系统是唯一的,因为信息唯一。由于分析问题不同生成的知识链可以也不同。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1