本发明涉及产业链数据分析
技术领域:
,特别涉及一种产业链建模方法及系统。
背景技术:
:现有的产业链建模,依据各类主体在生产、工作、生活中等所获得的大数据内容来自然构建相应的大数据模型,其构建大数据模型流程体系化局限性大,产业价值体现弱,大多只能根据目标产业的部分信息搜索出大量表格和相关图表;并不能将搜索出来的信息进行整理关联,也没有办法用定量的方法对关联产业做出分析,也无法将企业数据库中的候选企业和相关联的企业之间的相似度进行智能分析,只能根据人工思维判断产业之间的相关性,因此对于某企业在该产业的产业链中的定位并不准确,由于对企业的定位判断不准确,导致对该企业的分析有误差,因此,为减少误差和对该企业数据库中的候选企业的精准定位,提出一种产业链建模方法及系统。技术实现要素:本发明的目的旨在至少解决所述的技术缺陷之一。为此,本发明的一个目的在于提出一种产业链建模方法及系统,为了在研究某企业时获得该企业较为精准的定位,能够用定量的智能算法进行企业数据库中的候选企业和相关企业的分析。为了实现上述目的,本发明一方面的实施例提供一种产业链建模方法,包括以下步骤:步骤1、建立产业矩阵,所述产业矩阵根据第一预设属性和第二预设属性进行划分建立,用于覆盖所有企业的产业链方向及服务方向,其中,所述第一预设属性用于表征所述企业的服务方向,包括多个服务属性元素;所述第二预设属性用于表征所述企业的产业链方向,包括多个产业链属性元素,其中,所述产业矩阵包括多个具有服务属性元素和产业链属性元素的企业定位参考元素;步骤2、按照所述产业矩阵,为每个所述企业定位参考元素选取符合其属性的参考企业,并提取每个所述参考企业的特征词;步骤3、从互联网上抓取企业及该企业的相关信息,作为候选企业,根据所述企业及企业的相关信息建立企业数据库,提取所述企业数据库中的每个候选企业的特征词,将每个候选企业的特征词与每个所述参考企业的特征词进行比对,计算相似度;步骤4、针对每个候选企业,选取与其相似度最大的两个参考企业,利用两个参考企业在所述产业矩阵中排列的位置,计算该相似度最大的两个参考企业在所述产业矩阵中的距离,其中,该候选企业在产业链中的位置位于上述相似度最大的两个节点的连线上,进一步计算该候选企业在产业链中的位置;针对所述企业数据库中的每个候选企业,执行步骤s4,计算得到每个候选企业在产业链中的位置。优选的,在步骤1中所述第二预设属性按照从产业链上游、中游、下游的顺序进行排列,所述产业链属性元素至少包括自然资源、原料半成品、专业服务、综合服务、终端用户,其中,所述产业链属性元素可根据用户指令进行扩展;所述第一预设属性中的服务属性元素包括物质、信息、人工。优选的,在步骤3中,所述企业数据库中企业相关信息包括该企业的主营业务、所属领域、经营范围、产品介绍。优选的,在步骤3中,将每个候选企业的特征词与每个所述参考企业的特征词进行比对,计算相似度,包括以下步骤:步骤31、建立涵盖所有企业属性的特征词的词库,提取所述步骤s2中的参考企业的特征词、所述步骤s3中的候选企业的特征词,并将每个特征词匹配相应的权重值;步骤32、将企业数据库中的候选企业的特征词通过词库建立候选企业特征向量,参考企业的特征词通过词库建立参考企业特征向量,将所述候选企业特征向量和所述参考企业特征向量的向量值定义为权重值;步骤33、计算企业数据库中每个候选企业的特征向量和每个参考企业特征向量的余弦值即为相似度。优选的,在步骤4中,预设相邻的所述服务属性元素和产业链属性元素之间的距离值,根据勾股定理计算所述步骤s3中的相似度最大的两个元素之间的距离,按照距离与相似度成反比例公式确定企业数据库中的候选企业的位置x;其中,x表示企业数据库中的候选企业距离相似度最大值节点的距离,d为两个相似度值最大的参考企业在产业矩阵中的距离,d-x表示企业数据库中的候选企业距离相似度次大值节点的距离,a1表示相似度次大值,a2表示相似度最大值。本发明还提供一种产业链建模系统,包括产业矩阵模块、参考企业提取模块、相似度分析模块,位置确定模块;所述产业矩阵模块,根据第一预设属性和第二预设属性进行划分建立,用于覆盖所有企业的产业链方向及服务方向,其中,所述第一预设属性用于表征所述企业的服务方向,包括多个服务属性元素;所述第二预设属性用于表征所述企业的产业链方向,包括多个产业链属性元素,其中,所述产业矩阵包括多个具有服务属性元素和产业链属性元素的企业定位参考元素;所述参考企业提取模块,用于为每个所述企业定位参考元素选取符合其属性的参考企业,并提取每个所述参考企业的特征词;所述相似度分析模块,用于从互联网上抓取企业及该企业的相关信息,作为候选企业,根据所述企业及企业的相关信息建立企业数据库,提取所述企业数据库中的每个候选企业的特征词,将每个候选企业的特征词与每个所述参考企业的特征词进行比对,计算相似度;所述位置确定模块,针对每个候选企业,选取与其相似度最大的两个参考企业,利用两个参考企业在所述产业矩阵中排列的位置,计算该相似度最大的两个参考企业在所述产业矩阵中的距离,其中,该候选企业在产业链中的位置位于上述相似度最大的两个节点的连线上,进一步计算该候选企业在产业链中的位置;针对所述企业数据库中的每个候选企业,执行步骤s4,计算得到每个候选企业在产业链中的位置。进一步,在产业矩阵模块中,所述第二预设属性按照从产业链上游、中游、下游的顺序进行排列,所述产业链属性元素至少包括自然资源、原料半成品、专业服务、综合服务、终端用户,其中,所述产业链属性元素可根据用户指令进行扩展;所述第一预设属性中的服务属性元素包括物质、信息、人工。进一步,,在所述相似度分析模块中,所述企业数据库中企业相关信息包括该企业的主营业务、所属领域、经营范围、产品介绍。进一步,在相似度分析模块中,包括特征词词库单元、特征向量匹配单元、相似度计算单元;所述特征词词库单元,用于建立涵盖所有企业属性的特征词的词库,提取所述参考企业提取模块中的参考企业的特征词、所述企业数据库中候选企业的特征词,并将每个特征词匹配相应的权重值;所述特征向量匹配单元,将企业数据库中的候选企业的特征词通过词库建立候选企业特征向量,参考企业的特征词通过词库建立参考企业特征向量,将所述候选企业特征向量和所述参考企业特征向量的向量值定义为权重值;所述相似度计算单元,计算企业数据库中每个候选企业的特征向量和每个参考企业特征向量的余弦值即为相似度。进一步,在位置确定模块中,预设相邻的所述服务属性元素和产业链属性元素之间的距离值,根据勾股定理计算所述相似度分析模块中的相似度最大的两个元素之间的距离,按照距离与相似度成反比例公式确定企业数据库中的候选企业的位置x;其中,x表示企业数据库中的候选企业距离相似度最大值节点的距离,d为两个相似度值最大的参考企业在产业矩阵中的距离,d-x表示企业数据库中的候选企业距离相似度次大值节点的距离,a1表示相似度次大值,a2表示相似度最大值。根据本发明实施例提供的一种产业链建模方法和系统,与传统的产业链建模相比至少具有以下优点:1、利用产业链矩阵,根据关联性确定产业链属性元素和服务属性元素,从而进行企业数据库中的候选企业的初步位置确定,将抽象的逻辑判断转化成矩阵形式进行展现,给用户直观的感受;2、利用产业链矩阵将企业数据库中的候选企业和关联企业进行相似度分析,通过特征词的向量分析计算出相似度,将相似度按照距离模拟匹配,实现在本产业链的相关企业中进行定位,通过不断调整和细分产业链属性元素和服务属性元素以及特征词,实现精准定位;将模糊的产业定位形象化,同时由于参考节点较多,相似度分析与传统的产业链建模更为精确。3、将检索或者输入的企业数据库中的候选企业信息和相关企业的信息,听过产业链矩阵和特征词等进行关联。4、将模糊的产业链描述数值化和图形化。由于在矩阵中可以不断进行大量企业的相似度分析,所以本建模方法比传统的产业链定性分析更为精确实用、更加便于计算机处理。本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。附图说明本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:图1为本发明实施例一种产业链建模系统的连接示意图;图2为本发明实施例一种产业链建模方法的流程图;图3为本发明实施例一种产业链建模系统中产业矩阵模块的示意图;图4为本发明实施例一种产业链建模系统中位置确定模块的示意图;具体实施方式下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。如图1所示,本发明实施例的,本发明实施例还提供一种产业链建模系统,包括产业矩阵模块1、参考企业提取模块2、相似度分析模块3,位置确定模块4;如图2所示,本发明提供的产业链建模系统按照以下步骤进行企业数据库中的候选企业在相关联的产业链中的位置确定。步骤1,利用产业矩阵模块1,根据第一预设属性和第二预设属性进行划分建立,用于覆盖所有企业的产业链方向及服务方向,其中,所述第一预设属性用于表征所述企业的服务方向,包括多个服务属性元素;所述第二预设属性用于表征所述企业的产业链方向,包括多个产业链属性元素,其中,所述产业矩阵包括多个具有服务属性元素和产业链属性元素的企业定位参考元素;具体地,产业链属性元素服务属性元素将每个企业定位参考元素产业链属性元素按照相同的增量进行赋值;将每个服务属性元素按照英文字母进行定义。进一步的,所述产业链属性元素按照从产业链上游、中游、下游的顺序进行排列,所述产业链属性元素包括自然资源、原料半成品、专业服务、综合服务、终端用户;所述服务属性元素按照企业数据库中的候选企业的交易类型进行设置;包括物质节点、信息节点、人工节点,并用相应的字母表示。如图3所示,任意行业的产业链按照上游到中游到下游的方向假定为水平方向,分为五个节点并给予一个数值表示,即0=自然资源、25=原料半成品、50=专业服务、75=综合服务、100=终端用户。竖直方向为服务属性元素,将任意行业的产业链沿着垂直方向分为三层并赋予编号,最底层为m物质,中层为f信息,上层为h人工,表示在产业链这个位置的企业主要提供物质产品与服务还是信息产品与服务还是人工产品与服务。参考图3,步骤2、按照上述产业链属性元素和服务属性元素,人工选取符合每个节点的的参考企业,并将所选取的参考企业按照产业链属性元素和服务属性元素的顺序进行矩阵排列;根据上述定义在h25、f25、m25、h50、f50、m50、h75、f75、m75这九个区域内分别放置若干企业,每个节点放置的具体企业数量在工程中优化确定。例如对于家电行业来说,液晶基板厂商在m25位置,液晶屏生产商在m50位置,电视机生产商在m75位置。在参考企业提取模块2中,企业数据库中为每个企业定位参考元素选取符合其属性的参考企业,并提取每个所述参考企业的特征词。。步骤3、利用相似度分析模块3,从互联网上抓取企业及该企业的相关信息,作为候选企业,根据所述企业及企业的相关信息建立企业数据库,提取所述企业数据库中的每个候选企业的特征词,将每个候选企业的特征词与每个所述参考企业的特征词进行比对,计算相似度具体的,在相似度分析模块3中,包括特征词词库单元301、特征向量匹配单元302、相似度计算单元303;在相似度分析过程中可以按下述步骤进行;步骤31,在特征词词库单元301中建立涵盖所有企业属性的特征词的词库,提取所述步骤s2中的参考企业的特征词、所述步骤s3中的候选企业的特征词,并将每个特征词匹配相应的权重值;例如:假定一共有5个,权重可以在工程中优化设定。具体的可以按下表赋值计算。词a词b词c词d词e权重=1权重=1权重=1权重=1权重=1步骤32,在特征向量匹配单元302中,将企业数据库中的候选企业的特征词通过词库建立候选企业特征向量,参考企业的特征词通过词库建立参考企业特征向量,将所述候选企业特征向量和所述参考企业特征向量的向量值定义为权重值;假定有两组特征词企业1:词a,词c,词d企业2:词a,词c,词e则通过词库分别建立特征词向量,向量的值就是权重值,没有就取0。企业1:(1,0,1,1,0)企业2:(1,0,1,0,1)步骤33,在相似度计算单元303中,将每个候选企业的特征词与每个所述参考企业的特征词进行比对,计算相似度,计算企业数据库中的候选企业的特征向量和参考企业特征向量的余弦值即为相似度。向量理解为5唯空间的一条直线,计算两条直线在5唯空间的cos余弦:a=企业1*企业2=1*1+0*0+1*1+1*0+0*1=2.0000b=sqrt(1^2+0^2+1^2+1^2+0^2)=1.7320c=sqrt(1^2+0^2+1^2+0^2+1^2)=1.7320相似度=a/(b*c)=0.6667步骤4、利用所述位置确定模块4,针对每个候选企业,选取与其相似度最大的两个参考企业,利用两个参考企业在所述产业矩阵中排列的位置,计算该相似度最大的两个参考企业在所述产业矩阵中的距离,其中,该候选企业在产业链中的位置位于上述相似度最大的两个节点的连线上,进一步计算该候选企业在产业链中的位置;针对所述企业数据库中的每个候选企业,执行步骤s4,计算得到每个候选企业在产业链中的位置。具体的,在位置确定模块4中,预设相邻的所述服务属性元素和产业链属性元素之间的距离值,根据勾股定理计算所述步骤s3中的相似度最大的两个元素之间的距离,按照距离与相似度成反比例公式确定企业数据库中的候选企业的位置x;其中x表示企业数据库中的候选企业距离相似度最大值节点的距离,,d为两个节点之间的距离,d-x表示企业数据库中的候选企业距离相似度次大值节点的距离a1表示相似度次大值,a2表示相似度最大值。例如,通过上述相似度分析模块3计算,每个企业都得到了与九个节点的相似度数字,取不低于某个阈值的相似度作为有效值,该阈值在实际工程中优化确定,由于余弦值的取值范围在【0,1】之间,因此可以先取0.5开始试验。然后取相似度最大的前两个节点,例如某企业的相似度最大值是与h75的相似度0.8100,次大值是与f50的相似度0.7900,则我们在h75和f50之间作一条辅助线。如图4所示,该辅助线的长度=sqrt(25^2+25^2)=35.3553该企业就是在该辅助线上的一个点,假定距离h75的距离为x,距离与相似度成反比,x/(35.3553-x)=0.7900/0.8100x=17.4567从而确定了该企业在产业链中的位置。以此类推确定所有企业的位置。本发明计算企业位置的方法还包括根据候选企业与参考企业相似度的大小进行判断,例如目标企业与位于h50、f50、h75、f75的参考企业的相似度计算出来的相似度均相等,则该企业可直接判断为位于h50、f50、h75、f75连线形成的矩形的中心;相似的如果与h50、h75的相似度为0.6;与f50、f75的相似度为0.4;则该企业位于h50、f50、h75、f75连线形成的矩形中部偏上的位置。专家可以根据计算机形成的产业链模型调整九个节点上的参考企业,计算机则不断重新计算,最终达到满意结果。本发明将模糊的产业链描述数值化和图形化。由于在矩阵中可以不断进行大量企业的相似度分析,所以本建模方法比传统的产业链定性分析更为精确实用、更加便于计算机处理。本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。本发明的范围由所附权利要求及其等同限定。当前第1页12