使用随机文档嵌入的文本数据表示学习的制作方法

文档序号：20515384发布日期：2020-04-24 19:01阅读：172来源：国知局

本发明一般地涉及机器学习系统，并且更具体地，涉及通过使用文本数据的随机文档嵌入来执行机器学习过程。

背景技术：

短语"机器学习"广泛地描述从数据学习的电子系统的功能。机器学习系统、引擎或模块可包括可训练的机器学习算法，其可诸如在外部云环境中被训练以学习输入与输出之间的函数关系，其中函数关系当前未知。

短语"文本数据"广义地描述了包括一个或多个文本序列的电子系统的数据结构，其中每个文本序列持有一个或多个词的分组。文本序列的示例包括句子、段落、文档等。文本数据的示例包括多个句子、多个段落、多个文档等。短语"文本序列"和术语"文档"在本文中经常不可传授地使用。

学习有效的文本表示是许多机器学习和基于自然语言的处理(nlp)任务的关键基础，所述任务诸如文档分类和聚类、文档检索、机器翻译和多语言文档匹配。由于文本中没有明确的特征，一些人试图使用简单的方法，诸如通过使用词袋(bow)技术来开发文本的有效表示。然而，bow方法不考虑文本的词序和词的语义。此外，尽管已知一些词向量技术在语义上产生词表示，但是不太清楚句子或文档表示是否应当被构建在词表示之上或从头开始。一种已知的技术是使用被称为词移距离(wmd)的文档之间的距离度量来对准语义上相似的词。然而，wmd计算起来非常昂贵，并且难以用于超出简单的k最近邻(knn)机器学习方法的特征嵌入。

因此，在本领域中需要解决上述问题。

技术实现要素：

从第一方面来看，本发明提供了一种计算机实现的方法，用于执行针对文本数据的无监督特征表示学习，所述方法包括：由处理器系统产生包括随机文本序列集合的参考文本数据，其中所述随机文本序列集合中的每一文本序列具有随机长度且包括多个随机词，其中每一随机长度是从最小长度到最大长度取样的，且其中所述集合中的每一文本序列的所述随机词是从分布抽取的；由所述处理器系统至少部分地基于所述随机文本序列集合与原始文本数据之间的计算距离的集合来生成用于所述原始文本数据的特征矩阵；以及由处理器系统提供特征矩阵作为一个或多个机器学习模型的输入。

从另一方面来看，本发明提供了一种用于对文本数据执行无监督特征表示学习的系统，该系统包括一个或多个处理器，其被配置为执行一种方法，该方法包括：由所述系统产生包括随机文本序列集合的参考文本数据，其中所述随机文本序列集合中的每一文本序列具有随机长度且包括多个随机词，其中每一随机长度是从最小长度到最大长度取样的，且其中所述集合中的每一文本序列的所述随机词是从分布抽取的；由所述系统至少部分地基于所述随机文本序列集合与原始文本数据之间的计算距离的集合来生成所述原始文本数据的特征矩阵；以及由所述系统提供特征矩阵作为一个或多个机器学习模型的输入。

从另一方面来看，本发明提供了一种用于对文本数据执行无监督特征表示学习的系统，该系统包括：处理器；存储器；参考文本数据产生组件，其被配置为接收原始文本数据的概率分布，并产生包括随机文本序列集合的参考文本数据，其中所述随机文本序列集合中的每一文本序列具有随机长度且包括多个随机词，其中每一随机长度是从最小长度到最大长度取样的，且其中所述集合中的每一文本序列的所述随机词是从所述概率分布抽取的；以及机器学习组件，被配置为：接收所述原始文本数据的特征矩阵，其中所述特征矩阵是至少部分地基于所述随机文本序列集合与所述原始文本数据之间的计算距离的集合而生成的；以及提供特征矩阵作为一个或多个机器学习模型的输入。

从另一方面来看，本发明提供了一种用于对文本数据执行无监督特征表示学习的系统，该系统包括：处理器；存储器；分布生成组件，被配置为生成原始文本数据的概率分布，其中，所述原始文本数据的概率分布是至少部分地基于预先训练或训练的word2vec嵌入空间来生成的；以及特征矩阵生成组件，被配置为：接收包括随机文本序列集合的参考文本数据，其中所述随机文本序列集合中的每个文本序列具有随机长度并且包括多个随机词，其中每个随机长度是从最小长度到最大长度采样的，并且其中所述集合中的每个文本序列的所述随机词是从所述概率分布抽取的；以及使用文档距离测量技术至少部分地基于所述随机文本序列集合与所述原始文本数据之间的计算距离的集合来生成所述原始文本数据的特征矩阵。

从另一方面来看，本发明提供了一种执行对文本数据的无监督特征表示学习的计算机程序产品，该计算机程序产品包括计算机可读存储介质，该计算机可读存储介质可由处理电路读取并且存储由处理电路运行以执行用于执行本发明的步骤的方法的指令。

从另一方面来看，本发明提供了一种存储在计算机可读介质上并且可加载到数字计算机的内部存储器中的计算机程序，包括软件代码部分，当所述程序在计算机上运行时，用于执行本发明的步骤。

本发明的实施例提供了一种用于文本数据的无监督特征表示学习的计算机实现的方法。该方法生成包括随机文本序列集合的参考文本数据。所述随机文本序列集合中的每一文本序列具有随机长度且包含多个随机词。每个随机长度是从最小长度到最大长度采样的，其中从分布中提取所述集合中的每个文本序列的随机词。该方法至少部分地基于所述随机文本序列集合与原始文本数据之间的计算距离的集合来生成原始文本数据的特征矩阵。该方法提供特征矩阵作为一个或多个机器学习模型的输入。

本发明的实施例提供了一种用于执行针对文本数据的无监督特征表示学习的计算机程序产品，该计算机程序产品包括具有随其体现的程序指令的计算机可读存储介质。程序指令可由操作地耦合到一个或多个处理器的系统执行以使系统执行一种方法。该方法生成包括随机文本序列集合的参考文本数据。所述随机文本序列集合中的每一文本序列具有随机长度且包含多个随机词。每个随机长度是从最小长度到最大长度采样的，其中从分布中抽取所述集合中的每个文本序列的随机词。该方法至少部分地基于所述随机文本序列集合与原始文本数据之间的计算距离的集合来生成原始文本数据的特征矩阵。该方法提供特征矩阵作为一个或多个机器学习模型的输入。

本发明的实施例提供了一种用于对文本数据执行无监督特征表示学习的系统。该系统包括被配置为执行方法的一个或多个处理器。该方法生成包括随机文本序列集合的参考文本数据。所述随机文本序列集合中的每一文本序列具有随机长度且包含多个随机词。每个随机长度是从最小长度到最大长度采样的，其中从分布中抽取所述集合中的每个文本序列的随机词。该方法至少部分地基于所述随机文本序列集合与原始文本数据之间的一组计算距离来生成原始文本数据的特征矩阵。该方法提供特征矩阵作为一个或多个机器学习模型的输入。

本发明的实施例提供了一种用于对文本数据执行无监督特征表示学习的系统。该系统包括处理器；存储器；参考文本数据生成组件；以及机器学习组件。参考文本数据生成组件被配置为接收原始文本数据的概率分布，并且生成包括随机文本序列集合的参考文本数据。所述随机文本序列集合中的每一文本序列具有随机长度且包括多个随机词。每个随机长度是从最小长度到最大长度采样的，其中从所述概率分布中抽取集合中的每个文本序列的随机词。机器学习组件被配置为接收用于原始文本数据的特征矩阵，其中特征矩阵至少部分地基于在随机文本序列集合与原始文本数据之间的计算距离的集合来生成。机器学习组件还被配置为提供特征矩阵作为一个或多个机器学习模型的输入。

本发明的实施例提供了一种用于执行产品的系统，该产品用于对文本数据执行无监督特征表示学习。该系统包括处理器；存储器；分布生成组件；以及特征矩阵生成组件。分布生成组件被配置为生成原始文本数据的概率分布，其中原始文本数据的概率分布是至少部分地基于预训练或训练的word2vec嵌入空间来生成的。特征矩阵生成组件被配置为接收包括随机文本序列集合的参考文本数据。所述随机文本序列集合中的每一文本序列具有随机长度且包括多个随机词。每个随机长度已经从最小长度到最大长度采样，其中集合中的每个文本序列的随机词是从概率分布中抽取的。特征矩阵生成组件还被配置为使用文档距离测量技术至少部分地基于在随机文本序列集合与原始文本数据之间的计算距离的集合来生成用于原始文本数据的特征矩阵。

通过本发明的技术实现了额外的技术特征和益处。本发明的实施例和各方面在本文中详细描述，并且被认为是所要求保护的主题的一部分。为了更好地理解，参考详细描述和附图。

附图说明

在说明书的结尾处的权利要求中特别指出并清楚地要求了本文描述的专有权的细节。从下面结合附图的详细描述中，本发明的实施例的前述和其它特征和优点将变得显而易见，其中：

图1示出了根据本发明的一个或多个实施例的云计算环境；

图2示出了根据本发明的一个或多个实施例的抽象模型层；

图3示出了能够实现本发明的一个或多个实施例的示例性计算机系统；

图4描绘了根据本发明的一个或多个实施例的促进使用文本数据的机器学习的示例性系统；

图5描绘了根据本发明的一个或多个实施例的促进使用文本数据的机器学习的另一示例性系统；以及

图6示出了说明根据本发明的一个或多个实施例的方法的流程图。

这里描述的图是说明性的。在不脱离本发明的范围的情况下，可以对其中描述的图或操作进行许多变化。例如，可以以不同的顺序执行动作，或者可以添加、删除或修改动作。此外，术语"耦合"及其变型描述了在两个元件之间具有通信路径，并且不暗示元件之间的直接连接，而在它们之间没有中间元件/连接。所有这些变化都被认为是说明书的一部分。

在附图和以下对所公开的实施例的详细描述中，附图中所示的各种元件具有两位或三位数字参考标号。除了次要的例外，每个参考标号的最左数位对应于其中首先示出其元件的图。

具体实施方式

在此参考相关附图描述本发明的各种实施例。在不偏离本发明的范围的情况下，可以设计本发明的替代实施例。在以下描述和附图中，在元件之间阐述了各种连接和位置关系(例如，上方、下方、相邻等)。除非另有说明，这些连接和/或位置关系可以是直接的或间接的，并且本发明并不旨在在这方面进行限制。因此，实体的偶联可以指直接或间接偶联，并且实体之间的位置关系可以是直接或间接位置关系。此外，本文所述的各种任务和过程步骤可并入具有本文未详细描述的额外步骤或功能性的更综合程序或过程中。

以下定义和缩写用于解释权利要求和说明书。如本文所用，术语"包含"、"包括"、"具有"、"含有"或其任何其它变型旨在涵盖非排他性的包括。例如，包括一系列要素的组合物、混合物、工艺、方法、制品或装置不一定仅限于那些要素，而是可以包括未明确列出的或此类组合物、混合物、工艺、方法、制品或装置所固有的其他要素。

另外，术语"示例性"在本文中用于表示"用作示例、实例或说明"。在此描述为"示例性"的任何实施例或设计不一定被解释为比其它实施例或设计更优选或有利。术语"至少一个"和"一个或多个"可以理解为包括大于或等于一的任何整数，即一、二、三、四等。术语"多个"可以理解为包括大于或等于二的任何整数，即二、三、四、五等。术语"连接"可以包括间接"连接"和直接"连接"两者。"

术语"约"、"基本上"、"大约"及其变体旨在包括与基于提交本申请时可用的设备的特定量的测量相关联的误差度。例如，"约"可以包括给定值的±8％或5％或2％的范围。

为了简洁起见，与制造和使用本发明的方面相关的常规技术可以或可以不在本文中详细描述。特别地，用于实现本文描述的各种技术特征的计算系统和特定计算机程序的各个方面是公知的。因此，为了简洁起见，许多常规实现细节在本文中仅简要提及或完全省略，而不提供众所周知的系统和/或过程细节。

首先应当理解，尽管本公开包括关于云计算的详细描述，但其中记载的技术方案的实现却不限于云计算环境，而是能够结合现在已知或以后开发的任何其它类型的计算环境而实现。

云计算是一种服务交付模式，用于对共享的可配置计算资源池进行方便、按需的网络访问。可配置计算资源是能够以最小的管理成本或与服务提供者进行最少的交互就能快速部署和释放的资源，例如可以是网络、网络带宽、服务器、处理、内存、存储、应用、虚拟机和服务。这种云模式可以包括至少五个特征、至少三个服务模型和至少四个部署模型。

按需自助式服务：云的消费者在无需与服务提供者进行人为交互的情况下能够单方面自动地按需部署诸如服务器时间和网络存储等的计算能力。

广泛的网络接入：计算能力可以通过标准机制在网络上获取，这种标准机制促进了通过不同种类的瘦客户机平台或厚客户机平台(例如移动电话、膝上型电脑、个人数字助理pda)对云的使用。

资源池：提供者的计算资源被归入资源池并通过多租户(multi-tenant)模式服务于多重消费者，其中按需将不同的实体资源和虚拟资源动态地分配和再分配。一般情况下，消费者不能控制或甚至并不知晓所提供的资源的确切位置，但可以在较高抽象程度上指定位置(例如国家、州或数据中心)，因此具有位置无关性。

迅速弹性：能够迅速、有弹性地(有时是自动地)部署计算能力，以实现快速扩展，并且能迅速释放来快速缩小。在消费者看来，用于部署的可用计算能力往往显得是无限的，并能在任意时候都能获取任意数量的计算能力。

可测量的服务：云系统通过利用适于服务类型(例如存储、处理、带宽和活跃用户帐号)的某种抽象程度的计量能力，自动地控制和优化资源效用。可以监测、控制和报告资源使用情况，为服务提供者和消费者双方提供透明度。

软件即服务(saas)：向消费者提供的能力是使用提供者在云基础架构上运行的应用。可以通过诸如网络浏览器的瘦客户机接口(例如基于网络的电子邮件)从各种客户机设备访问应用。除了有限的特定于用户的应用配置设置外，消费者既不管理也不控制包括网络、服务器、操作系统、存储、乃至单个应用能力等的底层云基础架构。

平台即服务(paas)：向消费者提供的能力是在云基础架构上部署消费者创建或获得的应用，这些应用利用提供者支持的程序设计语言和工具创建。消费者既不管理也不控制包括网络、服务器、操作系统或存储的底层云基础架构，但对其部署的应用具有控制权，对应用托管环境配置可能也具有控制权。

基础架构即服务(iaas)：向消费者提供的能力是消费者能够在其中部署并运行包括操作系统和应用的任意软件的处理、存储、网络和其他基础计算资源。消费者既不管理也不控制底层的云基础架构，但是对操作系统、存储和其部署的应用具有控制权，对选择的网络组件(例如主机防火墙)可能具有有限的控制权。

部署模型如下：

私有云：云基础架构单独为某个组织运行。云基础架构可以由该组织或第三方管理并且可以存在于该组织内部或外部。

共同体云：云基础架构被若干组织共享并支持有共同利害关系(例如任务使命、安全要求、政策和合规考虑)的特定共同体。共同体云可以由共同体内的多个组织或第三方管理并且可以存在于该共同体内部或外部。

公共云：云基础架构向公众或大型产业群提供并由出售云服务的组织拥有。

混合云：云基础架构由两个或更多部署模型的云(私有云、共同体云或公共云)组成，这些云依然是独特的实体，但是通过使数据和应用能够移植的标准化技术或私有技术(例如用于云之间的负载平衡的云突发流量分担技术)绑定在一起。

云计算环境是面向服务的，特点集中在无状态性、低耦合性、模块性和语意的互操作性。云计算的核心是包含互连节点网络的基础架构。

现在参考图1，其中显示了示例性的云计算环境50。如图所示，云计算环境50包括云计算消费者使用的本地计算设备可以与其相通信的一个或者多个云计算节点10，本地计算设备例如可以是个人数字助理(pda)或移动电话54a，台式电脑54b、笔记本电脑54c和/或汽车计算机系统54n。云计算节点10之间可以相互通信。可以在包括但不限于如上所述的私有云、共同体云、公共云或混合云或者它们的组合的一个或者多个网络中将云计算节点10进行物理或虚拟分组(图中未显示)。这样，云的消费者无需在本地计算设备上维护资源就能请求云计算环境50提供的基础架构即服务(iaas)、平台即服务(paas)和/或软件即服务(saas)。应当理解，图1显示的各类计算设备54a-n仅仅是示意性的，云计算节点10以及云计算环境50可以与任意类型网络上和/或网络可寻址连接的任意类型的计算设备(例如使用网络浏览器)通信。

现在参考图2，其中显示了云计算环境50(图1)提供的一组功能抽象层。首先应当理解，图2所示的组件、层以及功能都仅仅是示意性的，本发明的实施例不限于此。如图3所示，提供下列层和对应功能：

硬件和软件层60包括硬件和软件组件。硬件组件的例子包括：主机61；基于risc(精简指令集计算机)体系结构的服务器62；服务器63；刀片服务器64；存储设备65；网络和网络组件66。软件组件的例子包括：网络应用服务器软件67以及数据库软件68。

虚拟层70提供一个抽象层，该层可以提供下列虚拟实体的例子：虚拟服务器71、虚拟存储72、虚拟网络73(包括虚拟私有网络)、虚拟应用和操作系统74，以及虚拟客户端75。

在一个示例中，管理层80可以提供下述功能：资源供应功能81：提供用于在云计算环境中执行任务的计算资源和其它资源的动态获取；计量和定价功能82：在云计算环境内对资源的使用进行成本跟踪，并为此提供帐单和发票。在一个例子中，该资源可以包括应用软件许可。安全功能：为云的消费者和任务提供身份认证，为数据和其它资源提供保护。用户门户功能83：为消费者和系统管理员提供对云计算环境的访问。服务水平管理功能84：提供云计算资源的分配和管理，以满足必需的服务水平。服务水平协议(sla)计划和履行功能85：为根据sla预测的对云计算资源未来需求提供预先安排和供应。

工作负载层90提供云计算环境可能实现的功能的示例。在该层中，可提供的工作负载或功能的示例包括：地图绘制与导航91；软件开发及生命周期管理92；虚拟教室的教学提供93；数据分析处理94；交易处理95；以及文本数据处理96。

现在转向与本发明的各方面更具体相关的技术的概述，学习有效的文本表示是众多机器学习和基于自然语言的处理(nlp)任务(诸如文档分类和聚类、文档检索、机器翻译、以及多语言文档匹配)中的关键基础。由于文本中没有明确的特征，一些人试图使用简单的方法，诸如通过使用词袋(bow)技术来开发文本的有效表示。然而，bow方法不考虑文本的词序和词的语义。此外，尽管已知一些词向量技术在语义上产生词表示，但是不太清楚句子或文档表示是否应当被构建在词表示之上或从头开始。一种已知的技术是使用被称为词移距离(wmd)的文档之间的距离度量来对准语义上相似的词。然而，wmd计算起来非常昂贵，并且难以用于超出简单的k最近邻(knn)机器学习方法的特征嵌入。

如本文先前所述，短语"机器学习"广泛地描述从数据学习的电子系统的功能。机器学习系统、引擎或模块可包括可训练的机器学习算法，其可诸如在外部云环境中被训练以学习输入与输出之间的函数关系，其中所述函数关系当前未知。机器学习功能可以使用具有被训练以执行当前未知功能的能力的人工神经网络(ann)来实现。在机器学习和认知科学中，ann是由动物的生物神经网络(特别是大脑)所启发的一族统计学习模型。ann可以用于估计或近似依赖于大量输入的系统和功能。ann可以被实现为互连处理器元件的所谓"仿神经(neuromorphic)"系统，所述互连处理器元件充当模拟的"神经元"并且以电子信号的形式在彼此之间交换"消息"。类似于在生物神经元之间运送信息的突触神经递质连接的所谓"可塑性"，在模拟神经元之间运送电子信息的ann中的连接具有对应于给定连接的强或弱的数值权重。可以至少部分地基于经验来调整和调谐权重，从而使ann适应于输入并且能够学习。例如，用于手写识别的ann由一组输入神经元定义，该组输入神经元可以由输入图像的像素激活。在由网络设计者确定的函数加权和变换之后，这些输入神经元的激活然后被传递到其它下游神经元，其通常被称为"隐藏"神经元。重复该过程直到激活输出神经元。激活的输出神经元确定哪个字符被读取。

许多技术经常采用机器学习来确定数字数据之间的推断和/或关系。例如，机器学习技术、信号处理技术、图像处理技术、数据分析技术和/或其他技术采用机器学习模型来分析数字数据、处理数字数据、从数字数据确定推断、和/或确定数字数据之间的关系。

数字数据经常被格式化为文本数据。文本数据可以包括一个或多个文本序列，其中每个文本序列保持一个或多个词的分组。文本序列的示例包括句子、段落、文档等。然而，文本数据通常不能由已知的机器学习模型直接处理和/或直接分析，因为如上所述，在文本数据中没有明确的特征。相反，学习文本数据的特征表示以便于通过机器学习模型来分析文本数据。在数学上，一组文档(例如，一组文本序列)可表达为其中n为该组文档中的文档的数目。每个文档x可以被表达为词向量的集合其中l＝|xi|是集合中的文档的最大长度，并且其中表示文档的空间。每个文档可以包括一个或多个词。

现在转到本发明的各方面的概述，本发明的一个或多个实施例通过提供一种无监督框架来解决现有技术的上述缺点，该无监督框架通过使用数目r的随机长度d的随机文档将文本数据中的词之间的距离测量变换成低维欧几里德内积空间，来学习诸如句子、段落和文档的可变长度的文本的向量表示。在一些实施例中，通过生成包括随机文本序列集合的参考文本数据来执行该过程，其中每个文本序列具有随机长度并且包括多个随机词。每个随机长度是从最小长度到最大长度采样的，并且从分布中抽取该集合中的每个随机文本序列的随机词。然后，提供所得到的特征矩阵作为一个或多个机器学习模型的输入，以生成机器学习输出。本发明的一个或多个实施例可以解决的问题的示例包括：降低了使用已知的基于knn-wmd的技术来评估正定内核所需的高计算复杂度(例如，o(n²l³log(l))，以及降低了存储原始文本数据和所得到的内核矩阵所需的高存储器消耗(例如，o(nl))。

由本发明的一个或多个方面提供的解决上述问题的技术改进的示例包括：对于r<<n和d<<l，现有的基于knn-wmd的技术的计算复杂度从o(n²l³log(l))降低到o(nrld²llog(l))，以及对于r<<l，存储器消耗从o(nl+n)降低到o(nr)。当与诸如svm的经验风险最小化(erm)分类器结合时，计算和存储器存储的这种降低允许更高效的训练和测试。

如将在下面更详细地描述的，可以学习文本数据的特征表示以便于通过机器学习模型来分析文本数据。文本数据特征表示可以用于各种机器学习过程。例如，文本数据特征表示可以用于健康信息学中使用ecg的患者疾病分类和用于移动健康应用的实时数据分析，诸如经由传感器从可穿戴医疗设备生成的数据。一旦学习了文本数据表示，就可以将其用于文档分类、聚类和检索，以及用于文本分析，例如情感分析。此外，一旦学习到文本数据表示，就可以将其用于改进文本文档的机器阅读和翻译。

现在转到本发明的各方面的更详细描述，图3示出了示出可用于实现本发明的一个或多个实施例的基于计算机的系统300的示例的高级框图。尽管示出了一个示例性计算机系统300，但是计算机系统300包括通信路径326，其将计算机系统300连接到附加系统，并且可以包括一个或多个广域网(wan)和/或局域网(lan)，例如因特网、内联网和/或无线通信网络。计算机系统300和附加系统经由通信路径326通信(例如，在它们之间传送数据)。

计算机系统300包括一个或多个处理器，例如处理器302。处理器302连接到通信基础设施304(例如，通信总线、跨接条或网络)。计算机系统300可以包括显示接口306，其转发来自通信基础设施304(或来自未示出的帧缓冲器)的图形、文本和其他数据，以便在显示单元308上显示。计算机系统300还包括主存储器310，优选地是随机存取存储器(ram)，并且还可以包括辅助存储器312。辅助存储器312可以包括例如硬盘驱动器314和/或可移动存储驱动器316，其表示例如软盘驱动器、磁带驱动器或光盘驱动器。可移动存储驱动器316以本领域普通技术人员公知的方式从可移动存储单元318读取和/或向其写入。可移动存储单元318表示例如软盘、压缩盘、磁带或光盘等，其由可移动存储驱动器316读取和写入。如将理解的，可移除存储单元318包含其中存储有计算机软件和/或数据的计算机可读介质。

在本发明的一些另选实施例中，辅助存储器312可包括用于允许计算机程序或其它指令加载到计算机系统中的其它类似装置。这种装置可以包括例如可移动存储单元320和接口322。这种装置的例子可以包括程序包和包接口(例如在视频游戏设备中找到的那种)、可移动存储器芯片(例如eprom或prom)和相关的插槽、以及允许软件和数据从可移动存储单元320传送到计算机系统300的其它可移动存储单元320和接口322。

计算机系统300还可以包括通信接口324。通信接口324允许软件和数据在计算机系统和外部设备之间传输。通信接口324的示例可以包括调制解调器、网络接口(例如以太网卡)、通信端口或pcm-cia插槽和卡等。经由通信接口324传送的软件和数据是信号的形式，其可以是例如电子、电磁、光信号或能够由通信接口324接收的其他信号。这些信号经由通信路径(即，信道)326被提供给通信接口324。通信路径326承载信号，并且可以使用电线或电缆、光纤、电话线、蜂窝电话链路、rf链路和/或其它通信信道来实现。

在本公开中，术语"计算机程序介质"、"计算机可用介质"和"计算机可读介质"用于一般地指代诸如主存储器310和辅助存储器312、可移动存储驱动器316和安装在硬盘驱动器314中的硬盘的介质。计算机程序(也称为计算机控制逻辑)存储在主存储器310和/或辅助存储器312中。计算机程序也可以通过通信接口324接收。当运行时，这样的计算机程序使得计算机系统能够执行如本文所讨论的本公开的特征。特别地，当运行时，计算机程序使处理器302能够执行计算机系统的特征。因此，这样的计算机程序表示计算机系统的控制器。图4示出了根据本发明的一个或多个实施例的便于对文本数据的无监督特征表示学习的示例非限制性系统400的框图。系统400被配置成通过经由随机文档嵌入逼近正定内核来学习原始文本数据的特征表示，特别是通过使用随机文档嵌入将文本数据中的词之间的距离测量变换到随机化的低维特征空间，其中数目r的随机长度d的随机文本序列被用来生成特征表示，该特征表示可以与各种机器学习方法组合以执行各种各样的任务。

系统400是机器学习系统，其可以被用于解决与诸如但不限于机器学习技术、文本数据处理技术、数据分析技术、数据分类技术、数据聚类技术、轨迹/行程分析技术、医疗设备技术、协作过滤技术、推荐系统技术、信号处理技术、词嵌入技术、主题模型技术、图像处理技术、视频处理技术、音频处理技术和/或其他数字技术的技术有关的各种技术问题(例如，学习先前未知的函数关系)。系统400采用硬件和/或软件来解决本质上是高度技术性的、非抽象的、并且不能作为人类的一组精神动作来执行的问题。在本发明的某些实施例中，由系统400执行的一些或所有过程由一个或多个专用计算机(例如，一个或多个专用处理单元、具有文本数据组件的专用计算机等)执行，以执行与机器学习相关的定义的任务。在本发明的一些实施例中，系统400和/或系统的组件被用来解决由于上述技术的进步、文本数据的使用、机器学习过程和/或计算机体系结构等而引起的新问题。在本发明的一个或多个实施例中，系统400提供了对文本数据系统、机器学习系统、人工智能系统、数据分析系统、数据分类系统、数据聚类系统、轨迹/行程分析系统、医疗设备系统、协作过滤系统、推荐系统、信号处理系统、词嵌入系统、主题模型系统、图像处理系统、视频处理系统和/或其他数字系统的上述技术改进。在本发明的一个或多个实施例中，系统400还通过改进中央处理单元的处理性能、减少中央处理单元的计算瓶颈、改进中央处理单元的处理效率和/或减少中央处理单元执行机器学习过程的时间量来向与机器学习过程相关联的中央处理单元提供技术改进。

在图4中，系统400包括文本数据组件402，其包括分布生成组件404、参考文本数据生成组件406、特征矩阵生成组件408和机器学习组件410。在本发明的一些实施例中，文本数据组件402构成实现在机器内的机器可执行组件(例如，实现在与一个或多个机器相关联的一个或多个计算机可读介质中)。当由一个或多个机器(例如，计算机、计算设备、虚拟机等)执行时，这些组件使机器执行所描述的操作。在本发明的一些实施例中，文本数据组件402包括存储计算机可执行组件和指令的存储器412。此外，在本发明的一些实施例中，文本组件402包括处理器414，以便于由文本数据组件402执行指令(例如，计算机可执行组件和对应的指令)。如图所示，在本发明的一个或多个实施例中，分布生成组件404、参考文本数据生成组件406、特征矩阵生成组件408、机器学习组件410、存储器412和/或处理器414彼此电耦合和/或通信耦合。

一般而言，文本数据组件402被配置成接收文本数据416并输出机器学习输出418。文本数据416包括文本数据流或文本数据序列。在本发明的一些实施例中，文本数据416包括两个或更多个文本数据序列，例如两个文档、一个文档和一个段落、两个段落、一个段落和一个句子等。在本发明的一些实施例中，文本数据416是原始文本(例如，未处理的文本数据)。

分布生成组件404被配置成生成一个或多个概率分布以供系统400使用。在本发明的一些实施例中，分布生成组件404生成与原始文本数据416有关的元数据。例如，在本发明的一些实施例中，分布生成组件404生成原始文本数据416的概率分布。在本发明的一些实施例中，分布生成组件生成或选择随机分布，而不是从原始文本数据416生成概率分布。在本发明的一些实施例中，通过使用诸如word2vec空间的预先训练的词向量空间来生成该分布。在本发明的一些实施例中，通过使用诸如word2vec库的词向量库训练域文本语料库来生成该分布。分布生成组件404被配置为将得到的分布发送到参考文本数据生成组件406以供进一步处理。

参考文本数据生成组件406和特征矩阵生成组件406一起执行基于随机特征的近似过程。具体地，参考文本数据生成组件406被配置为生成包括随机文本序列集合的参考文本数据，其中文本序列具有随机长度并且包括多个随机词。每个随机长度是从最小长度到最大长度采样的以捕捉文本数据的最佳对准416。从由分布生成组件404提供的分布中抽取集合中的每个随机文本序列的对应词。在本发明的一些实施例中，最小长度和最大长度是由系统400选择、提供、预定或自动学习的参数。在本发明的一些实施例中，最小长度是1且最大长度是5。在生成包括随机文本序列集合的参考文本数据之后，生成组件406将参考文本数据传输到特征矩阵生成组件408。特征矩阵生成组件406被配置为至少部分地基于所生成的随机文本序列集合与文本数据416之间的一组计算距离来生成文本数据416的特征矩阵。在本发明的一些实施例中，在文本数据416和随机文本序列集合之间计算特征向量的集合。在本发明的一些实施例中，通过使用文档距离测量技术，诸如通过使用词移距离(wmd)，来生成特征向量的集合。可以利用其它合适的文档距离测量技术。然后，将特征向量串接起来以形成特征矩阵。在本发明的一些实施例中，如本领域技术人员所知，特征向量和/或特征矩阵是经由可用于测量词向量空间的其他合适的距离函数生成的。

由参考文本数据生成组件406和特征矩阵生成组件408执行的一些功能可以经由一个或多个算法来数学地表达。例如，为了计算内核近似，实现了基于蒙特卡罗(mc)的分析方法，如以下描述的方法，其中在内核空间中评估随机特征。为了计算正定内核，在本发明的一些实施例中，通过利用诸如wmd的距离测量，使用随机文档集合(例如，随机文本序列集合)，将文本数据中的词之间的距离测量变换到低维欧几里得内积空间中，以找到在词向量嵌入空间中表示的词集合与文本和随机文档之间的对准。因此，wmd内核的内核评估可以由以下变换特征表示的内积来近似

其中表示从分布p(ω)中抽取的独立且相同分布(i.i.d.)的随机文档，其中p(ω)表示在表示为的所有可能文档的空间上的分布。分布p(ω)是一种很好地捕捉诸如word2vec嵌入空间的词向量嵌入空间的特性以生成有意义的随机词的分布。所有可能文档的空间表示从文档x和所有可能随机文档ω∈ω之间的距离度量导出的无限维特征图。例如，给定文档x，为给定文档x生成特征向量其中φω(x)：＝exp(-γwmd(x，ω))。

诸如wmd的距离测量可用于测量文本文档(例如，文本序列)之间的距离。例如，给定第一文本文档x和第二文档y，计算wmd测量，该wmd测量考虑了词x和y之间的对准。因此，假定每个文档的长度|x|，|y|是在x和y中的不同的词w1...，wl(l＝||x||or||y||)的数量，并且分别是x和y中的每个词的归一化频率向量wmd可以被定义为

f表示传输流矩阵，其中fij表示从x中的词i行进到y中的词j的流的量，c表示传输成本(例如，地面距离)，其中cij：＝dist(υi，υj)，传输成本是在诸如word2vec嵌入空间的词向量嵌入空间中测量的两个词之间的距离。为了降低<z(x)，z(y)>的方差，可以应用mc方法来计算

矩阵生成组件408至少部分地基于wmd测量来生成特征向量其中wj是长度为d的随机文本序列，其中文本序列的每个词是从分布p(ω)中抽取的。这种计算可以通过生成由数目为dj的随机词组成的随机文档wj来执行，其中每个随机词与从p(ω)抽取的词向量vj相关联，其中每个dj是从[dmin，dmax]采样的。在一个示例性实现中，随机词的最小数目dmin是1，且随机词的最大数目dmax是5。

在生成特征向量之后，通过串接每个文档的特征向量来创建特征矩阵znxr。下面示出的算法是用于为原始文本数据生成特征矩阵和特征向量的一个示例过程。

在本发明的一些实施例中，由终端用户通过使用诸如word2vec空间的预先训练的词向量空间，或者通过使用诸如word2vec库的词向量库训练终端用户的域文本语料库，来生成和/或获得该分布p(ω)。在本发明的一些实施例中，如果没有向系统提供最佳对准的在先信息，则系统对随机文档的长度进行采样以给出对d的无偏估计。这可以通过例如选择随机分布，诸如预先建立的word2vec空间的分布来实现。在本发明的某些实施例中，预先建立的word2vec空间可由第三方提供。在本发明的一些实施例中，由终端用户生成附加元数据(诸如词向量的dmin和dmax)或者将其提供给系统。

在本发明的一些实施例中，该分布p(ω)由终端用户通过使用诸如word2vec空间的预先训练的词向量空间，或通过使用诸如word2vec库的词向量库训练终端用户的域文本语料库来产生和/或获得。在本发明的一些实施例中，如果没有向系统提供最佳对准的在先信息，则系统对随机文档的长度进行采样以给出对d的无偏估计。这可以通过例如选择随机分布，诸如预先建立的word2vec空间的分布来实现。在本发明的某些实施例中，预先建立的word2vec空间可由第三方提供。在本发明的一些实施例中，由终端用户生成附加元数据(诸如词向量的dmin和dmax)或者将其提供给系统。

如上所述，与基于knn的wmd方法相比，当d被作为常数对待时，上面标识的近似方法仅需要o(nrllog(l))计算的超线性复杂度。当与诸如svm的经验风险最小化(erm)分类器结合时，这种计算的显著减少允许更高效的训练和测试。

返回参考图4，机器学习组件410至少部分地基于为文本数据416生成的特征矩阵来处理机器学习模型。在本发明的一些实施例中，由特征矩阵生成组件408生成的特征矩阵被提供作为由机器学习组件410执行的机器学习模型的输入。在本发明的某些实施例中，机器学习组件410采用并行计算来处理特征矩阵的各部分以及时间序列数据416的各部分。例如，在本发明的一些实施例中，机器学习组件410执行与并行处理文本数据416的一个或多个部分的两个或更多个处理器相关联的并行计算。在一个示例中，机器学习组件410使用所生成的特征矩阵来执行分类机器学习模型。在本发明的一些实施例中，分类机器学习模型是将文本数据416映射到一个或多个类别的机器学习模型。在另一示例中，机器学习组件410使用所生成的特征矩阵来执行回归机器学习模型。回归机器学习模型可以是例如确定文本数据416的文本序列之间的关系的机器学习模型。在又一示例中，机器学习组件410使用所生成的特征矩阵来执行聚类机器学习模型。在本发明的一些实施例中，聚类机器学习模型是将来自文本数据416的相关数据分组为对应的组的机器学习模型，例如最近邻算法。机器学习组件410生成机器学习输出418。在本发明的一些实施例中，机器学习输出418由机器学习模型生成，该机器学习模型由机器学习组件410至少部分地基于所生成的特征矩阵来处理。在本发明的一些实施例中，机器学习输出418提供一个或多个推断，提供一个或多个预测，和/或确定文本数据416之间(例如，一个或多个文本序列之间)的一个或多个关系。这样，在本发明的某些实施例中提供了文本数据416的直接分析和/或直接处理。此外，通过允许机器学习模型采用矩阵作为输入和/或直接分析原始文本数据，可以改进处理器(例如，处理器414)关于机器学习过程的性能(例如，用于执行机器学习的速度和/或用于机器学习的存储量)。此外，与机器学习过程相关联的处理器(例如，处理器414)的处理能力可以通过允许机器学习模型采用矩阵作为输入和/或直接分析原始文本数据来改进。在本发明的一些实施例中，间接分析由系统400执行，并且因此文本数据416不由系统400直接分析。文本数据组件402(例如，分布生成组件404、参考文本数据生成组件406、特征矩阵生成组件408、和/或机器学习组件410)执行与人类无法执行(例如，大于单个人类的能力)的时间序列数据(例如，文本数据416)相关联的分布生成过程、参考文本数据生成过程、特征矩阵生成过程、和/或机器学习过程。例如，在特定时间段上由文本数据组件402(例如，分布生成组件404、参考文本数据生成组件406、特征矩阵生成组件408和/或机器学习组件410)处理的文本数据的量、文本数据的处理速度和/或处理的文本数据的数据类型可以比在相同时间段上由单个人类处理的量、速度和数据类型更大、更快且不同。在本发明的一些实施例中，文本数据组件402(例如，分布生成组件404、参考文本数据生成组件406、特征矩阵生成组件408和/或机器学习组件410)完全可操作用于执行一个或多个其他功能(例如，完全通电、完全执行等)，同时还执行以上提及的分布生成过程、参考文本数据生成过程、特征矩阵生成过程和/或机器学习过程。此外，在本发明的一些实施例中，由文本数据组件402(例如，分布生成组件404、参考文本数据生成组件406、特征矩阵生成组件408和/或机器学习组件410)生成的机器学习输出(例如，机器学习输出418)包括不可能由用户手动获得的信息。例如，在本发明的一些实施例中，机器学习输出(例如，机器学习输出418)中包括的信息量和/或机器学习输出(例如，机器学习输出418)中包括的各种信息比用户手动获得的信息更复杂。

在本发明的一些实施例中，机器学习组件410采用一种或多种人工智能技术来至少部分地基于所生成的特征矩阵执行至少一个机器学习模型。例如，在本发明的一些实施例中，机器学习组件410至少部分地基于人工智能的原理从所生成的特征矩阵中提取指示相关性、推断和/或表达式的信息。在本发明的一些实施例中，机器学习组件410至少部分地基于使用所生成的特征矩阵对至少一个机器学习模型的执行来生成机器学习输出418。在本发明的一些实施例中，机器学习输出418包括例如与所生成的特征矩阵相关联的学习、相关、推断和/或表达式。

在本发明的一些实施例中，机器学习组件410显式地或隐式地执行关于所生成的特征矩阵的学习。在本发明的一些实施例中，机器学习组件410采用自动分类系统和/或自动分类过程来促进对所生成的特征矩阵的分析。例如，在本发明的一些实施例中，机器学习组件410采用基于概率和/或统计的分析(例如，将分析效用和成本考虑在内)来学习和/或生成关于所生成的特征矩阵的推断。机器学习组件410采用例如支持向量机(svm)分类器来学习和/或生成所生成的特征矩阵的推断。附加地或另选地，在本发明的一些实施例中，机器学习组件410采用与贝叶斯网络、决策树和/或概率分类模型相关联的其它分类技术。机器学习组件410所采用的分类器可以被显式训练(例如，经由一般训练数据)以及隐式训练(例如，经由接收外来信息)。例如，对于svm，svm可通过分类器构造器和特征选择模块内的学习或训练阶段来配置。分类器可以是例如将输入属性向量x＝(xl,x2,x3,x4,xn)映射到输入属于类别的置信度(即，f(x)＝confidence(class))的函数。

在本发明的一些实施例中，机器学习组件410包括推断组件(未示出)，该推断组件进一步增强了机器学习组件410的自动化方面，部分地利用基于推断的方案来促进学习，和/或生成针对所生成的特征矩阵的推断。在本发明的一些实施例中，机器学习组件410采用任何合适的基于机器学习的技术、基于统计的技术和/或基于概率的技术。例如，在本发明的一些实施例中，机器学习组件410使用专家系统、模糊逻辑、svm、隐式马尔可夫模型(hmm)、贪婪搜索算法、基于规则的系统、贝叶斯模型(例如，贝叶斯网络)、神经网络、和/或其它非线性训练技术、数据融合、基于效用的分析系统、使用贝叶斯模型的系统等。在本发明的一些实施例中，机器学习组件410执行与所生成的特征矩阵的分析相关联的一组机器学习计算。例如，在本发明的一些实施例中，机器学习组件410执行一组聚类机器学习计算、一组逻辑回归机器学习计算、一组决策树机器学习计算、一组随机森林机器学习计算、一组回归树机器学习计算、一组最小二乘机器学习计算、一组基于实例的机器学习计算、一组回归机器学习计算、一组支持向量回归机器学习计算、一组k均值机器学习计算、一组谱聚类机器学习计算、高斯混合模型机器学习计算、一组正则化机器学习计算、一组规则学习机器学习计算、一组贝叶斯机器学习计算、一组深度波尔兹曼机器计算、一组深度置信网络计算、一组卷积神经网络计算、一组堆栈自动编码器计算和/或一组不同机器学习计算。

在图5所示的实施例中，系统500是包括第一方组件502和第二方组件504的两方协议系统。该环境对于关注文本数据(例如，文本数据416)的隐私的情形特别有用。例如，如果客户希望由分析提供者对文本数据执行机器学习，但是不希望或不能将文本数据传送给分析提供者，则在本发明的一些实施例中，客户采用第一方组件502，并且分析提供者以下面标识的方式采用第二方组件504。

如图5所示，第一方组件502包括分布组件404和特征矩阵生成组件408。第二方组件504包括参考文本数据生成组件406和机器学习组件410。在本发明的一些实施例中，第一方组件502和/或第二方组件504包括处理器410和存储器412。

在本发明的一些实施例中，第一方组件的分布生成组件404被配置成通过例如从文本数据416生成概率分布506来生成关于文本数据416的元数据信息。在本发明的一些实施例中，分布生成组件404将文本数据416的所生成的概率分布506发送到第二方组件504。在本发明的一些实施例中，第一方组件502不生成或向第二方组件504提供关于文本数据416的元数据信息。

第一方组件502的特征矩阵生成组件408被配置为从第二方组件504接收所生成的参考文本数据508，并且至少部分地基于所生成的文本数据508的随机文本序列的集合来生成特征矩阵510。特征矩阵生成组件408还被配置为将所生成的特征矩阵510发送到第二方组件504。

在本发明的一些实施例中，第二方组件504的参考文本数据生成组件406被配置为从第一方组件502接收所生成的元数据信息(例如，概率分布506)，并且生成包括随机序列集合的参考文本数据508。在本发明的一些实施例中，第二方组件504不接收关于时间序列数据416的元数据信息。在这些实例中的一些实例中，第二方组件504将选择或生成诸如高斯分布的随机分布。此外，在本发明的一些实施例中，参考文本数据生成组件406被配置为将参考文本数据508传输到第一方组件502。

第二方组件504的机器学习组件410被配置成从第一方组件502接收所生成的特征矩阵510，并提供所生成的特征矩阵510作为一个或多个机器学习模型的输入。第二方组件504的机器学习组件410还被配置成将来自机器学习模型的机器学习输出418传输到第一方组件502。

现在将参考图6描述系统400和系统500的操作的另外的细节，其中图6示出了说明根据本发明的一个或多个实施例的方法600的流程图。在602，生成包括一组随机序列的参考文本数据，每个序列具有随机长度，并且每个文本序列包括多个随机词。在该实施例中，参考文本数据由操作地耦合到处理器的系统(例如，由参考系列生成组件406)生成。在604处，由系统(例如，由特征矩阵生成组件408)生成原始文本数据的特征矩阵，其中，至少部分地基于所生成的随机文本序列集合的集合与原始文本数据之间的一组计算距离来生成特征矩阵。在608，由系统(例如，由机器学习组件410)至少部分地基于所生成的特征矩阵来执行一个或多个机器学习模型。

在任何可能的技术细节结合层面，本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、静态随机存取存储器(sram)、便携式压缩盘只读存储器(cd-rom)、数字多功能盘(dvd)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(isa)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路配置数据或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如smalltalk、c++等，以及过程式编程语言—诸如“c”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(lan)或广域网(wan)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(fpga)或可编程逻辑阵列(pla)，该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：吴凌飞;M·J·维特布鲁克
技术所有人：国际商业机器公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。