基于传感器的语义对象生成的制作方法

文档序号：20012740发布日期：2020-02-22 04:35阅读：146来源：国知局

本公开一般地涉及基于包括对象的环境的状态的检测或者识别而生成语义对象和输出。

背景技术：

对象检测系统可以捕获关于环境中的对象的多种信息，包括例如对象的外观。将检测到的对象的各方面(例如，对象的外观)与比如对象的标识的另一条信息关联在各种应用中是有用的，比如面部识别，其中面部检测和识别可以用于基于识别出的面部是否对应于装置的授权用户而获准使用装置。但是，许多现有的对象检测系统需要大量的用户输入和交互，这可能是繁重的。另外，许多现有的对象检测系统提供有限的功能性，或者具有由于麻烦的用户界面而使用不足的功能性。因此，如果存在更有效地捕获、处理和操纵与环境的状态相关联的信息的途径则是有益的。

技术实现要素：

本公开的实施例的各方面和各优点将部分地在下面说明中阐述，或者可以从该说明中习得，或者可以通过实施例的实践习得。

本公开的一个示例方面针对用于基于包括对象的环境的状态的检测或者识别而生成语义对象和输出的方法。该方法可以包括由包括一个或多个计算装置的计算系统接收部分地基于来自一个或多个传感器的传感器输出的状态数据，该一个或多个传感器检测包括一个或多个对象的环境的状态。该方法还可以包括由计算系统部分地基于状态数据生成与一个或多个对象对应的一个或多个语义对象。一个或多个语义对象可以包括属性的集合。该方法可以包括由计算系统部分地基于一个或多个语义对象的属性的集合确定与一个或多个语义对象相关联的一个或多个操作模式。另外，该方法可以包括由计算系统部分地基于一个或多个操作模式生成与一个或多个语义对象相关联的一个或多个对象输出。一个或多个对象输出可以包括一个或多个视觉指示或者一个或多个音频指示。

本公开的另一示例方面针对存储计算机可读指令的一个或多个有形的非瞬时计算机可读介质，该计算机可读指令当由一个或多个处理器运行时使得一个或多个处理器执行操作。该操作可以包括接收部分地基于来自一个或多个传感器的传感器输出的状态数据，该一个或多个传感器检测包括一个或多个对象的环境的状态。该操作还可以包括部分地基于状态数据生成与一个或多个对象对应的一个或多个语义对象。一个或多个语义对象可以包括属性的集合。该操作可以包括部分地基于一个或多个语义对象的属性的集合确定与一个或多个语义对象相关联的一个或多个操作模式。另外，该操作可以包括部分地基于一个或多个操作模式生成与一个或多个语义对象相关联的一个或多个对象输出。一个或多个对象输出可以包括一个或多个视觉指示或者一个或多个音频指示。

本公开的另一示例方面针对包括一个或多个处理器和存储指令的一个或多个非瞬时计算机可读介质的计算系统，该指令当由一个或多个处理器运行时使得一个或多个处理器执行操作。该操作可以包括接收部分地基于来自一个或多个传感器的传感器输出的状态数据，该一个或多个传感器检测包括一个或多个对象的环境的状态。该操作还可以包括部分地基于状态数据生成与一个或多个对象对应的一个或多个语义对象。一个或多个语义对象可以包括属性的集合。该操作可以包括部分地基于一个或多个语义对象的属性的集合确定与一个或多个语义对象相关联的一个或多个操作模式。另外，该操作可以包括部分地基于一个或多个操作模式生成与一个或多个语义对象相关联的一个或多个对象输出。一个或多个对象输出可以包括一个或多个视觉指示或者一个或多个音频指示。

本公开的其它示例方面针对用于基于包括对象的环境的状态的检测或者识别而生成语义对象和输出的其它计算机实现的方法、系统、设备、有形的非瞬时计算机可读介质、用户接口、存储器装置和电子装置。

各种实施例的这些及其他特征、方面和优点将参考以下说明书和所附的权利要求变得更好理解。并入和构成本说明书的一部分的附图图示了本公开的实施例，且与说明书一起用于解释有关原理。

附图说明

针对本领域普通技术人员的实施例的具体描述在参考附图的说明书中阐述，在附图中：

图1图示根据本公开的示例实施例的示例系统的图；

图2图示根据本公开的示例实施例的示例装置的图；

图3图示根据本公开的示例实施例的包括图像捕获的基于传感器的语义对象生成的示例；

图4图示根据本公开的示例实施例的包括音频生成的基于传感器的语义对象生成的示例；

图5图示根据本公开的示例实施例的包括文本翻译的基于传感器的语义对象生成的示例；

图6图示根据本公开的示例实施例的包括文本识别的基于传感器的语义对象生成的示例；

图7图示根据本公开的示例实施例的包括文本识别的基于传感器的语义对象生成的示例；

图8图示根据本公开的示例实施例的包括对象识别的基于传感器的语义对象生成的示例；

图9图示根据本公开的示例实施例的包括对象识别的基于传感器的语义对象生成的示例；

图10图示根据本公开的示例实施例的包括位置标识的基于传感器的语义对象生成的示例；

图11图示根据本公开的示例实施例的包括位置标识的基于传感器的语义对象生成的示例；

图12图示根据本公开的示例实施例的包括导航的基于传感器的语义对象生成的示例；

图13图示根据本公开的示例实施例的包括位置标识的基于传感器的语义对象生成的界面元素的示例；

图14图示根据本公开的示例实施例的基于传感器的语义对象生成的流程图；

图15图示根据本公开的示例实施例的基于传感器的语义对象生成的流程图；

图16图示根据本公开的示例实施例的基于传感器的语义对象生成的流程图；和

图17图示根据本公开的示例实施例的基于传感器的语义对象生成的流程图。

具体实施方式

本公开的示例方面针对检测、识别和/或标识环境中的对象，基于对象生成语义对象(例如，存储装置中存储且包括与一个或多个对象相关联的一个或多个属性的数据结构)，和基于语义对象生成输出(例如，视觉指示和/或音频指示)。公开的技术可以接收与环境的状态(例如，室外区域或者室内区域)和环境中的对象(例如，建筑、人、车辆、消费品和/或文字材料)相关联的状态数据，生成对应于一个或多个对象的一个或多个语义对象(例如，用于物理手提包的手提包语义对象)，确定与一个或多个语义对象相关联的一个或多个操作模式(即，确定如何处理一个或多个对象)，和生成可以包括一个或多个视觉指示(例如，包括与一个或多个对象相关联的文本信息的一个或多个图像)或者一个或多个音频指示(例如，与一个或多个对象相关联的一个或多个声音)的一个或多个对象输出。

因而，公开的技术可以以不突兀的且在某些情况下可能需要最小级别的用户输入的方式，来更有效地识别环境中的对象和基于那些对象执行各种功能。另外，在一些实施例中，通过基于来自真实世界对象的传感器输出的持续收集来生成一个或多个语义对象，公开的技术能够强调否则可能未留意的感兴趣区域。另外，通过确定操作模式以用于收集和处理传感器输入，公开的技术能够节省计算资源和提供与用户的需要更相关的信息。

举例来说，公开的技术可以包括由用户在包括多种对象的环境(例如，城市环境)中携带的计算装置。当用户走过该环境时，用户可以以他们的手握着计算装置。计算装置可以包括位于计算装置的一部分(例如，计算装置的顶部边缘)上的相机(例如，周视(periscopic)相机)，以使得当垂直于用户和/或平行于地面握着该装置的长边时，相机可以捕获一个或多个图像而用户不需要将相机瞄准环境中的对象。具体来说，相机可以位于计算装置的顶部边缘，以使得当以用户的舒服的位置握着计算装置时(例如，垂直于用户和/或平行于地面握着装置的长边)，相机具有通常在与用户的视觉在同一方向的视场(例如，在用户面对的方向的用户前方的视野)。

当用户走过该环境时，在商店展示窗口中的电子装置(例如，电视机)可以捕获用户的兴趣，且用户可能接近商店展示窗口，相机可以捕获电子装置的图像，且计算装置可以生成与电子装置相关联的语义对象。与例如电子装置的对象相关联的语义对象可以包括一个或多个属性，包括对象的类型(例如，电视机)、尺寸(例如，六十五英寸的屏幕尺寸)、品牌(make)(例如，电视机制造商的品牌)和型号(例如，与电视机相关联的型号编号)。

基于语义对象，计算装置可以确定操作模式以对于语义对象使用。操作模式可以指示计算装置和/或关联的计算系统将对于语义对象执行的处理的类型。例如，当在对象中检测到文本时，计算装置可以使用文本识别模式。在该示例中，计算装置可以确定对象是商品且可以访问一个或多个远程数据源并基于与对象相关联的语义对象的属性生成查询(例如，执行通过因特网搜索引擎的搜索)。

公开的技术然后可以向用户提供包括信息的输出，该信息关于电子装置本身以及例如可以购买该电子装置的其它商店、与该电子装置相关联的产品评价(rating)和到提供关于该电子装置的更多信息的网站的链接。以该方式，计算装置可以执行语义提升，包括基于传感器的语义对象生成，以更有效地处理传感器输出和向用户提供更大便利，这是由于计算装置执行了否则将由用户执行的任务。

在一些实施例中，公开的技术可以包括计算系统(例如，语义处理系统)，其可以包括一个或多个计算装置(例如，具有一个或多个计算机处理器和可以存储一个或多个指令的存储器的装置)，该一个或多个计算装置可以交换(发送和/或接收)、处理、生成和/或修改数据和/或一个或多个信号(例如，电子信号)，该数据包括可以存储在一个或多个存储器装置(例如，随机存取存储器)和/或存储装置(例如，硬盘驱动器和/或固态驱动器)上的一个或多个信息模式或者结构。数据和/或一个或多个信号可以由计算系统与包括远程计算装置和/或一个或多个传感器装置的各种其他装置交换，该远程计算装置可以提供与语义类型数据相关联或者包括语义类型数据的数据，该语义类型数据与对象的各种属性(例如，商品项目的价格)相关联，该一个或多个传感器装置可以提供针对地理区域的传感器输出(例如，来自因特网可访问的相机装置的相机图像)，该传感器输出可以用于确定包括一个或多个对象的环境的状态。

在一些实施例中，语义处理系统可以包括配置为显示一个或多个图像的显示组件(例如，液晶显示器(lcd)、有机发光二极管(oled)、等离子显示面板、电子墨水和/或阴极射线管)，该一个或多个图像可以包括包含由一个或多个传感器检测到的一个或多个对象的环境的图像。

语义处理系统可以接收数据，例如包括部分地基于来自一个或多个传感器的传感器输出的状态数据，该一个或多个传感器检测包括包含物理对象(例如，建筑、书和/或行李)的一个或多个对象的环境的状态。状态数据可以包括与环境的状态和环境中的一个或多个对象相关联的信息，包括一个或多个对象的位置，捕获来自一个或多个对象的传感器输出的一天中的时刻和/或环境中的对象的一个或多个物理特性(例如，由一个或多个对象产生的尺寸、外观和/或一个或多个声音)。

在一些实施例中，一个或多个传感器可以包括一个或多个光传感器(例如，一个或多个相机)；包括具有超过一百八十度的视场的一个或多个相机的一个或多个周视镜；一个或多个音频传感器(例如，一个或多个麦克风)；一个或多个触觉传感器；一个或多个气压传感器；一个或多个陀螺传感器；包括其中一个或多个加速度计可以确定沿着三个轴(例如，x轴、y轴和z轴)的加速度的配置的一个或多个加速度计；包括可以检测空气中的湿气级别的一个或多个传感器的一个或多个湿度传感器；一个或多个电磁传感器；和/或一个或多个热传感器。

另外，一个或多个周视相机可以配置或者定位为捕获包括不在显示组件的视觉平面内的一个或多个对象或者一个或多个对象的部分的一个或多个图像。语义计算系统的显示组件可以包括视觉平面，该视觉平面可以包括如果是光学传感器，将捕获在小于光学传感器的中心的一百八十度的范围内的图像(例如，将不捕获垂直于视觉平面的图像)的平面。例如，如果语义处理装置是矩形长方体的形状，则显示组件(例如，lcd屏幕)可以位于长方体具有最大表面面积的两个侧面中的一侧或者两侧，且一个或多个周视相机可以位于长方体的不具有最大表面面积的四个侧面中的一侧或多侧。

另外，语义处理系统可以连续地操作，以使得可以在没有来自用户的输入或者指令的情况下不间断地执行对包括环境中的一个或多个对象的环境的检测、标识和/或识别。语义处理系统还可以作为界面(例如，包括状态条的图形用户界面)的一部分提供识别的一个或多个对象的指示，或者操作模式(例如，寻径(pathfinding)模式、翻译模式和/或对象检测模式)的指示。

另外，在一些实施例中，可以按照作为后台(background)操作(例如，在后台线程上)的连续处理执行一个或多个对象的识别。因此，在一些实施例中，语义处理系统可以在后台连续地操作以基于指示环境的传感器数据识别环境内的对象。在一些实施例中，这种后台操作可以包括即使相机应用没有正在由系统执行也识别对象的操作(例如，即使用户没有操作系统的相机也以在后台操作)。可以向用户提供控制何时语义处理系统操作以识别对象和何时收集和收集什么类型的数据以用于由语义处理系统使用的控制。

一个或多个传感器可以配置为检测包括一个或多个对象的一个或多个性质或者特性的环境的状态(例如，物理状态)。另外，语义处理系统可以访问精密记时计(例如，基于本地的精密记时计或者在远程位置的精密记时计)，该精密记时计可以用于确定包括本地事件(例如，可由一个或多个传感器检测到的事件)和非本地事件(例如，在未由一个或多个传感器检测到的位置发生的事件)的一个或多个事件的一天中的时刻和/或持续时间。环境的一个或多个性质或者特性可以包括一天中的时刻和/或地理位置(例如，与环境相关联的经纬度)。一个或多个对象的一个或多个性质或者特性可以包括与一个或多个对象相关联的尺寸(例如，高度、长度和/或宽度)、质量、重量、体积、颜色和/或声音。

语义处理系统可以例如部分地基于状态数据和包括机器学习模型的对象识别模型生成与一个或多个对象对应的一个或多个语义对象。语义处理系统可以访问已经使用分类数据集创建的机器学习模型(例如，访问已经本地存储的机器学习模型和/或存储在远程计算装置上的机器学习模型)，该分类数据集包括分类器数据，该分类器数据包括与训练数据相关联的分类的特征的集合和分类的对象标签的集合，该训练数据可以基于多个训练对象(例如，物理对象或者用作机器学习模型的训练输入的模拟对象)，或者与多个训练对象相关联。分类数据集可以部分地基于来自已经用于分别基于视觉输入和音频输入生成视觉输出和音频输出的一个或多个传感器(例如，相机和/或麦克风)的输入。例如，可以使用捕获训练数据的相机和麦克风的集合创建机器学习模型，训练数据包括城市地区的视频和音频，城市地区包括各种对象，各种对象包括建筑、街道、车辆、人和/或具有文本的表面。

在一些实施例中，机器学习模型可以部分地基于包括线性回归、逻辑回归、随机森林分类、加强森林分类、梯度加强、神经网络、支持向量机或者决策树的一个或多个分类技术。另外，语义处理系统可以与机器学习模型结合地或者在没有机器学习模型的情况下使用各种对象识别模型或者技术，以生成和/或处理一个或多个语义对象。例如，对象识别技术可以接收与一个或多个传感器输出相关联的传感器数据，且可以包括一个或多个遗传算法、边缘匹配、灰度匹配、梯度匹配和/或姿势聚类。

一个或多个语义对象可以包括属性的集合(例如，一个或多个语义对象中的每一个的属性的集合)。例如，与一个或多个语义对象相关联的属性的集合可以包括：包括与一个或多个语义对象相关联的一个或多个对象的标识的一个或多个对象标识(例如，一件衣服的设计者和风格)；与一个或多个对象的类型、类别或者种类相关联的一个或多个对象类型(例如，可以与衣服类型相关联的一条长裤或者男式衬衫)，该一个或多个对象与一个或多个语义对象相关联；包括与一个或多个对象的相关联的地理位置的对象位置(例如，建筑对象的地址)，该一个或多个对象与一个或多个语义对象相关联；货币价值(例如，与对象相关联的一个或多个价格)；包括对象的所有者的所有权状态(例如，不动产的所有者)；和/或物理特性(例如，与对象相关联的尺寸或者质量)的集合。

语义处理系统可以部分地基于一个或多个语义对象的属性的集合，确定与一个或多个语义对象相关联的一个或多个操作模式。一个或多个操作模式可以确定由语义处理系统处理和/或使用一个或多个语义对象的方式。因而，语义处理系统可以基于一个或多个语义对象的一个或多个属性，将计算资源选择性地专用于可能的操作的子集(例如，检测到包括文本的海报将导致确定文本识别模式将用于处理与海报相关联的一个或多个语义对象)。

一个或多个操作模式可以包括与识别环境中的文本信息相关联的文本识别模式(例如，识别何时对象包含文本)；与识别环境中的一个或多个位置相关联的位置识别模式(例如，定位到商店的入口)；与识别环境中的一个或多个对象相关联的对象识别模式(例如，识别一件商品)；和/或与识别环境中的一个或多个事件的发生相关联的事件识别模式。

语义处理系统可以部分地基于一个或多个操作模式生成与一个或多个语义对象相关联的一个或多个对象输出。一个或多个对象输出可以包括经由语义处理系统的一个或多个输出装置(例如，一个或多个显示装置、音频装置和/或触觉输出装置)的一个或多个输出。文本识别模式可以产生包括与文本有关的输出的一个或多个对象输出，与文本有关的输出包括识别出的文本的翻译(例如，基于中文文本的检测和翻译生成英文文本)。

在一些实施例中，一个或多个对象输出可以包括一个或多个视觉指示(例如，由语义处理系统的显示装置产生的一个或多个视觉图像)和/或一个或多个音频指示(例如，由语义处理系统的音频输出装置产生的一个或多个声音)。例如，一个或多个对象输出可以包括在显示装置上显示的翻译，包括书面文本的音频版本的音频指示(例如，文本到语音)，和/或叠加在环境的相机图像上的一个或多个图像。

语义处理系统可以部分地基于一个或多个语义对象的属性的集合，确定与一个或多个语义对象匹配的对象数据。例如，语义处理系统可以基于属性的集合的部分与对象数据之间的一个或多个比较，将属性的集合与对象数据匹配。对象数据可以包括与以下相关联的信息：一个或多个有关对象(例如，用于戒指的语义对象可以与其它珠宝相关联)；一个或多个远程数据源(例如，用于书的语义对象可以与网站相关联，该网站与书的作者相关联)；一个或多个位置；和/或一个或多个事件。

语义处理系统可以访问匹配一个或多个语义对象的对象数据的一个或多个部分。例如，语义处理系统可以访问在一个或多个远程计算装置上存储的对象数据的一个或多个部分。在一些实施例中，一个或多个对象输出可以部分地基于匹配一个或多个语义对象的对象数据的一个或多个部分。例如，当对象数据包括到与一个或多个语义对象相关联的一个或多个远程计算装置的链接时，一个或多个对象输出可以包括那些链接。

语义处理系统可以部分地基于状态数据或者一个或多个语义对象，生成与一个或多个对象相关联的一个或多个界面元素。一个或多个界面元素可以包括响应于一个或多个输入的一个或多个图像(例如，包括象形图和/或文本的图形用户界面元素)(例如，一个或多个界面元素可以基于触觉输入和/或音频输入启动或者触发一个或多个操作)。例如，一个或多个界面元素可以包括可以提供一个或多个对象的状态的连续指示的状态指示符(例如，状态条)。在一些实施例中，一个或多个对象的识别可以作为连续处理执行(例如，一个或多个对象的连续识别)，以使得可以实时地检测、标识和/或识别一个或多个对象(例如，包括与一个或多个对象相关联的视觉和/或音频传感器输出的传感器输出)，且还可以连续地更新包括状态指示符的一个或多个界面元素(例如，当实时地识别出一个或多个对象时)。另外，一个或多个界面元素可以用于提供导航指令(例如，与到位置的路径相关联的文本或者音频指令)及与环境中的一个或多个对象有关的其他信息。

因此，在一些实施例中，语义处理系统可以在后台连续地操作以识别对象。在识别出一个或多个对象时，语义处理系统可以在用户界面的状态条中提供状态指示符。状态指示符可以指示已经识别出对象，且在一些实施例中，可以进一步指示已经识别出的对象的类型。状态条中的状态指示符可以提供用于对象的附加语义信息可用的非侵入式视觉指示。如果对接收附加语义信息感兴趣，用户可以与状态指示符交互(例如，通过点击或者下拉)，且可以在用户界面内显示附加信息(例如，以附加界面元素的形式)。

响应于接收对一个或多个界面元素的一个或多个输入，语义处理系统可以确定包括对象数据的至少一部分的一个或多个远程计算装置(例如，存储对象数据的某些部分的一个或多个远程计算装置)。一个或多个对象输出可以包括与一个或多个远程计算装置相关联的一个或多个远程源指示(例如，与一个或多个远程计算装置相关联的ip地址)，一个或多个远程计算装置包括对象数据的至少一部分。

语义处理系统可以部分地基于状态数据或者一个或多个语义对象，确定包括一个或多个语义符号的一个或多个对象(例如，包括一个或多个字母的一个或多个音素(grapheme)、一个或多个语标(logogram)、一个或多个音节字符(syllabiccharacter)和/或一个或多个象形图(pictogram))。部分地基于一个或多个语义符号，语义处理系统可以确定与一个或多个语义符号相关联的一个或多个词(例如，使用字典数据，一个或多个语义符号的某些组合可以与词相关联)。在一些实施例中，一个或多个语义对象的属性的集合可以包括一个或多个词。例如，用于具有指示“下午8点在市政中心的音乐会”的文本的海报的语义对象可以包括包含属性的集合的海报语义对象，属性的集合包括音乐会作为用于事件类型属性的值，包括下午8点作为用于事件时间属性的值，且包括市政中心，或者与市政中心相关联的地理坐标作为用于位置属性的值。

语义处理系统可以确定与一个或多个语义符号相关联的检测到的语言。例如，部分地基于一个或多个语义符号的组合(例如，与一个或多个语义符号相关联的词)，语义处理系统可以确定与一个或多个语义符号相关联的语言(例如，包含英文、俄文、中文和/或法文的语言)。

当检测到的语言不与默认语言(例如，当检测到的语言与默认语言不相同时语义处理系统的用户已经选为检测到的语言要翻译为的语言的语言)相关联时，语义处理系统可以部分地基于翻译数据生成翻译的输出。翻译数据可以包括默认语言的一个或多个语义符号和检测到的语言的一个或多个语义符号。语义处理系统可以比较检测到的语言的一个或多个语义符号与默认语言的一个或多个语义符号，以对翻译检测到的语言进行确定和执行分析。

翻译的输出可以包括与检测到的语言的一个或多个语义符号的一部分对应的默认语言的一个或多个语义符号(例如，包括默认语言的一个或多个词的列表的多语言辞典，每个词与检测到的语言的相应的词相关联)。在一些实施例中，一个或多个对象输出可以部分地基于翻译的输出(例如，一个或多个对象输出可以包括翻译的视觉指示或者音频指示)。

语义处理系统可以接收包括与环境的当前位置和目的地位置(例如，由语义处理系统的用户选择的目的地位置)相关联的信息的位置数据。另外，语义处理系统可以部分地基于一个或多个传感器的视场内一个或多个对象的位置数据和状态和位置数据，确定从当前位置到目的地位置的路径(例如，避免介于当前位置和目的地位置间的障碍的当前位置和目的地位置之间的路径)。

另外，语义处理系统可以部分地基于一个或多个语义对象和从当前位置到目的地位置的路径生成一个或多个指导。另外，语义处理系统可以确定可以用作与一个或多个指导相关联的陆标的一个或多个语义对象(例如，与路灯柱相关联的语义对象可以用作一个或多个指导的一部分“在你前方的路灯柱向左转”)。在一些实施例中，一个或多个对象输出可以部分地基于一个或多个指导(例如，一个或多个视觉指示或者一个或多个音频指示可以包括指导)。

在一些实施例中，语义处理系统可以确定与一个或多个语义对象对应的一个或多个相关性值。一个或多个相关性值可以部分地基于一个或多个语义对象中的每一个与上下文数据相关联的程度。上下文数据可以包括与环境相关联的各种特性，包括与一天中的时刻、当前位置(例如，与环境相关联的经纬度)相关联的数据、一个或多个计划的事件(例如，将在预定时间段内发生的一个或多个事件)、一个或多个用户位置、或者一个或多个用户偏好(例如，包括食物偏好、音乐偏好和/或娱乐偏好的用户的一个或多个偏好)。在一些实施例中，一个或多个对象输出可以部分地基于与一个或多个语义对象对应的一个或多个相关性值。

语义处理系统可以部分地基于状态数据或者语义数据，修改一个或多个视觉指示或者一个或多个音频指示。修改一个或多个视觉指示或者一个或多个音频指示可以包括：将一个或多个视觉指示转换为一个或多个修改的音频指示(例如，基于文本生成人工语言)；将一个或多个音频指示转换为一个或多个修改的视觉指示(例如，基于对麦克风的音频输入生成文本)；修改一个或多个视觉指示的尺寸(例如，增大由相机捕获的文本的尺寸)；修改一个或多个视觉指示的一个或多个颜色特性(例如，生成一个或多个视觉指示周围的高亮)；和/或修改一个或多个音频指示的幅度(例如，增大一个或多个音频指示的音量)。这种一个或多个视觉指示和/或一个或多个音频指示的修改可以用于增强任何用户的体验，且可以对于具有视觉或者听觉损伤的个体特别地有用。例如，语义处理系统可以增强否则将对于具有视觉缺陷的个体不可读的文本的尺寸和清晰度。

本公开的一个示例方面针对包括显示器的移动装置。在一些实施例中，显示器的平面可以定义移动装置的第一平面。移动装置可以包括布置为从平行于移动装置的第一平面的方向捕获一个或多个图像的相机。移动装置可以包括处理器，其配置为接收由相机捕获的图像，识别接收到的图像中存在的一个或多个对象，和基于接收到的图像中的一个或多个识别出的对象控制显示器的输出。

在一些实施例中，处理器配置为控制显示器响应于一个或多个识别出的对象输出用户界面元素。用户界面元素可以在已经由显示器显示的一个或多个用户界面元素之上显示。响应于一个或多个识别出的对象，用户界面元素输出可以包括当显示器的输出具有纵向朝向时在显示器的顶端显示的条形元素。在一些实施例中，处理器配置为识别危险，且输出的用户界面元素包括警告消息。在一些实施例中，处理器进一步配置为基于接收到的图像中识别出的一个或多个对象确定移动装置的位置，和基于所确定的移动装置的位置控制显示器的输出。

在一些实施例中，显示器是矩形形状，且相机布置为从平行于显示器的长轴的方向捕获一个或多个图像。相机可以配置为以预设间隔顺序地捕获多个图像，且处理器可以配置为接收由相机捕获的多个图像中的每一图像。

在一些实施例中，相机可以配置为根据移动装置的显示器是否活动来捕获多个图像。移动装置可以包括字符识别单元。字符识别单元可以配置为从处理器接收在接收到的图像中识别出的文本对象；从接收到的文本对象确定文本串；和/或将所确定的文本串发送到处理器。另外，处理器可以配置为基于所确定的文本串控制显示器的输出。

在一些实施例中，移动装置可以包括语言单元。语言单元可以配置为从处理器接收由字符识别单元确定的文本串，将文本串转换为第二语言的翻译的文本串，和/或将翻译的文本串发送到处理器。处理器可以配置为基于翻译的文本串控制显示器的输出。

在一些实施例中，移动装置可以包括音频输出单元。处理器可以配置为基于接收到的图像中的一个或多个识别出的对象控制音频输出单元的输出。

本公开的另一示例方面针对操作移动装置的方法。该方法可以包括：接收由移动装置的相机捕获的图像，其中相机布置为从平行于如移动装置的显示器的平面定义的移动装置的第一平面的方向捕获一个或多个图像；识别接收到的图像中存在的一个或多个对象；和/或基于接收到的图像中的一个或多个识别出的对象控制移动装置的显示器的输出。

在一些实施例中，接收图像可以包括接收由相机以预设间隔顺序地捕获的多个图像。在一些实施例中，接收多个图像可以包括根据移动装置的显示器是否活动而接收由相机捕获的多个图像。该方法可以包括控制显示器以响应于一个或多个识别出的对象输出用户界面元素。用户界面元素可以在已经由显示器显示的一个或多个用户界面元素之上显示。在一些实施例中，响应于一个或多个识别出的对象的用户界面元素输出可以包括当显示器的输出具有纵向朝向时在显示器的顶端显示的条形元素。识别一个或多个对象可以包括识别危险，且输出的用户界面元素可以包括警告消息。

在一些实施例中，该方法可以包括基于接收到的图像中识别出的一个或多个对象确定移动装置的位置，和基于所确定的移动装置的位置控制显示器的输出。该方法可以包括识别从处理器接收的图像中的文本对象；从识别出的文本对象确定文本串；和/或基于所确定的文本串控制显示器的输出。

在一些实施例中，该方法可以包括将所确定的文本串转换为第二语言的翻译的文本串和基于翻译的文本串控制显示器的输出。在一些实施例中，该方法可以包括基于接收到的图像中的一个或多个识别出的对象控制音频输出单元的输出。

本公开的另一示例方面针对包括程序的计算机可读介质，该程序当由处理器运行时执行操作移动装置的方法。由程序执行的方法可以包括：接收由移动装置的相机捕获的图像，其中相机布置为从平行于如移动装置的显示器的平面定义的移动装置的第一平面的方向捕获一个或多个图像；识别接收到的图像中存在的一个或多个对象；和/或基于接收到的图像中的一个或多个识别出的对象控制移动装置的显示器的输出。

在一些实施例中，接收图像可以包括接收由相机以预设间隔顺序地捕获的多个图像。在一些实施例中，接收多个图像可以包括根据移动装置的显示器是否活动而接收由相机捕获的多个图像。在一些实施例中，由程序执行的方法可以包括控制显示器以响应于一个或多个识别出的对象输出用户界面元素。用户界面元素可以在已经由显示器显示的一个或多个用户界面元素之上显示。在一些实施例中，响应于一个或多个识别出的对象的用户界面元素输出可以包括当显示器的输出具有纵向朝向时在显示器的顶端显示的条形元素。

在一些实施例中，识别一个或多个对象可以包括识别危险，且输出用户界面元素可以包括警告消息。在一些实施例中，由程序执行的方法可以包括基于接收到的图像中识别出的一个或多个对象确定移动装置的位置，和基于所确定的移动装置的位置控制显示器的输出。在一些实施例中，由程序执行的方法可以包括识别从处理器接收的图像中的文本对象，从识别出的文本对象确定文本串，和/或基于所确定的文本串控制显示器的输出。

在一些实施例中，由程序执行的方法可以包括将所确定的文本串转换为第二语言的翻译的文本串，和/或基于翻译的文本串控制显示器的输出。在一些实施例中，由程序执行的方法可以包括基于接收到的图像中的一个或多个识别出的对象控制音频输出单元的输出。

公开的技术中的系统、方法、装置和非瞬时计算机可读介质可以提供多种技术效果，并有利于基于来自一个或多个传感器的传感器输出识别环境，基于传感器输出生成一个或多个语义对象和基于一个或多个语义对象执行一个或多个动作的整个处理。公开的技术可以减少或者消除用户参与采集关于他们的环境和环境中的对象的信息的手动交互的需要。手动交互的减少可能来自于可以持续地监视环境的状态，确定最优操作模式和以更有效率的方式(例如，使用更少步骤产生输出)生成指示的传感器数据的自动化处理。在仍然使用手动选择的情况下，与没有公开的技术的辅助相比，公开的技术可以通过更快速地执行通常使用的功能，包括翻译、图像识别和语义数据与外部数据源的关联(例如，通过消除在不同功能中执行的一个或多个步骤)，来减少人的介入的量。

通过基于环境中的条件改变操作模式，公开的技术可以通过选择性地激活传感器和选择性地执行各种操作来最大化计算资源的使用。例如，通过确定要使用的操作模式和要执行的一个或多个特定动作(例如，文本翻译)，公开的技术可以避免可能由不包括与环境相关联的语义对象的生成和分析的更随意的方法导致的过度的资源使用(例如，电池电力和/或网络传输)。另外，公开的技术可以平衡包括可以在不需要使用网络资源(例如，接触在远程计算装置上存储的机器学习模型的网络带宽)的情况下访问的本地存储的机器学习模型的机器学习模型的能力。

以该方式，公开的技术能够减少或者以其他方式改进用户与装置的交互的效率。通过基于环境和与环境相关联的一个或多个语义对象改变操作模式和/或执行一个或多个动作，在没有用户的介入的情况下，公开的技术可以以更短的时间量或者以更少的交互步骤将用户导向理想的信息结果或者动作。因此，特别地在移动装置的领域，公开的技术可以导致与亮屏(screen-on)时间和处理器使用相关联的功耗需要的减小，这些功耗需要可能在移动装置中具有特别的重要性。公开的技术可以减小与处理用户输入查询，和处理这种查询的响应相关联的处理时间的需要。通过增加可以向用户提供理想的信息结果或者动作的实例的数目，在没有处理和响应于用户输入查询的情况下，公开的技术随着时间可能导致显著的功耗和随时间的处理资源。通过扩展，通过减小查询必须发送到远程计算装置的实例的数目，公开的技术可以提供跨实现公开的技术的移动装置的系统的网络使用的效率。

公开的技术还提供能够配置有以对于用户更人体工学(例如，对于用户握着更人体工学)和捕获用户周围的环境的更宽视场的方式定位的各种传感器(例如，周视相机)的益处。基于装置的正常或者自然抓握位置，比如周视相机的传感器可以以改进来自环境的传感器数据的被动收集的方式位于装置上，以使得传感器可以在没有装置的用户的主动姿势或者动作的情况下持续地监视环境的状态。另外，公开的技术可以使用基于从本地传感器获取的数据的语义对象以丰富可能在一个或多个界面元素中显示的寻径应用中的指导(例如，状态条指示符，包括指示正在执行寻径的寻径指示符和/或指示正在执行对象识别的对象识别指示符)。例如，公开的技术可以使用在装置上的相机的视野内的本地陆标或者其他对象作为增强指导的线索。

因此，公开的技术提供在各种环境中的更有效的基于传感器的语义对象生成，以及较低资源使用的增加的益处(例如，改进电池和网络资源的利用)，这来自采集和处理环境的状态的语义对象驱动的方法。

现在将对实施例具体地做出参考，在图中图示了其一个或多个示例。以说明实施例而非限制本公开的方式提供每个示例。事实上，对本领域技术人员显然的是，可以对实施例做出各种修改和变更，而不脱离本公开的范围或者精神。例如，图示或者描述为一个实施例的一部分的特征可以与另一实施例一起使用以产生其它实施例。因此，本公开的方面意在覆盖这种修改和变更。

现在参考图1到图17，将更具体地公开本公开的示例方面。图1图示根据本公开的示例实施例的示例系统100的图。系统100可以包括用户装置102、远程计算装置104、通信网络106、对象识别组件110、对象数据114(例如，与一个或多个物理对象和/或一个或多个语义对象相关联的数据)、和地理信息系统120。

用户装置102可以经由通信网络106从远程计算装置104接收对象数据(例如，与由用户装置102检测到或者识别出的一个或多个对象相关联的信息)。可以在用户装置102上操作或者执行的对象识别组件110可以经由网络106与远程计算装置104交互以执行一个或多个操作，包括一个或多个对象的检测和/或识别；一个或多个语义对象的生成；和/或一个或多个输出的生成(例如，包括视觉指示、音频指示和/或触觉指示的物理输出)。在一些实施例中，对象识别组件110可以包括可以用于检测和/或识别对象且还可以用于一个或多个语义对象的生成的机器学习模型。网络106可以包括任何类型的通信网络，比如局域网(例如内部网)、广域网(例如因特网)、蜂窝网络或者其某些组合。网络106还可以包括直接连接。总的来说，通信可以使用任何类型的有线和/或无线连接，使用多种通信协议(例如tcp/ip、http、smtp、ftp)、编码或者格式(例如html或者xml)和/或保护方案(例如vpn、安全http或者ssl)经由网络106承载。

用户装置102可以包括一个或多个计算装置，包括平板计算装置、能够穿戴的装置(例如，智能手表或者智能带)、膝上型计算装置、台式计算装置、移动计算装置(例如，智能电话)和/或具有一个或多个处理器的显示装置。

对象识别组件110可以在用户装置102上实现。对象识别组件110可以实现一个或多个对象的对象检测和/或识别。另外，对象识别组件110可以帮助基于来自一个或多个传感器(未示出)的一个或多个传感输出的一个或多个语义对象的生成。传感输出可以与一个或多个图像或者声音相关联，该一个或多个图像或者声音与环境中的一个或多个对象相关联。对象识别组件110可以通过经由在用户装置102上实现的网络浏览器访问的网络应用，或者通过用户装置102上的本地执行或操作和远程计算装置上的远程执行或操作的组合，来在用户装置102上本地操作或者执行，该远程计算装置可以包括远程计算装置104或者地理信息系统120。

对象识别组件110可以配置为生成、处理或者修改可以由用户使用的数据，该数据包括图像数据(例如，图像文件)、音频数据(例如，声音文件)和/或导航数据(例如，与图像数据相关联的感兴趣地点的位置)。

在一些实施例中，远程计算装置104可以包括包含服务器(例如，网络服务器)的一个或多个计算装置。一个或多个计算装置可以包括一个或多个处理器和一个或多个存储器装置。一个或多个存储器装置可以存储计算机可读指令以例如实现与对象数据114相关联的一个或多个应用。在一些实施例中，对象数据114例如可以与地理信息系统120相关联。

地理信息系统120可以与根据数据的组成要素(例如，位置)的地理坐标(例如，经纬度)索引的数据相关联，或者包括该数据。与地理信息系统120相关联的数据可以包括地图数据、图像数据、地理影像和/或与各种路径点(waypoint)(例如，地址或者地理坐标)相关联的数据。如由远程计算装置104确定或者生成的对象数据114可以包括与一个或多个对象和/或一个或多个语义对象的状态或者特性相关联的数据，一个或多个语义对象例如包括对象标识符(例如，对象的位置名和/或名称)、对象的价格、对象的位置和/或对象的所有权。

图2图示根据本公开的示例实施例的示例计算装置200，该示例计算装置200可以配置为基于包括对象的环境的状态的检测或者识别生成语义对象和输出。计算装置200可以包括一个或多个系统(例如，一个或多个计算系统)或包括图1所示的用户装置102和/或远程计算装置104的装置(例如，一个或多个计算装置)的一个或多个部分。如图所示，计算装置200包括存储器204；可以包括可以存储在存储器204上的一个或多个指令的对象识别组件212；配置为运行存储器204中存储的一个或多个指令的一个或多个处理器220；可以支持网络通信的网络接口222；一个或多个大规模存储装置224(例如，硬盘驱动器或者固态驱动器)；一个或多个输出装置226(例如，一个或多个显示装置)；阵列传感器228(例如，一个或多个光学和/或音频传感器)；一个或多个输入装置230(例如，一个或多个触摸检测表面)；和/或一个或多个互连232(例如，用于在计算装置中的计算组件之间传送一个或多个信号或者数据的总线)。一个或多个处理器220可以包括任何处理装置，其例如可以处理和/或交换(发送或者接收)与计算装置相关联的一个或多个信号或者数据。

例如，一个或多个处理器220可以包括单核心或者多核心装置，包括微处理器、微控制器、集成电路和/或逻辑器件。存储器204和存储存储器224分开地图示，但是，组件204和224可以是同一存储器模块内的区域。计算装置200可以包括可以分开地提供或者在同一芯片或者板上提供的一个或多个附加的处理器、存储器装置、网络接口。组件204和224可以包括一个或多个计算机可读介质，包括但不限于非瞬时计算机可读介质、ram、rom、硬盘驱动器、闪存驱动器和/或其他存储器件。

存储器204可以存储包括与各种软件应用或者数据相关联的操作系统的、用于应用的指令的集合。存储器204可以用于操作各种应用，包括特别地对于移动装置开发的移动操作系统。因而，存储器204可以执行功能，该功能允许软件应用访问包括无线网络参数(例如，无线网络的标识，服务质量)的数据，和调用包括电话、位置确定(例如，经由全球定位服务(gps)或者wlan)和/或无线网络数据呼叫始发服务的各种服务。在其他实现中，存储器204可以用于可以用于操作或者运行在比如例如智能电话和台式计算机的移动和静止装置两者上操作的通用操作系统。在一些实施例中，对象识别组件212可以包括可以用于检测和/或识别对象的机器学习模型。另外，对象识别组件可以用于一个或多个语义对象的生成。

阵列传感器228可以包括可以检测包括一个或多个对象的环境的状态的改变的一个或多个传感器。例如，阵列传感器228可以包括一个或多个光传感器、运动传感器、热传感器、音频传感器、触觉传感器、压力传感器、湿度传感器和/或电磁传感器。一个或多个输入装置230可以包括用于将输入录入到计算装置200中的一个或多个装置，包括一个或多个触敏表面(例如，电阻和/或电容触摸屏)、键盘、鼠标装置、麦克风和/或笔装置。一个或多个输出装置226可以包括可以提供包括视觉输出、音频输出和/或触觉输出的物理输出的一个或多个装置。例如，一个或多个输出装置226可以包括一个或多个显示组件(例如，lcd监视器、oled监视器和/或指示灯)、一个或多个音频组件(例如，扬声器)和/或可以产生包括振动的运动的一个或多个触觉输出装置。

可以由计算装置200操作或者运行的软件应用可以包括图1所示的对象识别组件110。另外，可以由计算装置200操作或者运行的软件应用可以包括本机应用或者基于网络的应用。

在某些实现中，用户装置可以与定位系统(未示出)相关联或者包括定位系统。定位系统可以包括用于确定装置的位置的一个或多个装置或者电路系统。例如，定位装置可以通过使用卫星导航定位系统(例如，gps系统、伽利略定位系统、全球导航卫星系统(glonass)、北斗卫星导航和定位系统)、惯性导航系统、推算定位(deadreckoning)系统，基于ip地址，通过使用三角测量和/或邻近蜂窝塔或者wi-fi热点、信标等和/或用于确定位置的其他适当的技术，来确定实际或者相对位置。定位系统可以确定用户装置的用户位置。用户位置可以提供给远程计算装置104用于由对象数据提供者使用以确定与用户装置102相关联的行进数据。

一个或多个互连232可以包括可以用于在计算装置200的组件之间交换(例如，发送和/或接收)一个或多个信号(例如，电子信号)和/或数据的一个或多个互连或者总线，计算装置200的组件包括存储器204、对象识别组件212、一个或多个处理器220、网络接口222、一个或多个大规模存储装置224、一个或多个输出装置226、阵列传感器228和/或一个或多个输入装置230。一个或多个互连232可以以不同的方式布置或者配置，包括如并行或者串行连接。另外，一个或多个互连232可以包括连接计算装置200的内部组件的一个或多个内部总线；和用于连接计算装置200的内部组件到一个或多个外部装置的一个或多个外部总线。举例来说，一个或多个互连232可以包括不同接口，包括工业标准架构(isa)、扩展的isa、外围组件互连(pci)、pci直达、串行at附接(sata)、超传输(ht)、usb(通用串行总线)、雷电和/或ieee1394接口(火线)。

图3图示根据本公开的示例实施例的包括图像捕获的基于传感器的语义对象生成的示例。图3包括环境300的图示，环境300的一个或多个部分可以由一个或多个系统(例如，一个或多个计算系统)或装置(例如，一个或多个计算装置)检测、识别和/或处理，一个或多个系统或装置包括图1所示的用户装置102、图1所示的远程计算装置104和/或图2所示的计算装置200。另外，环境300的一个或多个部分的检测、识别和/或处理可以实现为一个或多个装置或者系统(例如，用户装置102、远程计算装置104和/或计算装置200)的硬件组件上的算法，以例如基于一个或多个对象生成一个或多个语义对象和输出。如图3所示，环境300包括语义处理系统310、显示组件312、边缘部分314、对象320和文本部分322。

语义处理系统310的显示组件312可以显示包括环境300的环境的一个或多个图像。由显示组件312显示的一个或多个图像可以由语义处理系统310的一个或多个传感器(例如，一个或多个相机)捕获。在该实例中，显示组件312使用捕获对象320的图像的、位于语义处理系统310的边缘部分314上的相机(例如，周视相机)，对象320是具有语言的组合(英文和中文)的文本的海报。在一些实施例中，一个或多个传感器可以位于语义处理系统310上的任何地方。另外，语义处理系统310可以从一个或多个外部装置接收传感输出(例如，远程相机可以向语义处理系统310提供视频影像)。

语义处理系统310可以在显示组件312上输出包括文本部分322的对象320的一个或多个图像。如图3所示，公开的技术可以将环境的图像输出到可以从用户接收一个或多个输入的装置的显示组件上。

图4图示根据本公开的示例实施例的包括音频生成的基于传感器的语义对象生成的示例。图4包括环境400的图示，环境400的一个或多个部分可以由一个或多个系统(例如，一个或多个计算系统)或装置(例如，一个或多个计算装置)检测、识别和/或处理，该一个或多个系统或装置包括语义处理系统音频组件410，其可以包括图1所示的用户装置102、图1所示的远程计算装置104和/或图2所示的计算装置200的一个或多个部分。另外，环境400的一个或多个部分的检测、识别和/或处理可以实现为一个或多个装置或者系统(例如，用户装置102、远程计算装置104和/或计算装置200)的硬件组件上的算法，以例如基于一个或多个对象生成一个或多个语义对象和输出。如图4所示，环境400包括语义处理系统音频输出组件410。

语义处理系统音频输出组件410可以包括一个或多个组件，该一个或多个组件可以输出声音，包括经由语义处理系统音频输出组件410的一个或多个扬声器输出的声音。例如，语义处理系统音频输出组件410可以从比如用户装置102或者计算装置200的系统或装置接收一个或多个信号(例如，包括数据的一个或多个信号)。一个或多个信号可以无线地或者经由线路发送和由语义处理系统音频输出组件410的接收组件(未示出)接收。一个或多个信号可以包括与一个或多个指示相关联的数据，该一个或多个指示关于包括一个或多个对象的环境的状态。例如，一个或多个信号可以包括基于识别的文本的一部分的音频(例如，文本到语音翻译)或者到位置的指导的音频(例如，到目的地位置的指导的音频指令)。

图5图示根据本公开的示例实施例的包括文本翻译的基于传感器的语义对象生成的示例。图5包括语义处理系统500的图示，语义处理系统500可以包括一个或多个系统(例如，一个或多个计算系统)或装置(例如，一个或多个计算装置)，该一个或多个系统或装置包括图1所示的用户装置102、图1所示的远程计算装置104和/或图2所示的计算装置200。另外，通过语义处理系统500的环境的一个或多个部分的检测、识别和/或处理可以实现为一个或多个装置或者系统(例如，用户装置102、远程计算装置104和/或计算装置200)的硬件组件上的算法，以例如基于一个或多个对象生成一个或多个语义对象和输出。如图5所示，语义处理系统500包括显示组件510和文本部分512。

语义处理系统500可以在显示组件510上显示包括一个或多个对象的环境的一个或多个图像。一个或多个图像可以由语义处理系统500的一个或多个传感器(未示出)捕获。在该实例中，显示组件510输出具有语言的组合(英文和中文)的文本的海报的显示。语义处理系统500可以生成与环境中检测到的文本对应的语义对象，翻译文本，和输出在显示组件510上示出的文本部分512。例如，语义处理系统500可以在由语义处理系统500捕获的中文文本之上叠加翻译的英文文本(“qingdaodaily”)。

图6图示根据本公开的示例实施例的包括文本识别的基于传感器的语义对象生成的示例。图6包括环境600的图示，环境600的一个或多个部分可以由一个或多个系统(例如，一个或多个计算系统)或装置(例如，一个或多个计算装置)检测、识别和/或处理，该一个或多个系统或装置包括语义处理系统610，其可以包括图1所示的用户装置102、图1所示的远程计算装置104和/或图2所示的计算装置200的一个或多个部分。另外，环境600的一个或多个部分的检测、识别和/或处理可以实现为一个或多个装置或者系统(例如，用户装置102、远程计算装置104和/或计算装置200)的硬件组件上的算法，以例如基于一个或多个对象生成一个或多个语义对象和输出。

如图6所示，环境600包括语义处理系统610、对象620和文本部分622。

语义处理系统610可以经由一个或多个传感器(例如，一个或多个相机)捕获一个或多个图像。语义处理系统610可以包括位于语义处理系统610上的一个或多个周视相机(未示出)，以使得一个或多个周视相机的广视场可以捕获包括对象620(例如，海报)的环境600的状态，该对象620包括文本部分622(“juanitadeflor”)。一个或多个周视相机的定位允许语义处理系统610的用户在以人体工学舒服的位置抓握语义处理系统610的同时捕获环境中的一个或多个对象的一个或多个图像。

图7图示根据本公开的示例实施例的包括文本识别的基于传感器的语义对象生成的示例。图7包括语义处理系统700的图示，语义处理系统700可以包括一个或多个系统(例如，一个或多个计算系统)或装置(例如，一个或多个计算装置)的一个或多个部分，该一个或多个系统或装置包括图1所示的用户装置102、图1所示的远程计算装置104和/或图2所示的计算装置200。另外，通过语义处理系统700的环境的一个或多个部分的检测、识别和/或处理可以实现为一个或多个装置或者系统(例如，用户装置102、远程计算装置104和/或计算装置200)的硬件组件上的算法，以例如基于一个或多个对象生成一个或多个语义对象和输出。如图7所示，语义处理系统700包括显示组件710、图像对象712和界面元素714。

语义处理系统700可以在显示组件710上显示包括一个或多个对象的环境的一个或多个图像。显示组件710上显示的一个或多个图像可以由语义处理系统700的一个或多个传感器(未示出)捕获。在该实例中，显示组件710输出包括具有文本(“juanitadeflor”)的海报的一部分的视觉表示的图像对象712。语义处理系统700可以识别出与图像对象712相关联的对象(例如，海报)包括文本，且可以基于图像对象712生成语义对象(例如，基于识别对象的语义对象)。基于语义对象，语义处理系统700可以确定图像对象712与音乐家“juanitadeflor”相关联，且可以访问包括与生成的语义对象相关联的数据(例如，音乐音频文件)的远程计算装置(例如，远程计算装置104)。基于语义对象的标识(例如，音乐家的姓名)，语义处理系统700可以在显示组件710上生成包括界面元素714的一个或多个界面元素，其允许用户访问或者控制与语义对象有关的信息。例如，界面元素714可以用于复制与由语义处理系统700生成的语义对象相关联的音乐音频文件。

图8图示根据本公开的示例实施例的包括对象识别的基于传感器的语义对象生成的示例。图8包括环境800的图示，环境800的一个或多个部分可以由一个或多个系统(例如，一个或多个计算系统)或装置(例如，一个或多个计算装置)检测、识别和/或处理，该一个或多个系统或装置包括语义处理系统，其可以包括图1所示的用户装置102、图1所示的远程计算装置104和/或图2所示的计算装置200的一个或多个部分。另外，环境800的一个或多个部分的检测、识别和/或处理可以实现为一个或多个装置或者系统(例如，用户装置102、远程计算装置104和/或计算装置200)的硬件组件上的算法，以例如基于一个或多个对象生成一个或多个语义对象和输出。如图8所示，环境800包括语义处理系统810、显示组件812、对象820和对象标签822。

语义处理系统810的显示组件812可以显示基于环境800的一个或多个图像。由显示组件812显示的一个或多个图像可以由语义处理系统810的一个或多个传感器(未示出)捕获。语义处理系统810可以捕获作为手提包的对象820的图像。语义处理系统810可以基于语义处理系统810的识别对象820是手提包，来生成语义对象。语义处理系统810可以检测对象标签822，且基于检测对象标签822，可以生成与对象820相关联的语义对象的一个或多个属性，例如包括可以基于由语义处理系统810确定的对象820的商标分配值的对象商标属性。例如，为确定对象商标属性的值，语义处理系统810可以访问可以包括与对象商标属性相关联的数据的远程计算系统，且可以使用数据以将值(例如，手提包制造者的商标)与对象商标属性相关联。

图9图示根据本公开的示例实施例的包括对象识别的基于传感器的语义对象生成的示例。图9包括语义处理系统900的图示，语义处理系统900可以包括一个或多个系统(例如，一个或多个计算系统)或装置(例如，一个或多个计算装置)的一个或多个部分，该一个或多个系统或装置包括图1所示的用户装置102、图1所示的远程计算装置104和/或图2所示的计算装置200。另外，环境的一个或多个部分由语义处理系统900的检测、识别和/或处理可以实现为一个或多个装置或者系统(例如，用户装置102、远程计算装置104和/或计算装置200)的硬件组件上的算法，以例如基于一个或多个对象生成一个或多个语义对象和输出。如图9所示，语义处理系统900包括显示组件910、图像对象920、图像对象部分922、对象标识符924和界面元素926。

语义处理系统900可以在显示组件910上显示环境(例如，包括一个或多个对象的环境)的一个或多个图像。一个或多个图像可以由可以位于语义处理系统900的一个或多个部分上的语义处理系统900的一个或多个传感器(例如，一个或多个相机)捕获。在该实例中，显示组件910输出对象920的显示。语义处理系统900可以识别出对象920是包括对象标签922的手提包。语义处理系统900可以基于对象标签922生成语义对象属性。基于语义对象的属性(例如，对象是具有来自特定制造商的标签的手提包)，语义处理系统900可以生成包括对象标识符924(“包”)和包括界面元素926的界面元素的显示输出。界面元素926可以是控制元素，该控制元素在由用户激活(例如，触摸界面元素926和/或发出针对界面元素926语音命令)时，可以执行一个或多个动作，该一个或多个动作包括访问销售包括对象920的物品或者服务的因特网网站和/或提供关于对象920的更多信息。

图10图示根据本公开的示例实施例的包括位置标识的基于传感器的语义对象生成的示例。图10包括语义处理系统1000的图示，语义处理系统1000可以包括一个或多个系统(例如，一个或多个计算系统)或装置(例如，一个或多个计算装置)的一个或多个部分，该一个或多个系统或装置包括图1所示的用户装置102、图1所示的远程计算装置104和/或图2所示的计算装置200。另外，环境的一个或多个部分由语义处理系统1000的检测、识别和/或处理可以实现为一个或多个装置或者系统(例如，用户装置102、远程计算装置104和/或计算装置200)的硬件组件上的算法，以例如基于一个或多个对象生成一个或多个语义对象和输出。如图10所示，语义处理系统1000包括显示组件1010、对象1020、对象1022、对象1024和对象1026。

在该实例中，语义处理系统1000的显示组件1010显示由语义处理系统1000的相机(未示出)捕获的、包括一个或多个对象(例如，人、建筑、街道和车辆)的环境。显示组件1010示出已经由语义处理系统1000检测到和/或识别出的对象，包括确定为街道地址的对象1020；确定为与服务(运输服务)相关联的标记的对象1022；确定为面部的对象1024；和确定为与服务(饭店)相关联的标记的对象1026。

语义处理系统1000可以基于对象1020、1022、1024和/或1026生成语义对象。例如，基于对象1020的语义对象可以用于确定位置(例如，当gps服务不可用时可以基于街道地址确定位置)；基于对象1022的语义对象可以用于确定具有用户的包裹的运输车辆是否在附近；和/或基于对象1026的语义对象可以用于标识与对象1026相关联的饭店和向语义处理系统1000的用户提供信息(例如，食品和服务的评价)。

另外，基于对象1024的语义对象可以用于确定已经明确地给予语义处理系统1000的用户识别他们的面部的许可的人(例如，语义处理系统1000的用户的朋友)是否在附近。在一些实施例中，为保护其图像由语义处理系统1000捕获的个体的隐私，个人标识数据(例如，面部识别数据)可以在不与任何其他装置共享或者对于任何其他装置不可访问的语义处理系统1000的安全部分(例如，加密存储区域)中本地存储在语义处理系统1000上。

显示组件1010可以配置为接收一个或多个输入以与显示组件1010上显示的界面元素交互。例如，基于用户可以触摸显示识别出的对象的显示组件1010的一部分，语义处理系统1000可以访问与关联于识别出的对象的语义对象相关联的信息。

图11图示根据本公开的示例实施例的包括位置标识的基于传感器的语义对象生成的示例。图11包括语义处理系统1100的图示，语义处理系统1100可以包括一个或多个系统(例如，一个或多个计算系统)或装置(例如，一个或多个计算装置)的一个或多个部分，该一个或多个系统或装置包括图1所示的用户装置102、图1所示的远程计算装置104和/或图2所示的计算装置200。另外，环境的一个或多个部分由语义处理系统1100的检测、识别和/或处理可以实现为一个或多个装置或者系统(例如，用户装置102、远程计算装置104和/或计算装置200)的硬件组件上的算法，以例如基于一个或多个对象生成一个或多个语义对象和输出。如图11所示，语义处理系统1000包括显示组件1110和对象1120。

在该实例中，语义处理系统1100的显示组件1110显示由语义处理系统1100的相机(未示出)捕获的环境。显示组件1110显示已经由语义处理系统1100检测到和/或识别出的对象，包括确定为用户行进到的位置的入口的对象1120。语义处理系统可以生成基于对象1120的语义对象，该语义对象可以用于向语义处理系统1100的用户提供导航指令。在某些环境下，到不同位置的入口可能彼此非常接近，且地理位置信号(例如，gps)可能不可用或者可能太不精确而不能区分正确的入口和不正确的入口。因此，语义处理系统1100可以通过基于来自位置的视觉输入生成语义对象和向语义处理系统1100的用户提供基于生成的语义对象的指导，而识别正确的入口。

图12图示根据本公开的示例实施例的包括导航的基于传感器的语义对象生成的示例。图12包括语义处理系统1200的图示，语义处理系统1200可以包括一个或多个系统(例如，一个或多个计算系统)或装置(例如，一个或多个计算装置)的一个或多个部分，该一个或多个系统或装置包括图1所示的用户装置102、图1所示的远程计算装置104和/或图2所示的计算装置200。另外，环境的一个或多个部分由语义处理系统1200的检测、识别和/或处理可以实现为一个或多个装置或者系统(例如，用户装置102、远程计算装置104和/或计算装置200)的硬件组件上的算法，以例如基于一个或多个对象生成一个或多个语义对象和输出。如图12所示，语义处理系统1200包括显示组件1210、导航指示符1212、状态指示符1214、目的地指示符1216、状态区域1220和状态指示符1222。

在该实例中，语义处理系统1200包括显示一个或多个图像和/或文本的显示组件1210。在显示组件1210的顶部，状态区域1220可以包括各种指示符，包括指示语义处理系统1200处于导航模式的状态指示符1222。语义处理系统1200可以以各种尺寸、形状和/或颜色生成其他指示符，包括在目的地指示符1216之上的状态指示符1214，目的地指示符1216指示语义处理系统1200的用户行进到的目的地。显示组件1210还可以生成包括文本指令“向西120英尺”和指向目的地位置的方向的图形指示符(箭头)。语义处理系统1200还可以包括生成导航指示符1212，该导航指示符1212包括与目的地位置“joshua树国家公园”相关联的标识符，在一些实施例中，其可以从用户接收一个或多个输入以提供与目的地位置相关联的更多信息。在一些实施例中，状态指示符1214可以在到达目的地位置时改变颜色、形状和/或尺寸。

图13图示根据本公开的示例实施例的包括位置标识的基于传感器的语义对象生成的示例。图13包括语义处理系统1300的图示，语义处理系统1300可以包括一个或多个系统(例如，一个或多个计算系统)或装置(例如，一个或多个计算装置)的一个或多个部分，该一个或多个系统或装置包括图1所示的用户装置102、图1所示的远程计算装置104和/或图2所示的计算装置200。另外，环境的一个或多个部分由语义处理系统1300的检测、识别和/或处理可以实现为一个或多个装置或者系统(例如，用户装置102、远程计算装置104和/或计算装置200)的硬件组件上的算法，以例如基于一个或多个对象生成一个或多个语义对象和输出。如图13所示，语义处理系统1300包括显示组件1310、状态区域1320、状态指示符1322、界面元素1324和界面元素1326。

在该实例中，语义处理系统1300包括显示组件1310，该显示组件1310包括状态区域1320(例如，状态条)，该状态区域1320可以生成装置的状态或者语义对象的指示符，该指示符已经由语义处理系统1300响应于环境中的一个或多个对象的一个或多个状态的识别而生成。状态区域1320可以包括状态指示符1322，该状态指示符1322可以指示语义处理系统1300已经执行了环境的识别和已经提供以环境为结果的信息。在该实例中，语义处理系统1300提供界面元素1324且还提供界面元素1326，该界面元素1324包括环境的位置(“音乐厅”)的指示，该界面元素1326向用户提供与关联于环境的语义对象交互的不同方式。例如，语义处理系统1300的用户可以触摸界面元素1326以访问关于对象的信息(例如，音乐厅的评价)。

图14图示根据本公开的示例实施例的基于传感器的语义对象生成的示例方法的流程图。方法1400的一个或多个部分可以在例如包括用户装置102、远程计算装置104和/或计算装置200的一个或多个计算装置或者计算系统上运行或者实现。方法1400的一个或多个部分还可以运行或者实现为在这里公开的装置的硬件组件上的算法。图14为了示例和讨论的目的图示以特定次序执行的步骤。本领域技术人员使用在这里提供的本公开，将理解可以适配、修改、重新排列、省略和/或扩展在这里公开的方法的任意步骤而不脱离本公开的范围。

在1402，方法1400可以包括接收数据，例如包括部分地基于来自一个或多个传感器的传感器输出的状态数据，该一个或多个传感器检测包括包含物理对象(例如，建筑的入口、街道地址、标记和/或电子装置)的一个或多个对象的环境的状态。

状态数据可以包括与包括环境中的一个或多个对象的环境的状态相关联的信息。包括一个或多个对象的环境的状态可以包括：还可以包括与环境相关联的事件的一个或多个持续时间(例如，计划的事件的持续时间)的时间状态(例如，当与环境的状态相关联的传感器输出由一个或多个传感器输出时的一天中的时刻)；与环境中的一个或多个对象的位置(例如，经纬度和/或一个或多个对象对另外一个或多个对象彼此或者对参考位置点的相对位置)相关联的位置状态；和/或包括一个或多个物理特性的物理状态(例如，包括颜色和/或纹理的外观；包括尺寸、体积、质量和/或重量的物理维度；和/或音频特性)。

在一些实施例中，一个或多个传感器可以包括一个或多个光传感器(例如，一个或多个相机)；包括具有超过一百八十度的视场的一个或多个相机的一个或多个周视相机；一个或多个音频传感器(例如，一个或多个麦克风)；一个或多个触觉传感器(例如，可以检测压力或者电容的表面)；包括气压传感器的一个或多个压力传感器；一个或多个陀螺传感器；包括其中一个或多个加速度计可以确定沿着三个轴(例如，x轴、y轴和z轴)的任意的加速度的配置的一个或多个加速度计；包括可以检测空气中的湿气级别的一个或多个传感器的一个或多个湿度传感器；一个或多个电磁传感器；和/或一个或多个热传感器。

在一些实施例中，语义处理系统可以包括配置为显示一个或多个图像的显示组件(例如，液晶显示器(lcd)、有机发光二极管(oled)、等离子显示面板、电子墨水和/或阴极射线管)，该一个或多个图像可以包括包含由一个或多个传感器检测到的一个或多个对象的环境的图像。另外，在一些实施例中，显示组件可以包括一个或多个传感器(例如，触摸屏)以使得显示组件可以用作输入装置。

另外，一个或多个周视相机可以配置或者定位以捕获包括不在显示组件的视觉平面内的一个或多个对象或者一个或多个对象的部分的一个或多个图像。例如，一个或多个周视相机可以位于语义计算系统的任何部分上，包括面对抓握语义计算系统的用户的一侧(例如，在与显示组件同一侧上)，面对远离抓握语义计算系统的用户的一侧(例如，与显示组件相对的一侧)和/或装置的任意边缘。

语义计算系统的显示组件可以包括视觉平面，其可以包括以下平面，如果是光学传感器，则将捕获光学传感器的一部分的小于一百八十度的范围内的一个或多个图像(例如，将不捕获垂直于视觉平面或者在视觉平面后面的图像)。例如，如果语义处理装置是矩形长方体的形状，则一个或多个周视相机可以位于长方体的任意侧。

在1404，方法1400可以包括生成与一个或多个对象对应的一个或多个语义对象。该一个或多个语义对象例如可以部分地基于包括状态数据的数据和/或包括机器学习模型的对象识别模型生成。

语义处理系统可以分析状态数据和对于状态数据执行一个或多个操作，包括比较状态数据和与状态数据的一个或多个部分相关联的信息。例如，一个或多个对象的外观可以与可以用于标识一个或多个对象的对象的数据库比较。基于一个或多个对象的标识，语义处理系统可以生成包括一个或多个对象的属性的另外的信息。在另一实例中，状态数据可以包括位置和时间，该位置和时间可以用于基于与事件的数据库的比较，确定是否将在给定位置内在装置的用户将在该位置存在的时间段发生数据库中的事件之一。

在一些实施例中，语义处理系统可以访问已经使用分类数据集创建的机器学习模型(例如，访问已经本地存储的机器学习模型和/或存储在远程计算装置上的机器学习模型)，该分类数据集包括分类器数据，该分类器数据包括与训练数据相关联的分类的对象标签的集合和分类的特征的集合，该训练数据可以基于多个训练对象(例如，用作机器学习模型的训练输入的物理对象或者模拟对象)或者与多个训练对象相关联。分类数据集可以部分地基于来自一个或多个传感器(例如，相机和/或麦克风)的输入，该一个或多个传感器已经用于分别基于视觉输入和音频输入生成视觉输出和音频输出。例如，机器学习模型可以使用捕获包括城市地区的视频和音频的训练数据的一组相机和麦克风创建，城市地区包括各种对象，包括水体、水路、建筑(例如，房屋和/或宾馆)、街道、小巷、车辆(例如，汽车和/或电车)、人和/或具有文本的表面(例如，电影海报)。

一个或多个语义对象可以包括属性的集合(例如，一个或多个语义对象中的每一个的属性的集合)。例如，与一个或多个语义对象相关联的属性的集合可以包括一个或多个对象标识，包括与一个或多个语义对象相关联的一个或多个对象的标识(例如，汽车的制造商和型号)；与一个或多个对象(该一个或多个对象与一个或多个语义对象相关联)的类型、类别或者种类相关联的一个或多个对象类型(例如，汽车可以与车辆类型相关联)；包括与一个或多个对象(该一个或多个对象与一个或多个语义对象相关联)相关联的地理位置的对象位置(例如，建筑对象的地址)；货币价值(例如，与对象相关联的一个或多个价格)；包括对象的所有者的所有权状态(例如，房屋的所有者)；和/或物理特性的集合(例如，与对象相关联的尺寸、外观或者质量)。

在1406，方法1400可以包括部分地基于一个或多个语义对象的属性的集合确定与一个或多个语义对象相关联的一个或多个操作模式。一个或多个操作模式可以确定由语义处理系统处理和/或使用一个或多个语义对象的方式。因而，语义处理系统可以基于一个或多个语义对象的一个或多个属性，将计算资源选择性地专用于可能的操作的子集(例如，检测包括文本的标记可以导致确定文本识别模式将用于处理与标记相关联的一个或多个语义对象)。

一个或多个操作模式可以包括：与识别环境中的文本信息相关联的文本识别模式(例如，识别何时对象包括文本或者象形图)；与识别环境中的一个或多个位置相关联的位置识别模式(例如，定位到饭店的入口)；与识别环境中的一个或多个对象相关联的对象识别模式(例如，识别停车场中的汽车)；和/或与识别环境中的一个或多个事件的发生相关联的事件识别模式(例如，将时间和位置与计划的事件相关联)。

在1408，方法1400可以包括确定与一个或多个语义对象对应的一个或多个相关性值。一个或多个相关性值可以部分地基于一个或多个语义对象中的每一个与上下文数据相关联的程度。上下文数据可以包括与环境相关联的各种特性，包括与一天中的时刻、当前位置(例如，与环境相关联的地理位置和/或地址)相关联的数据、一个或多个计划的事件(例如，将在预定时间段内发生的一个或多个事件)、一个或多个用户位置、或者一个或多个用户偏好(例如，包括饭店偏好、文献偏好和/或饮料偏好的用户的一个或多个偏好)。在一些实施例中，一个或多个对象输出可以部分地基于与一个或多个语义对象对应的一个或多个相关性值。

在1410，方法1400可以包括部分地基于一个或多个操作模式生成与一个或多个语义对象相关联的一个或多个对象输出。一个或多个对象输出可以包括经由语义处理系统的一个或多个输出装置(例如，一个或多个显示装置、音频装置和/或触觉输出装置)的一个或多个输出。文本识别模式可以产生包括有关文本的输出的一个或多个对象输出，有关文本的输出包括识别出的文本的翻译(例如，基于英文文本的检测和翻译生成俄文文本)。

在一些实施例中，一个或多个对象输出可以包括一个或多个视觉指示(例如，由语义处理系统的显示装置产生的一个或多个视觉图像)和/或一个或多个音频指示(例如，由语义处理系统的音频输出装置产生的一个或多个声音)。例如，一个或多个对象输出可以包括在显示装置上显示的翻译，包括书写文本的音频版本的音频指示(例如，文本到语音)，和/或叠加在环境的相机影像上的一个或多个图像。

在1412，方法1400可以包括部分地基于状态数据或者语义数据，修改一个或多个视觉指示或者一个或多个音频指示。修改一个或多个视觉指示或者一个或多个音频指示可以包括：将一个或多个视觉指示转换为一个或多个修改的音频指示(例如，基于检测到的文本生成人工语言)；将一个或多个音频指示转换为一个或多个修改的视觉指示(例如，基于对麦克风的音频输入生成文本)；修改一个或多个视觉指示的尺寸(例如，增大由相机捕获的对象的尺寸)；修改一个或多个视觉指示的一个或多个颜色特性(例如，使一个或多个视觉指示变亮)；和/或修改一个或多个音频指示的幅度(例如，增大一个或多个音频指示的音量)。这种一个或多个视觉指示和/或一个或多个音频指示的修改可以用于增强任何用户的体验，且对于具有视觉或者听觉损伤的个体可以特别有用。例如，语义处理系统可以增大否则将对于具有听觉损伤的个体听不见的声音的音量。

图15图示根据本公开的示例实施例的基于传感器的语义对象生成的示例方法的流程图。方法1500的一个或多个部分可以在例如包括用户装置102、远程计算装置104和/或计算装置200的一个或多个计算装置或者计算系统上运行或者实现。方法1500的一个或多个部分还可以运行或者实现为在这里公开的装置的硬件组件上的算法。图15为了示例和讨论的目的图示以特定次序执行的步骤。本领域技术人员使用在这里提供的本公开，将理解可以适配、修改、重新排列、省略和/或扩展在这里公开的方法的任意步骤而不脱离本公开的范围。

在1502，方法1500可以包括部分地基于一个或多个语义对象(例如，方法1400中的一个或多个语义对象)的属性的集合(例如，方法1400中的属性的集合)，确定匹配一个或多个语义对象的对象数据。例如，语义处理系统可以基于属性的集合的部分与对象数据之间的一个或多个比较将属性的集合与对象数据匹配。对象数据可以包括与以下相关联的信息：一个或多个有关对象(例如，用于帽子的语义对象可以与其它衣服相关联)；一个或多个远程数据源(例如，用于歌曲的语义对象可以与关联于歌曲的歌手的网站相关联)；一个或多个位置；和/或一个或多个事件。

在1504，方法1500可以包括访问与一个或多个语义对象匹配的对象数据的一个或多个部分。例如，语义处理系统可以访问在一个或多个远程计算装置上存储的对象数据的一个或多个部分。在一些实施例中，一个或多个对象输出可以部分地基于与一个或多个语义对象匹配的对象数据的一个或多个部分。例如，当对象数据包括到与一个或多个语义对象相关联的一个或多个远程计算装置的链接时，一个或多个对象输出可以包括那些链接。

在1506，方法1500可以包括部分地基于状态数据或者一个或多个语义对象，生成与一个或多个对象相关联的一个或多个界面元素。一个或多个界面元素可以包括响应于一个或多个输入的一个或多个图像(例如，图形用户界面元素包括静止或者动画图像、象形图和/或文本)(例如，一个或多个界面元素可以基于触觉输入和/或音频输入启动或者触发一个或多个操作)。例如，一个或多个界面元素可以包括状态指示符(例如，在语义处理系统的显示组件上显示的状态条)，该状态指示符可以提供与一个或多个对象的状态(例如，饭店的位置和/或关闭时间)相关联的一个或多个增量(例如，每分钟、每小时和/或每天)和/或连续(例如，实时)指示。

在一些实施例中，一个或多个对象的识别可以作为连续处理执行(例如，一个或多个对象的连续识别)，以使得可以实时地检测、标识和/或识别一个或多个对象(例如，包括与一个或多个对象相关联的视觉和/或音频传感器输出的传感器输出)，且还可以连续地更新包括状态指示符的一个或多个界面元素(例如，当实时地识别出一个或多个对象时)。另外，一个或多个界面元素可以用于提供导航指令(例如，与到位置的路径相关联的文本或者音频指令)及与环境中的一个或多个对象有关的其他信息。

在1508，方法1500可以包括确定是否由语义处理系统接收一个或多个输入、何时由语义处理系统接收一个或多个输入，或者由语义处理系统接收到一个或多个输入。一个或多个输入可以包括来自语义处理系统的用户的一个或多个输入，包括：一个或多个视觉输入(例如，在语义处理系统的相机前面挥手或者眨眼)；一个或多个音频输入(例如，对语义处理系统的麦克风说出命令)；和/或一个或多个触觉输入(例如，触摸语义处理系统的显示组件的一部分)。另外，一个或多个输入可以包括到与语义处理系统相关联的装置的一个或多个输入，该装置包括计算装置和/或输入装置(例如，笔和/或鼠标)。

响应于接收到一个或多个输入，方法1500进行到1510。响应于未接收到一个或多个输入，方法可以结束或者返回到方法1500的先前部分，包括1502、1504或者1506。

在1510，方法1500可以包括响应于接收对一个或多个界面元素的一个或多个输入，确定包括对象数据的至少一部分的一个或多个远程计算装置(例如，存储对象数据的某些部分的一个或多个远程计算装置)。一个或多个对象输出可以包括与一个或多个远程计算装置相关联的一个或多个远程源指示(例如，与一个或多个远程计算装置相关联的ip地址)，该一个或多个远程计算装置包括对象数据的至少一部分。

图16图示根据本公开的示例实施例的基于传感器的语义对象生成的示例方法的流程图。方法1600的一个或多个部分可以在例如包括用户装置102、远程计算装置104和/或计算装置200的一个或多个计算装置或者计算系统上运行或者实现。方法1600的一个或多个部分还可以运行或者实现为在这里公开的装置的硬件组件上的算法。图16为了示例和讨论的目的图示以特定次序执行的步骤。本领域技术人员使用在这里提供的本公开，将理解可以适配、修改、重新排列、省略和/或扩展在这里公开的方法的任意步骤而不脱离本公开的范围。

在1602，方法1600可以包括部分地基于状态数据(例如，方法1400中的状态数据)或者一个或多个语义对象(例如，方法1400中的一个或多个语义对象)，确定包括一个或多个语义符号(例如，包括一个或多个字母的一个或多个音素、一个或多个语标、一个或多个音节字符和/或一个或多个一个或多个象形图)的一个或多个对象(例如，方法1400中的一个或多个对象)。

在1604，方法1600可以包括部分地基于一个或多个语义符号，确定与一个或多个语义符号相关联的一个或多个词(例如，使用词的列表，一个或多个语义符号的某些组合可以与词相关联)。在一些实施例中，一个或多个语义对象的属性的集合(例如，方法1400中的属性的集合)可以包括一个或多个词。例如，用于具有指示“冬宫大饭店8月24日开放”的文本的海报的语义对象可以包括包含属性的集合的海报语义对象，该属性的集合包括作为用于事件类型属性的值的饭店开放、作为用于事件日期属性的值的8月24日、和作为用于位置属性的值的与冬宫饭店相关联的地理坐标。

在1606，方法1600可以包括确定与一个或多个语义符号相关联的检测到的语言。例如，部分地基于一个或多个语义符号的组合(例如，与一个或多个语义符号相关联的词)，语义处理系统可以确定与一个或多个语义符号相关联的语言(例如，包含西班牙文、英文、俄文和/或日文的语言)。

在1608，方法1600可以包括当检测到的语言与默认语言(例如，当检测到的语言与默认语言不相同时，语义处理系统的用户已经选为检测到的语言要翻译为的语言的语言)不相关联时，部分地基于翻译数据生成翻译的输出。翻译数据可以包括默认语言的一个或多个语义符号和检测到的语言的一个或多个语义符号。语义处理系统可以比较检测到的语言的一个或多个语义符号与默认语言的一个或多个语义符号，以对翻译检测到的语言进行确定和执行分析。

翻译的输出可以包括与检测到的语言的一个或多个语义符号的一部分对应的默认语言的一个或多个语义符号(例如，包括默认语言的一个或多个词的列表的多语言辞典，每个词与检测到的语言的相应词相关联)。在一些实施例中，一个或多个对象输出可以部分地基于翻译的输出(例如，一个或多个对象输出可以包括翻译的视觉指示或者音频指示)。

图17图示根据本公开的示例实施例的基于传感器的语义对象生成的示例方法的流程图。方法1700的一个或多个部分可以在例如包括用户装置102、远程计算装置104和/或计算装置200的一个或多个计算装置或者计算系统上运行或者实现。方法1700的一个或多个部分还可以运行或者实现为在这里公开的装置的硬件组件上的算法。图17为了示例和讨论的目的图示以特定次序执行的步骤。本领域技术人员使用在这里提供的本公开，将理解可以适配、修改、重新排列、省略和/或扩展在这里公开的方法的任意步骤而不脱离本公开的范围。

在1702，方法1700可以包括接收包括位置数据的数据，该位置数据包括与环境的当前位置(例如当前位置的经纬度)和目的地位置(例如，目的地位置包括由语义处理系统的用户选择的地址和/或纬度和经度)相关联的信息。在一些实施例中，位置数据可以包括相对位置(例如，当前位置是用户的营业地点的西南)。

在1704，方法1700可以包括：部分地基于一个或多个传感器的视场内一个或多个对象(例如，方法1400中的一个或多个对象)的状态和位置数据，确定从当前位置到目的地位置的路径(例如，避免介于其间的障碍的当前位置和目的地位置之间的路径)。例如，语义处理系统可以确定不经过任何障碍(例如，河或者建筑物区域)的从当前位置到目的地位置的最短路径。

在1706，方法1700可以包括部分地基于一个或多个语义对象和从当前位置到目的地位置的路径，生成一个或多个指导(例如，基于沿着路径的位置的一系列步骤或者在一段时间以罗盘方向行进的一个或多个一般指导)。另外，语义处理系统可以确定可以用作与一个或多个指导相关联的陆标的一个或多个语义对象(例如，与饭店相关联的语义对象可以用作一个或多个指导的一部分“在冬宫饭店前一个街区向左转”)。在一些实施例中，一个或多个对象输出可以部分地基于一个或多个指导(例如，一个或多个视觉指示或者一个或多个音频指示可以包括指导)。

在这里讨论的本技术参考服务器、数据库、软件应用及其他基于计算机的系统，以及这种系统做出的动作和发送到这种系统和从这种系统发送的信息。本领域技术人员将认识到基于计算机的系统的固有灵活性允许在组件之间和组件当中的任务和功能性的多种可能的配置、组合和划分。例如，在这里讨论的服务器处理可以使用单个服务器或者组合地工作的多个服务器实现。数据库和应用可以实现在单个系统上或者跨多个系统分布。分布式组件可以顺序地或者并行地操作。

虽然已经关于其特定示例实施例具体描述了本主题，但是本领域技术人员将理解在实现前述的理解的情况下，可以容易地产生这种实施例的改变、变更和等效。因此，本公开的范围是通过示例的方式而不是通过限制的方式，且本公开不排除包括这种对本领域技术人员显而易见的对本主题的修改、变更和/或添加。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：T.万特兰;D.A.巴内特;D.M.琼斯
技术所有人：谷歌有限责任公司
我是此专利的发明人

上一篇：用于按需服务的系统和方法与流程
上一篇：用于为按需服务提供信息的系统和方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。