用于改进语义图像分割的神经网络加速器系统的制作方法

文档序号:33701540发布日期:2023-03-31 19:32阅读:27来源:国知局
1.本公开概括而言涉及神经网络,更具体而言,涉及用神经网络加速器系统改进语义图像分割(semanticimagesegmentation)的方法、系统、装置和制品。
背景技术
::2.在机器学习中,卷积神经网络是一类前馈人工网络,它通过应用过滤器来捕捉图像中的空间和时间依赖关系。卷积神经网络在整个计算机视觉中被广泛使用,以允许计算机系统得出对图像的高水平理解。常见的计算机视觉任务包括图像分类和对象检测。3.图像分类旨在识别图像中的对象的类别。对象检测试图定义这些对象的一般位置,这通常是通过为每个对象生成边界框来实现的。近年来,一种叫做语义图像分割的技术从这些基础上发展起来,来以更确切的方式定义对象位置。具体而言,在语义图像分割中,图像的每个像素基于该像素所属的对象和/或类别被分类。技术实现要素:4.根据本技术的一方面,提供了一种装置,包括:至少一个存储器;所述装置中的指令;以及处理器电路,用于执行所述指令以:将输入图像发送到视觉网络电路和成像网络电路中的至少一者;由所述视觉网络电路基于由图像缩放电路生成的所述输入图像的第一特征图谱来生成第一输出;由所述成像网络电路生成所述输入图像的第二输出;由瓶颈扩展器电路将所述第一输出升尺度到基于所述第二输出的分辨率;串接所述第一输出和第二输出以生成串接输出;向所述串接输出应用卷积操作;并且由分割头部电路从所述串接输出生成像素级分割类别图谱。5.根据本技术的又一方面,提供了一种装置,包括:用于将输入图像发送到视觉网络电路和成像网络电路中的至少一者的装置;用于由所述视觉网络电路基于由图像缩放电路生成的所述输入图像的第一特征图谱来生成第一输出的装置;用于由所述成像网络电路生成所述输入图像的第二输出的装置;用于由瓶颈扩展器电路将所述第一输出升尺度到基于所述第二输出的分辨率的装置;用于串接所述第一输出和第二输出以生成串接输出的装置;用于向所述串接输出应用卷积操作的装置;以及用于由分割头部电路从所述串接输出生成像素级分割类别图谱的装置。6.根据本技术的另一方面,提供了一种用于执行语义图像分割的装置,包括:模式选择电路,用于将输入图像发送到视觉网络电路和成像网络电路中的至少一者,所述视觉网络电路,用于基于由图像缩放电路生成的所述输入图像的第一特征图谱来生成第一输出,所述成像网络电路,用于生成所述输入图像的第二输出;瓶颈扩展器电路,用于:将所述第一输出升尺度到基于所述第二输出的分辨率;串接所述第一输出和第二输出以生成串接输出;并且向所述串接输出应用卷积操作;以及分割头部电路,用于从所述串接输出生成像素级分割类别图谱。7.根据本技术的再一方面,提供了一种方法,包括:通过利用至少一个处理器执行指令来将输入图像发送到视觉网络电路和成像网络电路中的至少一者;由所述视觉网络电路基于由图像缩放电路生成的所述输入图像的第一特征图谱来生成第一输出;由所述成像网络电路生成所述输入图像的第二输出;由瓶颈扩展器电路将所述第一输出升尺度到基于所述第二输出的分辨率;通过利用所述至少一个处理器执行指令来串接所述第一输出和第二输出以生成串接输出;通过利用所述至少一个处理器执行指令来向所述串接输出应用卷积操作;并且由分割头部电路从所述串接输出生成像素级分割类别图谱。附图说明8.图1a是以符合本公开的方式构造的深度神经网络加速器系统的示意图。9.图1b是示例瓶颈扩展器电路和示例成像网络电路的图示。10.图2是图1a和1b的示例瓶颈扩展器电路的另一图示。11.图3a是图1a和1b的示例成像网络电路的另一图示。12.图3b是示例卷积电路的图示。13.图4是由各种系统类型生成的示例语义分割图谱的图示。14.图5是代表可被示例处理器电路执行来实现图1的深度神经网络加速器系统的示例机器可读指令的流程图。15.图6是代表可被示例处理器电路执行来实现图3a的成像网络编码器的示例机器可读指令的流程图。16.图7是代表可被示例处理器电路执行来实现瓶颈扩展器电路106的示例机器可读指令的流程图。17.图8是代表可被示例处理器电路执行来实现图1a和图3a的成像网络编码器的示例机器可读指令的流程图。18.图9是包括处理器电路的示例处理平台的框图,该处理器电路被构造来执行图5-图8的示例机器可读指令以实现图1的深度神经网络加速器系统。19.图10是图9的处理器电路的示例实现方式的框图。20.图11是图9的处理器电路的另一示例实现方式的框图。21.图12是示例软件分发平台(例如,一个或多个服务器)的框图,用于将软件(例如,与图5-图8的示例机器可读指令相对应的软件)分发到与最终用户和/或消费者(例如,用于许可、销售和/或使用)、零售商(例如,用于销售、再销售、许可和/或次级许可)和/或原始设备制造商(oem)(例如,用于包括在要被分发到例如零售商和/或诸如直接购买客户之类的其他最终用户的产品中)相关联的客户端设备。22.附图不是按比例的。相反,在附图中可放大层或区域的厚度。虽然附图中示出了具有清晰线条和边界的层和区域,但这些线条和/或边界中的一些或者全部可能是理想化的。在现实中,边界和/或线条可能是难以察觉的,混合的,和/或不规则的。一般而言,相同的标号将在各幅图和伴随的书面描述的各处被用于指代相同或相似的部件。如本文所使用的,除非另有说明,否则术语“上方”描述了两个部分相对于地球的关系。如果第二部分有至少一部分在地球和第一部分之间,那么第一部分就在第二部分上方。同样,如本文所使用的,当第一部分比第二部分更靠近地球时,第一部分就在第二部分“下方”。如上所述,第一部分可以在以下情况中的一种或多种情况下在第二部分的上方或下方:其间有其他部分,其间没有其他部分,第一部分和第二部分接触,或者第一部分和第二部分没有直接接触彼此。虽然有上述说明,但在半导体器件的情况下,“上方”不是参考地球的,而是参考其上形成了集成电路的组件的基础半导体衬底(例如,半导体晶圆)的体区域的。具体而言,就本文使用的而言,当集成电路的第一组件比第二组件更远离半导体衬底的体区域时,该第一组件在第二组件的ꢀ“上方”。如本专利中所使用的,叙述任何部件(例如,层、膜、区、区域或板)以任何方式在另一部件上(例如,定位在其上、位于其上、被布置在其上、或者被形成在其上,等等),表明所提及的部件或者与另一部件接触,或者所提及的部件在另一部件上方,有一个或多个中间部件位于其间。如本文所使用的,提及连接(例如,附接、耦合、连接、接合)可包括由该连接提及所提及的元素之间的中间构件和/或这些元素之间的相对运动,除非另有指示。因此,提及连接不一定推理出两个元素是直接连接的和/或彼此之间有固定关系。如本文所使用的,叙述任何部件与另一部件ꢀ“接触”,被定义为意指在这两个部件之间没有中间部件。23.除非另有具体声明,否则本文使用诸如“第一”、“第二”、“第三”ꢀ等等之类的描述语,而不输入或以其他方式指示出任何优先权、物理顺序、在列表中的排列和/或以任何方式排序的含义,而只是用作标签和/或任意名称来区分元素,以便易于理解所公开的示例。在一些示例中,描述语ꢀ“第一”在详细描述中可用于提及某一元素,而同一元素在权利要求中可以用不同的描述语来提及,例如“第二”或“第三”。在这种情况下,应当理解,这种描述语仅仅用于明确地识别那些元素,这些元素例如可能在其他情况下共享同一名称。如本文所使用的,“大致”和“大约”指的是由于制造容差和/或其他现实世界不完美而可能不确切的尺寸。如本文所使用的,“基本上实时”指的是以近乎瞬时的方式发生,承认现实世界中可能存在计算时间、传输等等方面的延迟。从而,除非另有指明,否则“基本上实时”指的是实时+/-1秒。如本文所使用的,短语“与……通信”——包括其变体——涵盖了直接通信和/或通过一个或多个中间组件进行的间接通信,而不要求直接物理(例如,有线)通信和/或不断的通信,而是还包括按周期性间隔、排定的间隔、非周期性间隔和/或一次性事件的选择性通信。如本文所使用的,“处理器电路”被定义为包括(i)一个或多个专用电气电路,其被构造为执行(一个或多个)特定的操作,并且包括一个或多个基于半导体的逻辑器件(例如,由一个或多个晶体管实现的电气硬件),和/或(ii)一个或多个通用的基于半导体的电气电路,其被用指令编程以执行特定操作,并且包括一个或多个基于半导体的逻辑器件(例如,由一个或多个晶体管实现的电气硬件)。处理器电路的示例包括编程的微处理器、可实例化指令的现场可编程门阵列(fieldprogrammablegatearray,fpga)、中央处理器单元(centralprocessorunit,cpu)、图形处理器单元(graphicsprocessorunit,gpu)、数字信号处理器(digitalsignalprocessor,dsp)、xpu、或者微控制器和集成电路,例如专用集成电路(applicationspecificintegratedcircuit,asic)。例如,xpu可以由异构计算系统实现,该计算系统包括多种类型的处理器电路(例如,一个或多个fpga、一个或多个cpu、一个或多个gpu、一个或多个dsp,等等,和/或这些的组合)以及(一个或多个)应用编程接口(applicationprogramminginterface,api),这些api可以将(一个或多个)计算任务指派给该多种类型的处理电路中最适于执行该(一个或多个)计算任务的任何一个(或多个)。具体实施方式24.深度学习利用深度人工神经网络(deepartificialneuralnetwork,dnn)来自动发现来自输入数据的相关特征。许多类型的人工神经网络被用于深度学习,包括卷积神经网络(convolutionalneuralnetwork,cnn)。cnn对成像任务特别有用。例如,来自图像的原始像素可以被馈送到一系列的卷积层和最大池化层。随着数据在各层中的移动,越来越多的抽象特征被从图像中提取出来。这些特征被用于分类。25.这些一般概念构成了语义图像分割的基础。如本文所使用的,语义图像分割是一种技术,其中图像的像素基于该像素所属的对象被分类。传统上,语义图像分割要求大型、集中的计算机服务器。然而,计算机硬件的功率和效率不断提高,使得这种深度学习任务在边缘计算设备上成为可能。一般而言,边缘计算在尽可能接近源头的地方对数据进行操作,这具有减少通信开销的优势,因为数据不需要被送到设备外进行处理。26.dnn硬件拓扑差别很大,但当前一种常见的方法是有一种通用的可编程cnn加速器作为推理引擎来操作。然后对通用可编程cnn加速器进行编程以执行各种不同的任务。这种方法非常灵活,但要付出很大的计算成本。可能要求带有数以百计的直接存储器访问传送的动态随机访问存储器(dynamicrandomaccessmemory,dram)访问来保持和切换中间特征图谱和权重。这是计算密集型的,并且导致系统消耗相对大量的功率。27.对于非常低功率的嵌入式应用,固定拓扑硬件网络是优选的。通常专注于单个任务的固定拓扑网络提供高性能和高功率效率。然而,这样的硬件网络是相对不灵活的。由于这个原因,可能必须有多个固定拓扑硬件设计来执行单个可编程cnn加速器的相关成像和视觉任务。这种复杂性带来了体系结构上的挑战,本文论述的实施例对此提供了技术解决方案。28.例如,系统可以为成像和计算机视觉任务使用单独的固定拓扑网络。成像任务(例如,产生像素)会消耗并且产生高分辨率的输入和输出。像去模糊、去噪、色彩再现、深度图谱细化等等之类的效果,要求一种能够接收输入像素并且产生与输入相同分辨率的输出像素的网络。在成像任务中,不需要区分对象的高级别结构或精确类别,从而成像任务所要求的特征图谱(例如,通道)的数目相对较低。一般而言,这种情况的拓扑需要具有高性能和高吞吐量。29.视觉任务,例如图像分类或者对象检测,通常输出分类或者检测信息,而不产生输出像素。这是因为许多视觉任务的目的是检测对象或者对对象进行分类。通常不要求高分辨率输入,并且最终的输出通常包含分辨率低得多的信息。总的来说,为视觉任务推荐的固定拓扑解决方案可能使用低像素每时钟速率,这表示相对较低的吞吐量。30.传统的成像网络不能应对语义图像分割任务,因为它缺乏足够数目的特征图谱。另一方面,视觉网络具有足够的特征图谱来应对分类,但视觉网络通常输出非常低分辨率的特征图谱。这例如不允许检测小对象(例如,远距离的对象)。因此,传统的成像引擎和传统的视觉引擎都不能单独应对语义分割。31.本文公开的示例将成像和视觉固定功能拓扑结合到能够进行高效的语义图像分割的单个网络中。示例包括瓶颈扩展器电路来连接图像网络和视觉网络。瓶颈扩展器电路促进了高吞吐量、高分辨率的输入/输出和高分类准确度。此外,在一些实施例中,图像和视觉网络可以独立操作。32.转到附图,图1a是示例深度神经网络加速器系统100的示意图。示例深度神经网络加速器系统100包括示例成像网络电路102、示例视觉网络电路104、示例瓶颈扩展器电路106、示例图像缩放电路108、示例模式选择电路110、示例分割头部电路112、示例输入图像114、示例成像网络编码器116、示例成像网络解码器118、示例第一管线120、示例第二管线122、示例第三管线124、以及示例输出图像125。33.示例成像网络电路102包括成像网络编码器116和成像网络解码器118。示例成像网络编码器116通过提取对象的特性(例如,平坦/纹理/边缘)从图像中提取特征图谱。然后,示例成像网络解码器118不同地对待对象的特性,产生像素并且修复图像失真。实时成像系统通常以每秒至少30帧的帧率和1080p的输出分辨率来操作。在一些示例中,72个特征图谱足以应对成像任务。在一些示例中,成像网络电路102的成像网络编码器116可具有三种降尺度分辨率(1x,4x,16x),而经编码的特征图谱可具有72个16x降尺度分辨率的特征图谱。在这样的示例中,成像网络电路可包括类似u-net的编码器和解码器网络。下面结合图3a对成像网络电路102作进一步详细描述。34.示例视觉网络电路104可以作为编码器发挥作用。视觉网络电路104从输入图像中提取特征图谱。这涉及到提取对象的高级别结构和语义,这允许了区分类别和亚类别(例如,猫与狗,猫和狗的亚种,等等)。因此,视觉任务所要求的特征图谱的数目相对较高(例如,与成像任务所要求的相比)。例如,一些视觉任务可能需要512或768个特征图谱。视觉网络电路104是固定拓扑网络,它包括乘法器、权重和缓冲器。作为固定拓扑网络,视觉网络电路104执行一系列一致的任务,因此可以针对这些任务进行优化(例如,嵌入式操作的低功率)。然而,如上所述,视觉网络电路104可能不包括高分辨率输入/输出网络,因为最终输出包含低分辨率的信息。此外,在一些示例中,视觉网络电路104包括类似mobilenet或者shufflenet的编码器网络。35.示例图像缩放电路108是用于视觉任务的图像缩放器。图像缩放电路108通过下采样和生成较小大小的特征图谱或增强图像来缩放输入图像114。从而,特征图谱或增强图像可以被更高效地传输到视觉网络电路104。在一些示例中,输入图像可以在每个维度上被降尺度4倍。36.图像缩放电路108的输出被馈送到视觉网络电路104。视觉网络电路104对图像进行编码,提取对象的高级别结构和语义。例如,编码后的特征图谱可包含768个通道,具有16倍降尺度的分辨率。在这样的示例中,输出可包含768个通道的64倍降尺度分辨率的特征图谱。37.在一些示例中,图像缩放电路108可包括可训练视觉缩放器(trainablevisionscaler,tvs)。tvs是一种神经网络框架,它可以被训练来接收输入数据并且生成输出特征图谱或增强图像给视觉网络电路104。在一些示例中,与输入数据相比,生成的输出特征图谱的大小可能更小。在一些示例中,图像缩放电路108通过下采样和生成较小大小的特征图谱或增强图像来缩放输入数据。与不可训练的图像缩放电路相比,图像缩放电路108可以提高准确度。38.模式选择电路110控制成像网络电路102和视觉网络电路104中的哪个将接收输入图像114。深度神经网络加速器系统100将输入图像114发送给成像网络电路102和视觉网络电路104两者,这两个电路由瓶颈扩展器电路106连接并且增强。一般而言,与本文公开的示例有关的至少一个好处是,瓶颈扩展器电路通过使得视觉网络电路104和成像网络电路102能够被结合在单个系统中,从而提高了语义分割准确度和数据吞吐量。39.在一些示例中,模式选择电路110可以只将输入图像114发送给成像网络电路102或者视觉网络电路104。例如,纯粹的成像任务可以不利用瓶颈扩展器电路106和/或视觉网络电路104。同样地,纯粹的视觉任务可以不利用成像网络电路102。通过基于提供的任务选择对输入图像114的有效操作,模式选择电路允许深度神经网络加速器系统100节省能量,同时维持灵活性。40.示例深度神经网络加速器系统100被作为单个网络来训练。在一些示例中,使用单个分割头部。图1a的示例包括单个输入(例如,示例输入图像114),和单个输出(例如,示例输出图像125)。组合模型被训练,并且视觉网络电路104和成像网络电路102中的权重作为训练过程的结果被更新。这种训练可以使用各种开源框架来进行。41.在训练之后,卷积神经网络加速器系统100的经训练的权重被保存(例如,存储在存储器中)。然后,为了为语义图像分割作准备,经训练的权重被加载到相应的硬件块(例如,视觉网络电路104、成像网络电路102)中。在只使用视觉网络电路104或成像网络电路102中的一个的示例中,每个网络都被加载了该示例的相应预训练权重。在这样的示例中,视觉网络电路104和成像网络电路102可以被分别训练。42.在操作中,深度神经网络加速器系统100对示例输入图像114执行语义图像分割。输入图像114经由模式选择电路110被发送到成像网络电路102和图像缩放电路108。图像缩放电路108对图像进行降尺度,该图像被提供给视觉网络电路104。瓶颈扩展器电路106接收视觉网络电路104的输出,并且可将其升尺度到与成像网络编码器116输出相同的分辨率。瓶颈扩展器电路106另外还将两个输出串接起来并且可以应用卷积。如上所述,瓶颈扩展器电路106在这个示例安排中连接成像网络电路102和视觉网络电路104,以至少生成具有高吞吐量和改善的准确度的高分辨率输出。瓶颈扩展器电路106的输出被发送到成像网络解码器118,然后被发送到分割头部电路112。在一些示例中,成像网络解码器118可以使用来自成像网络编码器116的额外输入。这种额外输入被称为跳过连接,因为输入跳过了神经网络中的至少一层,为后面的层提供输入。示例结果是输出图像125,它是全分辨率的像素级分割类别图谱,具有相对较高的准确度和分辨率(例如,与先前的解决方案相比)。43.从而,成像网络电路102和视觉网络电路104的体系结构至少通过瓶颈扩展器电路106得到增强。瓶颈扩展器电路106使得视觉网络电路104和成像网络电路102能够灵活组合,在语义图像分割任务上的性能得到显著改善。44.图1b是示例瓶颈扩展器电路106和示例成像网络解码器118的图示。图1b包括瓶颈扩展器电路106、成像网络解码器118、示例第一管线124、示例第二管线122、示例第三管线120、示例第一升尺度和串接电路126、示例第二升尺度和串接电路128、示例第一复用器130、示例第二复用器132、以及示例第四管线134。45.示例瓶颈扩展器电路106从示例成像网络编码器116的示例第三管线120接收输入(例如,第一特征图谱)。瓶颈扩展器电路106另外还接收要被升尺度的第二输入。在一些示例中,第二输入可包括由瓶颈扩展器电路106从存储器加载的至少一个特征图谱。在一些示例中,第二输入可以由示例视觉网络电路104发送到瓶颈扩展器电路106,并且具有相对较低的分辨率。46.示例瓶颈扩展器电路106基于最近邻居升尺度(nearestneighborupscaling)对第二输入(例如,来自视觉网络电路104)进行升尺度,以生成升尺度的第二输入。然后,升尺度的第二输入被与第一输入串接,以生成串接的特征图谱。瓶颈扩展器电路106接下来可以对串接的特征图谱执行深度和空间可分离卷积。将联系图3b进一步详细描述深度和空间可分离卷积操作的细节。47.此外,瓶颈扩展器电路106包括第一复用器130。在一些示例中,第一复用器130是由图1a的模式选择电路110操作的。例如,在纯粹的成像任务中,第一复用器130可以直接从第三管线120输出数据,从而绕过瓶颈扩展器电路106的一些或全部操作。48.成像网络解码器118接收来自瓶颈扩展器电路106、示例第二管线122和示例第三管线124的输入。成像网络解码器118一般将多个管线(例如,管线120、122和124)的输入所表示的特征投射到更高分辨率的像素空间。为了实现这一点,解码器包括第一升尺度和串接电路126和第二升尺度和串接电路128。在一些示例中,第一升尺度和串接电路126的输出对于给定的任务而言具有足够的分辨率。在这样的示例中,第二复用器132可以选择来自示例第四管线134的输出。下面将联系图3a和图8进一步描述成像网络解码器的详细操作。49.图2是图1的示例瓶颈扩展器电路106的图示。示例瓶颈扩展器电路106包括接收电路202、串接电路204、升尺度电路206、发送电路208、卷积电路210、以及复用器212。50.接收电路202接收来自视觉网络电路104和成像网络电路102两者的输入数据。接收电路202可以从视觉网络电路104和/或成像网络电路102中的每一者接收不同数目的特征图谱。例如,成像网络电路102的输出可以是与每秒30帧的1920x1080分辨率输入相对应的72通道编码特征图谱。视觉网络电路104的输出可以是与低分辨率和每秒30帧的vga输出相对应的768通道编码特征图谱。在一些示例中,接收电路202可以从存储器接收特征图谱。51.示例升尺度电路206以相对较低的分辨率接收视觉网络电路104的输出,并且将其升尺度到与成像网络电路102相对应的相对较高的分辨率。升尺度电路206可以实现最近邻居升尺度技术。卷积电路210执行卷积操作,这可包括分组卷积、置乱分组卷积(shuffledgroupedconvolution)、空间可分离卷积(spatiallyseparableconvolution)、深度卷积(depthwiseconvolution)、点式卷积(pointwiseconvolution)、转置卷积,等等。此外,空间可分离卷积可包括无限冲激响应(infiniteimpulseresponse,iir)滤波器来执行垂直卷积。垂直iir滤波器是空间递归滤波器,它可以减少存储器使用,同时实现大的接收场。示例升尺度电路206另外还执行最近邻居升尺度操作,以准备数据进行串接。在一些示例中,发送电路208将瓶颈扩展器的输出发送到成像网络电路102的解码器。52.在一些示例中,瓶颈扩展器电路106包括复用器212。在操作中,如果成像网络电路102不被用于语义分割,那么复用器212在瓶颈中使得成像网络编码器116和成像网络解码器118之间能够直接连接。以这种方式,可以绕过瓶颈扩展器电路106。53.图3a是图1a的示例成像网络电路102的图示。成像网络电路102包括成像网络编码器116和成像网络解码器118。成像网络编码器116包括卷积电路306、最大池化电路308、差分脉冲编码调制(differentialpulse-codemodulation,dpcm)编码电路310、通信电路312。成像网络解码器118包括卷积电路314、通信电路316、dpcm解码电路318、串接电路322、以及最近邻居升尺度电路323。54.成像网络编码器116从输入图像114中提取特征图谱。这可包括提取输入图像114内的对象的结构特性。为了实现这一点,成像网络编码器116包括卷积电路306和最大池化电路308。在一些示例中,卷积电路可包括执行常规卷积、分组卷积、深度卷积和点式卷积的电路,以及分割和串接操作器。例如,卷积电路可以执行点式卷积,执行分组和点式卷积的组合,并且将输出发送到多个管线。多个管线中的第一管线120可以执行点式卷积,以为dpcm编码电路310使用差分脉冲编码调制对输入信号进行量化作准备。最大池化电路308可以在多个管线中的第二管线122中执行最大池化。也可以在第二管线122上执行一个或多个常规卷积,和/或深度卷积,和/或点式卷积。55.最大池化电路308还可以在多个管线中的第三管线上执行最大池化。卷积电路314可以在通信电路316向瓶颈扩展器电路106发送中间输出之前,在第三管线上执行一个或多个常规卷积、深度卷积、点式卷积和空间可分离卷积。空间可分离卷积可包括使用iir滤波器进行垂直卷积。在图1a的示例中,瓶颈扩展器电路106与成像网络电路102分开。在一些示例中,瓶颈扩展器电路被集成到成像网络电路102中。在一些示例中,成像网络编码器116可包括跨入(stridingin)一个或多个卷积操作器,减小图像或中间特征的空间大小。56.成像网络解码器118产生像素,同时修复图像失真。为了实现这一点,成像网络解码器118包括卷积电路306和最近邻居升尺度电路323。在一些示例中,卷积电路314执行二维卷积和点式卷积。例如,成像网络解码器118可以接收来自多个管道的输入。来自多个管道的第三输入可以由瓶颈扩展器电路106提供。卷积电路314和最近邻居升尺度电路323可以对第三输入进行操作,该第三输入可以通过串接电路322与第二输入串接。在与第一输入串接之前,可以在第一管线122上执行额外的卷积,第一输入由dpcm解码电路318进行解压缩。在一些示例中,解码器可包括双线性升尺度电路或者使用其他升尺度技术。在一些示例中,解码器可包括转置卷积电路。57.图3b是可由卷积电路(例如,示例卷积电路210、306、314)执行的示例操作的图示。图3b中图示的示例卷积电路包括示例分组置乱卷积构建块电路324、示例深度可分离卷积构建块电路326、示例深度和空间可分离卷积构建块电路328、示例深度和空间可分离卷积电路330、示例深度可分离卷积电路332、以及示例跳过连接串接电路334-344。58.卷积构建块电路324-326可被包括在深度神经网络加速器系统100的各种部件(例如,瓶颈扩展器电路106、成像网络电路102,等等)中。卷积构建块电路允许经由固定硬件拓扑高效地执行特定的卷积操作。59.示例分组置乱卷积构建块电路324包括点式卷积,然后是一系列的分组置乱卷积。示例分组置乱卷积构建块电路324还包括两个跳过连接串接334和336,其中输入跳过神经网络中的至少一层,向后面的层提供输入以进行串接。60.示例深度可分离卷积构建块电路326包括点式卷积,然后是一系列深度可分离卷积。深度可分离卷积可以由深度可分离卷积电路332执行,它包括至少一个点式二维卷积,然后是至少一个点式卷积。示例深度可分离卷积构建块电路326还包括两个跳过连接串接338和340,其中输入跳过神经网络中的至少一层,向后面的层提供输入以进行串接。61.示例深度和空间可分离卷积构建块电路328包括点式卷积,然后是一系列深度和空间可分离卷积。深度和空间可分离卷积操作可以由深度和空间可分离卷积电路330执行,它包括至少一个垂直深度卷积,然后是至少一个水平深度一维卷积,以及至少一个点式卷积。深度和空间可分离卷积构建块电路328还包括两个跳过连接串接342和344,其中输入跳过神经网络中的至少一层,向后面的层提供输入以进行串接。62.图4提供了由各种系统类型生成的语义分割图谱的示例图示。在图4的示例中,使用了并集上均值相交(meanintersectionoverunion,miou)性能度量。示例输出图像402图示了仅使用成像网络电路102的输出。成像网络电路102本身以高吞吐量生成高分辨率分割图谱。然而,输出图像402也具有非常低的miou准确度。63.输出图像404图示了在单次迭代之后来自示例视觉网络电路104的输出。虽然产生输出图像404要求更少的操作,但与深度神经网络加速器系统100的输出相比,输出图像404也具有相对较低的miou准确度,相对较低的分辨率输出,以及相对较低的吞吐量。64.输出图像406图示了通过视觉网络电路104进行多次迭代的结果。在一些示例中,取代多次迭代,视觉网络电路104包括几个重复层,增大网络的深度并且增大特征的数目。这样的配置以较低的吞吐量为代价实现了更好的miou。视觉网络电路104还可包括平铺(tiling),以将高分辨率输入图像分割成更小的子图像。这样的平铺和对多个子图像的处理进一步降低了吞吐量。即使输出图像406的miou准确度是足够的,输出图像406的分辨率也相对较低。此外,检测到的对象形状并不遵循其真实形状,并且输出图像406中的对象混合在一起。一般而言,对于视觉网络电路104而言,用这样的配置对小特征进行正确分类是相对更困难的。65.示例输出图像408图示了深度神经网络加速器系统100在示例成像网络电路102、示例视觉网络电路104和示例瓶颈扩展器电路106一起操作的配置中的示例输出。输出图像408具有示例输出图像402-408的最高miou准确度。深度神经网络加速器系统100还具有相对较高的吞吐量,并且生成具有相对较高分辨率的分割图谱。因此,示例深度神经网络加速器系统100提供了独立的成像和视觉网络两者的优点。66.虽然在图2中图示了实现图1a的瓶颈扩展器电路106的示例方式,但图2中所示的元件、过程和/或设备中的一个或多个可被组合、划分、重安排、省略、消除和/或以任何其他方式来实现。另外,图2的示例接收电路202、示例串接电路204、示例升尺度电路206、示例发送电路208、示例卷积电路210,和/或更概括而言,示例瓶颈扩展器电路106,可以通过硬件、软件、固件和/或硬件、软件和/或固件的任意组合来实现。从而,例如,图2的示例接收电路202、示例串接电路204、示例升尺度电路206、示例发送电路208、示例卷积电路210和/或更概括而言示例瓶颈扩展器电路106中的任何一者,可以由处理器电路、(一个或多个)模拟电路、(一个或多个)数字电路、(一个或多个)逻辑电路、(一个或多个)可编程处理器、(一个或多个)可编程微控制器、(一个或多个)图形处理单元(gpu)、(一个或多个)数字信号处理器(dsp)、(一个或多个)专用集成电路(asic)、(一个或多个)可编程逻辑器件(programmablelogicdevice,pld)和/或(一个或多个)现场可编程逻辑器件(fieldprogrammablelogicdevice,fpld)(例如现场可编程门阵列(fpga))来实现。当读到本专利的任何装置或系统权利要求覆盖纯软件和/或固件实现方式时,示例接收电路202、示例串接电路204、示例升尺度电路206、示例发送电路208、示例卷积电路210中的至少一者在此被明确定义为包括包含该软件和/或固件的非暂态计算机可读存储设备或存储盘,例如存储器、数字多功能盘(digitalversatiledisk,dvd)、致密盘(compactdisk,cd)、蓝光盘,等等。此外,图2的示例瓶颈扩展器电路106可包括除了图2中所示的那些以外或者取代图2中所示的那些的一个或多个元件、过程和/或设备,和/或可包括多于一个图示的元件、过程和设备中的任何一者或所有。67.代表用于实现瓶颈扩展器106的示例硬件逻辑电路、机器可读指令、硬件实现的状态机和/或其任意组合的流程图在图7中示出。机器可读指令可以是供处理器电路执行的一个或多个可执行程序或者可执行程序的(一个或多个)部分,所述处理器电路例如是下文联系图9论述的示例处理器平台900中所示的处理器电路912和/或下文联系图10和/或图11论述的示例处理器电路。该程序可以体现在存储于一个或多个非暂态计算机可读存储介质上的软件中,所述介质例如是cd、软盘、硬盘驱动器(harddiskdrive,hdd)、dvd、蓝光盘、易失性存储器(例如,任何类型的随机访问存储器(randomaccessmemory,ram),等等)或者非易失性存储器(例如,flash存储器、hdd,等等),与位于一个或多个硬件设备中的处理器电路相关联,但整个程序和/或其一部分或者也可以由除了处理器电路以外的一个或多个硬件设备执行和/或体现在固件或专用硬件中。机器可读指令可以分布在多个硬件设备上和/或由两个或更多个硬件设备(例如,服务器和客户端硬件设备)执行。例如,客户端硬件设备可以由端点客户端硬件设备(例如,与用户相关联的硬件设备)或中间客户端硬件设备(例如,可促进服务器和端点客户端硬件设备之间的通信的无线电接入网络(radioaccessnetwork,ran)网关)实现。类似地,非暂态计算机可读存储介质可包括位于一个或多个硬件设备中的一个或多个介质。另外,虽然是参考图7中所示的流程图来描述示例程序的,但可替代地使用实现示例瓶颈扩展器106的许多其他方法。例如,块的执行顺序可被改变,和/或描述的块中的一些可被改变、消除或者组合。额外地或者替代地,任何或所有块可由被构造为执行相应的操作而不执行软件或固件的一个或多个硬件电路(例如,处理器电路、分立的和/或集成的模拟和/或数字电路、fpga、asic、比较器、运算放大器(op-amp)、逻辑电路,等等)来实现。处理器电路可以分布在不同的网络位置中和/或在单个机器中的一个或多个硬件设备(例如,单核处理器(例如,单核中央处理器单元(cpu))、多核处理器(例如,多核cpu),等等)、分布在服务器机架的多个服务器上的多个处理器、分布在一个或多个服务器机架上的多个处理器、位于同一封装中(例如,同一集成电路(ic)封装或者两个或更多个单独的外壳中,等等)的cpu和/或fpga的本地。68.虽然在图3a中图示了实现1a的成像网络电路102的示例方式,但图3a中所示的元件、过程和/或设备中的一个或多个可被组合、划分、重安排、省略、消除和/或以任何其他方式来实现。另外,图3a的示例卷积电路306、示例最大池化电路308、示例dpcm编码电路310、示例通信电路312、示例最近邻居升尺度电路323、示例卷积电路314、示例通信电路316、示例dpcm解码电路318、示例最大池化电路320、示例串接电路322,和/或更概括而言,示例成像网络电路102,可以通过硬件、软件、固件和/或硬件、软件和/或固件的任意组合来实现。从而,例如,示例卷积电路306、示例最大池化电路308、示例dpcm编码电路310、示例通信电路312、示例最近邻居升尺度电路323、示例卷积电路314、示例通信电路316、示例dpcm解码电路318、示例最大池化电路320、示例串接电路322和/或更概括而言示例成像网络电路102中的任何一者,可以由处理器电路、(一个或多个)模拟电路、(一个或多个)数字电路、(一个或多个)逻辑电路、(一个或多个)可编程处理器、(一个或多个)可编程微控制器、(一个或多个)图形处理单元(gpu)、(一个或多个)数字信号处理器(dsp)、(一个或多个)专用集成电路(asic)、(一个或多个)可编程逻辑器件(pld)和/或(一个或多个)现场可编程逻辑器件(fpld)(例如现场可编程门阵列(fpga))来实现。当读到本专利的任何装置或系统权利要求覆盖纯软件和/或固件实现方式时,示例卷积电路306、示例最大池化电路308、示例dpcm编码电路310、示例通信电路312、示例最近邻居升尺度电路323、示例卷积电路314、示例通信电路316、示例dpcm解码电路318、示例最大池化电路320、示例串接电路322中的至少一者在此被明确定义为包括包含该软件和/或固件的非暂态计算机可读存储设备或存储盘,例如存储器、数字多功能盘(dvd)、致密盘(cd)、蓝光盘,等等。此外,图3a的示例成像网络电路102可包括除了图3a中所示的那些以外或者取代图3a中所示的那些的一个或多个元件、过程和/或设备,和/或可包括多于一个图示的元件、过程和设备中的任何一者或所有。69.在图5至图8中示出了代表用于实现示例深度神经网络加速器系统100的示例硬件逻辑电路、机器可读指令、硬件实现的状态机和/或其任意组合的流程图。机器可读指令可以是供处理器电路执行的一个或多个可执行程序或者可执行程序的(一个或多个)部分,所述处理器电路例如是下文联系图9论述的示例处理器平台900中所示的处理器电路912和/或下文联系图10和/或图11论述的示例处理器电路。该程序可以体现在存储于一个或多个非暂态计算机可读存储介质上的软件中,所述介质例如是cd、软盘、硬盘驱动器(harddiskdrive,hdd)、dvd、蓝光盘、易失性存储器(例如,任何类型的随机访问存储器(randomaccessmemory,ram),等等)或者非易失性存储器(例如,flash存储器、hdd,等等),与位于一个或多个硬件设备中的处理器电路相关联,但整个程序和/或其一部分或者也可以由除了处理器电路以外的一个或多个硬件设备执行和/或体现在固件或专用硬件中。机器可读指令可以分布在多个硬件设备上和/或由两个或更多个硬件设备(例如,服务器和客户端硬件设备)执行。例如,客户端硬件设备可以由端点客户端硬件设备(例如,与用户相关联的硬件设备)或中间客户端硬件设备(例如,可促进服务器和端点客户端硬件设备之间的通信的无线电接入网络(radioaccessnetwork,ran)网关)实现。类似地,非暂态计算机可读存储介质可包括位于一个或多个硬件设备中的一个或多个介质。另外,虽然是参考图5至图8中所示的流程图来描述示例程序的,但可替代地使用实现示例深度神经网络加速器系统100的许多其他方法。例如,块的执行顺序可被改变,和/或所描述的块中的一些可被改变、消除或者组合。额外地或者替代地,任何或所有块可由被构造为执行相应的操作而不执行软件或固件的一个或多个硬件电路(例如,处理器电路、分立的和/或集成的模拟和/或数字电路、fpga、asic、比较器、运算放大器(op-amp)、逻辑电路,等等)来实现。处理器电路可以分布在不同的网络位置中和/或在单个机器中的一个或多个硬件设备(例如,单核处理器(例如,单核中央处理器单元(cpu))、多核处理器(例如,多核cpu),等等)、分布在服务器机架的多个服务器上的多个处理器、分布在一个或多个服务器机架上的多个处理器、位于同一封装中(例如,同一集成电路(ic)封装或者两个或更多个单独的外壳中,等等)的cpu和/或fpga的本地。70.可以按以下格式中的一个或多个来存储本文描述的机器可读指令:压缩格式、加密格式、分段格式、编译格式、可执行格式、封装格式,等等。如本文所述的机器可读指令可被存储为可被利用来创建、制造和/或产生机器可执行指令的数据或数据结构(例如,作为指令的部分、代码、代码的表示,等等)。例如,机器可读指令可被分段并被存储在位于网络或者网络集合的相同或不同位置的一个或多个存储设备和/或计算设备(例如,服务器)上(例如,在云中,在边缘设备中,等等)。机器可读指令可要求安装、修改、改编、更新、组合、补充、配置、解密、解压缩、解包、分发、重指派、编译等等中的一个或多个,以便使得它们可被计算设备和/或其他机器直接可读、可解释和/或可执行。例如,机器可读指令可被存储为多个部分,这些部分被单独压缩、加密和/或存储在分开的计算设备上,其中这些部分当被解密、解压缩和/或组合时,形成实现可一起形成例如本文所述那种的程序的一个或多个操作的一组机器可执行指令。71.在另一示例中,机器可读指令可被存储在如下状态中:在该状态中,它们可被处理器电路读取,但要求添加库(例如,动态链接库(dynamiclinklibrary,dll))、软件开发套件(softwaredevelopmentkit,sdk)、应用编程接口(applicationprogramminginterface,api)等等,以便在特定的计算设备或其他设备上执行这些机器可读指令。在另一示例中,在机器可读指令和/或相应的(一个或多个)程序可被全部或部分执行之前,机器可读指令可能需要被配置(例如,存储设置、输入数据、记录网络地址,等等)。从而,本文使用的机器可读介质可包括机器可读指令和/或(一个或多个)程序,无论这些机器可读指令和/或(一个或多个)程序在被存储时或以其他方式在闲置或在途时的特定格式或状态如何。72.本文描述的机器可读指令可由任何过去、当前或将来的指令语言、脚本语言、编程语言等等来表示。例如,可利用以下语言的任何一者来表示机器可读指令:c、c++、java、c#、perl、python、javascript、超本文标记语言(hypertextmarkuplanguage,html)、结构化查询语言(structuredquerylanguage,sql)、swift,等等。73.如上所述,可利用存储在一个或多个非暂态计算机和/或机器可读介质上的可执行指令(例如,计算机和/或机器可读指令)来实现图1-图3的示例操作,所述介质例如是光存储设备、磁存储设备、hdd、闪存、只读存储器(read-onlymemory,rom)、cd、dvd、缓存、任何类型的ram、寄存器、和/或其中信息可被存储任何持续时间(例如,存储较长时间段、永久存储、短暂存储、用于临时缓冲、和/或用于信息的缓存)的任何其他存储设备或存储盘。如本文所使用的,术语非暂态计算机可读介质和非暂态计算机可读存储介质被明确定义为包括任何类型的计算机可读存储设备和/或存储盘,并且排除传播信号和排除传输介质。[0074]“包括”和“包含”(以及其所有形式和时态)在本文中被用作开端式术语。从而,每当权利要求采用任何形式的“包括”或“包含”(例如,包括、包含、具有,等等)作为前序部分或者在任何种类的权利要求记载中使用时,要理解,额外的元素、术语等等可存在,而不落在相应权利要求或记载的范围之外。如本文所使用的,当短语“至少”在例如权利要求的前序部分中被用作过渡术语时,它是开端的,与术语“包括”和“包含”ꢀ是开端的方式一样。术语“和/或”当例如被以比如a、b和/或c这样的形式使用时,指的是a、b、c的任意组合或子集,例如(1)a单独,(2)b单独,(3)c单独,(4)a与b,(5)a与c,(6)b与c,或者(7)a与b以及与c。就本文在描述结构、组件、项目、c和/或事物的上下文中使用的而言,短语“a和b中的至少一者”打算指包括以下各项中的任何一者的实现方式:(1)至少一个a,(2)至少一个b,或者(3)至少一个a和至少一个b。类似地,就本文在描述结构、组件、项目、物体和/或事物的上下文中使用的而言,短语“a或b中的至少一者”打算指包括以下各项中的任何一者的实现方式:(1)至少一个a,(2)至少一个b,或者(3)至少一个a和至少一个b。就本文在描述过程、指令、动作、活动和/或步骤的执行或运行的上下文中使用的而言,短语“a和b中的至少一者”打算指包括以下各项中的任何一者的实现方式:(1)至少一个a,(2)至少一个b,或者(3)至少一个a和至少一个b。类似地,就本文在描述过程、指令、动作、活动和/或步骤的执行或运行的上下文中使用的而言,短语“a或b中的至少一者”打算指包括以下各项中的任何一者的实现方式:(1)至少一个a,(2)至少一个b,或者(3)至少一个a和至少一个b。[0075]如本文所使用的,单数指代(例如,“一”、“第一”、“第二”,等等)并不排除多数。如本文所使用的,术语“一”物体指的是一个或多个该物体。术语“一”、“一个或多个”和“至少一个”在本文中是可互换使用的。此外,虽然是单独列出的,但多个手段、元素或方法动作可由例如同一实体或物体来实现。此外,虽然个体特征可被包括在不同的示例或权利要求中,但它们可能可被组合,并且包括在不同的示例或权利要求中并不暗示着特征的组合是不可行的和/或不是有利的。[0076]在一些示例中,深度神经网络加速器系统100包括用于将输入图像发送到视觉网络电路或者成像网络电路中的至少一者的装置。例如,用于将输入图像发送到视觉网络电路或者成像网络电路中的至少一者的装置可以由模式选择电路110实现。在一些示例中,模式选择电路110可以由机器可执行指令实现,例如由处理器电路执行的至少图5的块502所实现的指令,该处理器电路可以由图9的示例处理器电路912、图10的示例处理器电路1000和/或图11的示例现场可编程门阵列(fpga)电路1100实现。在其他示例中,模式选择电路110由其他硬件逻辑电路、硬件实现的状态机和/或硬件、软件和/或固件的其他任意组合来实现。例如,模式选择电路110可以由至少一个或多个硬件电路(例如,处理器电路、分立的和/或集成的模拟和/或数字电路、fpga、专用集成电路(asic)、比较器、运算放大器(op-amp)、逻辑电路,等等)来实现,这些硬件电路被构造为执行相应的操作,而不执行软件或固件,但其他结构也同样是适当的。[0077]在一些示例中,神经网络加速器系统100包括用于基于由图像缩放电路生成的输入图像的第一特征图谱来生成第一输出的装置。例如,用于基于由图像缩放电路生成的输入图像的第一特征图谱来生成第一输出的装置可以由视觉网络电路104实现。在一些示例中,视觉网络电路104可以由机器可执行指令实现,例如由处理器电路执行的至少图5的块506、508所实现的指令,该处理器电路可以由图9的示例处理器电路912、图10的示例处理器电路1000和/或图11的示例现场可编程门阵列(fpga)电路1100实现。在其他示例中,视觉网络电路104由其他硬件逻辑电路、硬件实现的状态机和/或硬件、软件和/或固件的其他任意组合来实现。例如,视觉网络电路104可以由至少一个或多个硬件电路(例如,处理器电路、分立的和/或集成的模拟和/或数字电路、fpga、专用集成电路(asic)、比较器、运算放大器(op-amp)、逻辑电路,等等)来实现,这些硬件电路被构造为执行相应的操作,而不执行软件或固件,但其他结构也同样是适当的。[0078]在一些示例中,神经网络加速器系统100包括用于生成输入图像的第二输出的装置。例如,用于基于输入图像的第二特征图谱来生成第二输出的装置可以由成像网络编码器116实现。在一些示例中,成像网络编码器116可以由机器可执行指令实现,例如由处理器电路执行的至少图5的块510、512和图6的块602-620所实现的指令,该处理器电路可以由图9的示例处理器电路912、图10的示例处理器电路1000和/或图11的示例现场可编程门阵列(fpga)电路1100实现。在其他示例中,成像网络编码器116由其他硬件逻辑电路、硬件实现的状态机和/或硬件、软件和/或固件的其他任意组合来实现。例如,成像网络编码器116可以由至少一个或多个硬件电路(例如,处理器电路、分立的和/或集成的模拟和/或数字电路、fpga、专用集成电路(asic)、比较器、运算放大器(op-amp)、逻辑电路,等等)来实现,这些硬件电路被构造为执行相应的操作,而不执行软件或固件,但其他结构也同样是适当的。[0079]在一些示例中,神经网络加速器系统100包括用于串接第一和第二输出以生成串接输出并且向串接输出应用卷积操作的装置。例如,用于串接第一和第二输出以生成串接输出并且向串接输出应用卷积操作的装置可以由瓶颈扩展器电路106实现。在一些示例中,瓶颈扩展器电路106可以由机器可执行指令实现,例如由处理器电路执行的至少图5的块514和图7的块702-710所实现的指令,该处理器电路可以由图9的示例处理器电路912、图10的示例处理器电路1000和/或图11的示例现场可编程门阵列(fpga)电路1100实现。在其他示例中,瓶颈扩展器电路106由其他硬件逻辑电路、硬件实现的状态机和/或硬件、软件和/或固件的其他任意组合来实现。例如,瓶颈扩展器电路106可以由至少一个或多个硬件电路(例如,处理器电路、分立的和/或集成的模拟和/或数字电路、fpga、专用集成电路(asic)、比较器、运算放大器(op-amp)、逻辑电路,等等)来实现,这些硬件电路被构造为执行相应的操作,而不执行软件或固件,但其他结构也同样是适当的。[0080]在一些示例中,神经网络加速器系统100包括用于从串接输出生成像素级分割类别图谱的装置。例如,用于从串接输出生成像素级分割类别图谱的装置可以由成像网络解码器118和/或分割头部电路112实现。在一些示例中,成像网络解码器118和/或分割头部电路112可以由机器可执行指令实现,例如由处理器电路执行的至少图5的块516和图8的块802-814所实现的指令,该处理器电路可以由图9的示例处理器电路912、图10的示例处理器电路1000和/或图11的示例现场可编程门阵列(fpga)电路1100实现。在其他示例中,成像网络解码器118由其他硬件逻辑电路、硬件实现的状态机和/或硬件、软件和/或固件的其他任意组合来实现。例如,成像网络解码器118可以由至少一个或多个硬件电路(例如,处理器电路、分立的和/或集成的模拟和/或数字电路、fpga、专用集成电路(asic)、比较器、运算放大器(op-amp)、逻辑电路,等等)来实现,这些硬件电路被构造为执行相应的操作,而不执行软件或固件,但其他结构也同样是适当的。[0081]图5是代表可被示例处理器电路执行来实现图1a的深度神经网络加速器系统100的示例机器可读指令的流程图。在块502,输入图像114(图1a)被示例模式选择电路110(图1a)发送到示例视觉网络电路104(图1a)和示例成像网络电路104(图1a)。在一些示例中,模式选择电路110(图1a)可以选择性地将输入图像114(图1a)发送到成像网络电路102(图1a)(例如,不将输入图像114(图1a)发送到视觉网络电路104(图1a))。在一些示例中,模式选择电路110(图1a)可以将输入图像114(图1a)发送到视觉网络电路104(图1a),而不将输入图像114(图1a)发送到成像网络电路102(图1a)。[0082]在块504,示例图像缩放电路108(图1a)对示例输入图像114(图1a)进行降尺度。在一些示例中,图像缩放电路108(图1a)通过下采样和生成特征图谱来缩放输入图像114(图1a)。[0083]在块506,示例视觉网络电路104(图1a)从示例图像缩放电路108(图1a)接收示例输入图像114(图1a)。在块508,示例视觉网络电路104(图1a)对示例输入图像114(图1a)进行编码。对输入图像114(图1a)编码可包括提取对象的高级别结构和语义。[0084]块510图示了一系列的过程,这些过程可以与块504-508并行发生。在块510,示例成像网络电路102(图1a)也接收示例输入图像114(图1a)。在块512,示例成像网络电路102(图1a)对示例输入图像114(图1a)进行编码。在块514,示例瓶颈扩展器电路106(图1a)对来自示例视觉网络电路104和示例成像网络编码器116(图1a)两者的数据进行操作。[0085]在块516,示例瓶颈扩展器电路106(图1a)然后将输出传递给示例成像网络解码器118(图1a)。示例瓶颈扩展器电路106(图1a)可以取得视觉网络电路104(图1a)的输出,并且基于成像网络编码器116输出的分辨率对其进行升尺度。瓶颈扩展器电路106(图1a)还可以执行至少一次串接并且应用至少一次卷积。[0086]图6是代表可被示例处理器电路执行来实现图1a的成像网络编码器116的示例机器可读指令的流程图。图6的指令开始于块512(图5),其中示例成像网络编码器116(图3a)开始操作。[0087]在块602,示例卷积电路306(图3a)执行点式和多分组置乱卷积,然后在块604,示例输入图像114(图1a)的数据被发送到示例第一管线120和示例第二管线122。在块606,在示例第二管线中,示例卷积电路306(图3a)在示例第二管线上执行点式卷积,然后在块608,示例dpcm编码电路310(图3a)对数据进行操作。[0088]与示例第二管线并行,在块610,示例最大池化电路308(图3a)在第一管线120(图1)上执行最大池化。最大池化可包括计算特征图谱中的最大值,或者最大的值。在一些示例中,最大池化电路308(图3a)的输出可包括下采样的特征图谱,其中包括高度存在的特征。在块612,示例卷积电路306(图3a)在示例第一管线120(图1a)上执行深度和点式卷积。[0089]接下来,在块614,示例第一管线120(图1a)上的处理与示例第三管线124(图1a)中的处理并行进行。在示例第三管线124(图1a)中,在块620,卷积电路306(图3a)执行点式卷积。并行地,在块616,在第一管线120(图1a)中,最大池化电路308(图3a)执行最大池化。在块618,卷积电路306(图3a)在示例的第一管线120(图1a)上执行空间可分离的深度卷积和点式卷积,之后,该过程结束。[0090]通过图6的示例操作,提取来自输入图像114(图1a)的特征。此外,示例第三管线中的数据已准备好发送到示例瓶颈扩展器电路106(图1a)。[0091]图7是代表可被示例处理器电路执行来实现瓶颈扩展器电路106(图1a)的示例机器可读指令的流程图。图7的指令开始于块514(图5),其中瓶颈扩展器电路106(图1a)开始操作。[0092]在块702,接收电路202获得视觉网络电路104(图1a)和成像网络电路(图2)的输出。[0093]在块704,升尺度电路206(图2)取得视觉网络电路104(图1a)的输出,并且将其升尺度到基于成像网络编码器116(图3a)的输出的分辨率。在一些示例中,视觉网络电路104(图1a)的输出可以被升尺度到与成像网络编码器116(图3a)的输出相同的分辨率。[0094]接下来,在块706,瓶颈扩展器电路106(图1a)的串接电路204(图2)将视觉网络电路104(图1a)的输出和成像网络电路102(图1a)的输出串接。在块708,卷积电路210(图2)应用卷积。最后,在块710,发送电路208(图2)将输出发送回到成像网络电路102(图1a)。[0095]通过图7的操作,瓶颈扩展器电路106(图1a)已将成像网络电路102和视觉网络电路连接起来,以生成具有高吞吐量和改善的准确度的高分辨率的输出。瓶颈扩展器电路106(图1a)的输出被准备发送到成像网络解码器118。[0096]图8是代表可被示例处理器电路执行来实现图3a的成像网络编码器的示例机器可读指令的流程图。图6的指令开始于块516(图5),其中成像网络解码器118(图3a)开始操作。[0097]在块802,卷积电路306对来自瓶颈扩展器106(图1a)的第三输入执行点式卷积。在块804,最近邻居升尺度电路323(图3a)对第三输入执行空间升尺度。在块806,串接电路322(图3a)将第三输入与来自多个管道中的第二管线的第二输入串接,以创建第一串接输入。在块808,卷积电路314(图3a)执行点式卷积。在块810,卷积电路314(图3a)执行点式卷积。在块812,最近邻居升尺度电路323(图3a)执行空间升尺度。最后,在块814,dpcm解码电路318和串接电路322进行操作,之后,该过程结束。[0098]图9是被构造来执行和/或实例化图5-图8的机器可读指令和/或操作以实现图1a的深度神经网络加速器系统100的框图。处理器平台900可以例如是服务器、个人计算机、工作站、自学习机器(例如,神经网络)、移动设备(例如,蜂窝电话、智能电话、诸如ipadtm之类的平板设备)、个人数字助理(personaldigitalassistant,pda)、互联网家电、dvd播放器、cd播放器、数字视频记录器、蓝光播放器、游戏机、个人视频记录器、机顶盒、耳机(例如,增强现实(augmentedreality,ar)耳机、虚拟现实(virtualreality,vr)耳机,等等)或其他可穿戴设备、或者任何其他类型的计算设备。[0099]图示示例的处理器平台900包括处理器电路912。图示示例的处理器电路912是硬件。例如,处理器电路912可由来自任何期望的家族或制造商的一个或多个集成电路、逻辑电路、fpga、微处理器、cpu、gpu、dsp和/或微控制器来实现。处理器电路912可以由一个或多个基于半导体(例如,基于硅)的器件来实现。在这个示例中,处理器电路912实现深度神经网络加速器系统100。[0100]图示示例的处理器电路912包括本地存储器913(例如,缓存、寄存器,等等)。图示示例的处理器电路912通过总线918与包括易失性存储器914和非易失性存储器916的主存储器进行通信。易失性存储器914可由同步动态随机访问存储器(synchronousdynamicrandomaccessmemory,sdram)、动态随机访问存储器(dynamicrandomaccessmemory,dram)、动态随机访问存储器(dynamicrandomaccessmemory,)和/或任何其他类型的ram设备实现。非易失性存储器916可以由闪存和/或任何其他期望类型的存储器设备实现。对图示示例的主存储器914、916的访问受存储器控制器917控制。[0101]图示示例的处理器平台900还包括接口电路920。接口电路920可根据任何类型的接口标准由硬件实现,例如以太网接口、通用串行总线(universalserialbus,usb)接口、接口、近场通信(nearfieldcommunication,nfc)接口、pci接口和/或pcie接口。[0102]在图示示例中,一个或多个输入设备922连接到接口电路920。(一个或多个)输入设备922允许用户向处理器电路912中输入数据和/或命令。(一个或多个)输入设备922可由例如音频传感器、麦克风、相机(静态或视频)、键盘、按钮、鼠标、触摸屏、触控板、轨迹球、isopoint设备和/或语音识别系统实现。[0103]一个或多个输出设备924也连接到图示示例的接口电路920。输出设备924可以例如由显示设备(例如,发光二极管(lightemittingdiode,led)、有机发光二极管(organiclightemittingdiode,oled)、液晶显示器(liquidcrystaldisplay,lcd)、阴极射线管(cathoderaytube,crt)显示器、就地切换(in-placeswitching,ips)显示器、触摸屏等等)、触觉输出设备、打印机和/或扬声器来实现。图示示例的接口电路920从而通常包括图形驱动器卡、图形驱动器芯片和/或图形处理器电路,比如gpu。[0104]图示示例的接口电路920还包括通信设备,例如发送器、接收器、收发器、调制解调器、住宅网关、无线接入点和/或网络接口,来促进通过网络926与外部机器(例如,任何种类的计算设备)的数据交换。通信可通过例如以太网连接、数字订户线(digitalsubscriberline,dsl)连接、电话线连接、同轴线缆系统、卫星系统、直线对传式无线系统、蜂窝电话系统、光学连接等等进行。[0105]图示示例的处理器平台900还包括一个或多个大容量存储设备928来存储软件和/或数据。这种大容量存储设备928的示例包括磁存储设备、光存储设备、软盘驱动器、hdd、cd、蓝光盘驱动器、独立盘冗余阵列(redundantarrayofindependentdisk,raid)系统、固态存储设备(比如闪存设备)、以及dvd驱动器。[0106]可由图5-图8的机器可读指令实现的机器可执行指令932可被存储在大容量存储设备928中、易失性存储器914中、非易失性存储器916中、和/或诸如cd或dvd之类的可移除非暂态计算机可读存储介质上。[0107]图10是图9的处理器电路912的示例实现方式的框图。在这个示例中,图9的处理器电路912由微处理器1000实现。例如,微处理器1000可以实现多核硬件电路,例如cpu、dsp、gpu、xpu,等等。虽然它可包括任何数目的示例核心1002(例如,1个核心),但此示例的微处理器1000是包括n个核心的多核半导体设备。微处理器1000的核心1002可以独立操作,或者可以合作来执行机器可读指令。例如,与固件程序、嵌入式软件程序或软件程序相对应的机器代码可被核心1002之一执行,或者可被核心1002中的多个核心在相同或不同时间执行。在一些示例中,与固件程序、嵌入式软件程序或软件程序相对应的机器代码被分割成线程并且被核心1002中的两个或更多个并行执行。该软件程序可以对应于图5-图8的流程图所表示的机器可读指令和/或操作的一部分或全部。[0108]核心1002可以通过示例总线1004进行通信。在一些示例中,总线1004可以实现通信总线,以实现与核心1002中的一个(或多个)相关联的通信。例如,总线1004可以实现集成电路间(inter-integratedcircuit,i2c)总线、串行外围接口(serialperipheralinterface,spi)总线、pci总线或者pcie总线中的至少一者。额外地或者替代地,总线1004可以实现任何其他类型的计算或电气总线。核心1002可以通过示例接口电路1006从一个或多个外部设备获得数据、指令和/或信号。核心1002可以通过接口电路1006向一个或多个外部设备输出数据、指令和/或信号。虽然此示例的核心1002包括示例本地存储器1020(例如,可被分割成l1数据缓存和l1指令缓存的第1级(l1)缓存),但微处理器1000也包括可由核心共享的示例共享存储器1010(例如,第2级(l2缓存)),用于高速访问数据和/或指令。可以通过向共享存储器1010写入和/或从共享存储器1210读取来传送(例如,共享)数据和/或指令。每个核心1002的本地存储器1020和共享存储器1010可以是包括多级缓存存储器和主存储器(例如,图9的主存储器914、916)的存储设备的层次体系的一部分。通常,该层次体系中的较高级别的存储器与较低级别的存储器相比表现出更低的访问时间并且具有更小的存储容量。缓存层次体系的各种级别的变化由缓存一致性策略来管理(例如,协调)。[0109]每个核心1002可被称为cpu、dsp、gpu,等等,或者任何其他类型的硬件电路。每个核心1002包括控制单元电路1014、算术和逻辑(arithmeticandlogic,al)电路(有时称为alu)1016、多个寄存器1018、l1缓存1020、以及示例总线1022。其他结构也可以存在。例如,每个核心1002可包括向量单元电路、单指令多数据(singleinstructionmultipledata,simd)单元电路、加载/存储单元(load/storeunit,lsu)电路、分支/跳跃单元电路、浮点单元(floating-pointunit,fpu)电路,等等。控制单元电路1014包括基于半导体的电路,其被构造为控制(例如,协调)相应核心1002内的数据移动。al电路1016包括基于半导体的电路,其被构造为对相应核心1002内的数据执行一个或多个数学和/或逻辑操作。一些示例中的al电路1016执行基于整数的操作。在其他示例中,al电路1016也执行浮点操作。在另外一些示例中,al电路1016可包括执行基于整数的操作的第一al电路和执行浮点操作的第二al电路。在一些示例中,al电路1016可被称为算术逻辑单元(arithmeticlogicunit,alu)。寄存器1018是基于半导体的结构,用来存储数据和/或指令,例如由相应核心1002的al电路1016执行的一个或多个操作的结果。例如,寄存器1018可包括(一个或多个)向量寄存器、(一个或多个)simd寄存器、(一个或多个)通用寄存器、(一个或多个)标志寄存器、(一个或多个)片段寄存器、(一个或多个)机器专用寄存器、(一个或多个)指令指针寄存器、(一个或多个)控制寄存器、(一个或多个)调试寄存器、(一个或多个)存储器管理寄存器、(一个或多个)机器检查寄存器,等等。寄存器1018可以如图10所示被安排为库组。或者,寄存器1018可以按任何其他安排、格式或结构被组织,包括分布在整个核心1002中以缩短访问时间。总线1020可以实现i2c总线、spi总线、pci总线或pcie总线中的至少一者。[0110]每个核心1002和/或更概括而言微处理器1000可包括作为以上所示出和描述的附加和/或替代的结构。例如,可以存在一个或多个时钟电路、一个或多个电力供应源、一个或多个电力门、一个或多个缓存归属代理(cachehomeagent,cha)、一个或多个聚合/通用网挡(converged/commonmeshstop,cms)、一个或多个移位器(例如,(一个或多个)桶形移位器)和/或其他电路。微处理器1000是半导体设备,它被制造为包括许多相互连接的晶体管,以便在一个或多个封装中包含的一个或多个集成电路(ic)中实现上述的结构。处理器电路可包括一个或多个加速器和/或与一个或多个加速器合作。在一些示例中,加速器由逻辑电路实现,以比通用处理器更快速和/或高效地执行某些任务。加速器的示例包括asic和fpga,例如本文论述的那些。gpu或其他可编程设备也可以是加速器。加速器可以在处理器电路的板上,在与处理器电路相同的芯片封装中,和/或在与处理器电路分开的一个或多个封装中。[0111]图11是图9的处理器电路912的另一示例实现方式的框图。在这个示例中,处理器电路912由fpga电路1100实现。例如,fpga电路1100可用于例如执行否则可通过图10的示例微处理器1000执行相应的机器可读指令而执行的操作。然而,一旦被配置,fpga电路1100就用硬件来实例化机器可读指令,从而,执行操作的速度经常比执行相应软件的通用微处理器的执行速度更快。[0112]更具体而言,与上文描述的图10的微处理器1000(它是通用设备,可以被编程来执行图5-图8的流程图所表示的机器可读指令的一部分或全部,但其互连和逻辑电路一旦被制造出来就固定了)相比,图11的示例的fpga电路1100包括互连和逻辑电路,这些互连和逻辑电路可以在制造之后以不同方式被配置和/或互连,以实例化例如由图5-图8的流程图表示的机器可读指令的一部分或全部。具体地,fpga1100可以被认为是逻辑门、互连和开关的阵列。开关可以被编程以改变逻辑门被互连所互连的方式,有效地形成一个或多个专用的逻辑电路(除非和直到fpga电路1100被重编程为止)。配置的逻辑电路使得逻辑门能够以不同方式合作,以对输入电路接收的数据执行不同的操作。这些操作可以对应于图5-图8的流程图所表示的软件的一部分或全部。因此,fpga电路1100可被构造为有效地将图5-图8的流程图的机器可读指令的一部分或全部实例化为专用逻辑电路,来以类似于asic的专用方式执行与这些软件指令相对应的操作。因此,fpga电路1100执行与图5-图8的机器可读指令的一部分或全部相对应的操作的速度可以比通用微处理器执行这些指令的速度更快。[0113]在图11的示例中,fpga电路1100被构造为由最终用户通过硬件描述语言(hardwaredescriptionlanguage,hdl)(例如verilog)进行编程(和/或一次或多次重编程)。图11的fpga电路1100包括示例输入/输出(i/o)电路1102,以从示例配置电路1104和/或外部硬件(例如,外部硬件电路)1106获得和/或向其输出数据。例如,配置电路1104可以实现接口电路,该接口电路可以获得机器可读指令,以配置fpga电路1100,或者其(一个或多个)部分。在一些这样的示例中,配置电路1104可以从用户、机器(例如,可以实现人工智能/机器学习(artificialintelligence/machinelearning,ai/ml)模型以生成指令的硬件电路(例如,编程的或专用的电路))等等获得机器可读指令。在一些示例中,外部硬件1106可以实现图10的微处理器1000。fpga电路1100还包括示例逻辑门电路1108的阵列、多个示例可配置互连1110、以及示例存储电路1112。逻辑门电路1108和互连1110可被配置为实例化与图5-图8的机器可读指令中的至少一些相对应的一个或多个操作,和/或其他期望操作。图11中所示的逻辑门电路1108是按组或按块制造的。每个块包括基于半导体的电气结构,这些结构可被配置成逻辑电路。在一些示例中,电气结构包括为逻辑电路提供基本构建块的逻辑门(例如,与门、或门、或非门,等等)。在每个逻辑门电路1108内存在可电控的开关(例如,晶体管),以便能够配置电气结构和/或逻辑门,来形成电路以执行期望的操作。逻辑门电路1108可包括其他电气结构,例如查找表(look-uptable,lut)、寄存器(例如,触发器或锁存器)、多路复用器,等等。[0114]图示示例的互连1110是导电通路、迹线、通孔之类的,其可包括可电控开关(例如,晶体管),其状态可通过编程(例如,使用hdl指令语言)被改变,以激活或停用一个或多个逻辑门电路1108之间的一个或多个连接,以编程期望的逻辑电路。[0115]图示示例的存储电路1112被构造为存储由相应逻辑门执行的一个或多个操作的(一个或多个)结果。存储电路1112可以由寄存器之类的实现。在图示示例中,存储电路1112分布在逻辑门电路1108之间,以促进访问并且提高执行速度。[0116]图11的示例fpga电路1100还包括示例专用操作电路1114。在这个示例中,专用操作电路1114包括专用电路1116,该专用电路可被调用来实现常用功能,以避免需要在现场对这些功能进行编程。这种专用电路1116的示例包括存储器(例如,dram)控制器电路、pcie控制器电路、时钟电路、收发器电路、存储器、以及乘法器-累加器电路。其他类型的专用电路也可存在。在一些示例中,fpga电路1100还可包括示例通用可编程电路1118,例如示例cpu1120和/或示例dsp1122。其他通用可编程电路1118可以额外地或者替代地存在,例如gpu、xpu,等等,它们可被编程以执行其他操作。[0117]虽然图10和图11图示了图9的处理器电路912的两个示例实现方式,但也设想了许多其他方法。例如,如上所述,现代fpga电路可包括板载cpu,例如图11的一个或多个示例cpu1120。因此,图9的处理器电路912可以额外地通过组合图10的示例微处理器1000和图11的示例fpga电路1100来实现。在一些这样的混合示例中,由图5-图8的流程图表示的机器可读指令的第一部分可以由图10的一个或多个核心1002执行,并且由图5-图8的流程图表示的机器可读指令的第二部分可以由图11的fpga电路1100执行。[0118]在一些示例中,图9的处理器电路912可以在一个或多个封装中。例如,图9的处理器电路900和/或图6的fpga电路1100可以在一个或多个封装中。在一些示例中,xpu可以由图9的处理器电路912实现,该处理器电路可以在一个或多个封装中。例如,xpu可包括封装中的cpu、另一个封装中的dsp、另外一个封装中的gpu、以及另一个封装中的fpga。[0119]图12中图示了一个框图,该框图图示了示例软件分发平台1205,用来将诸如图5-图8的示例机器可读指令500之类的软件分发到由第三方拥有和/或操作的硬件设备。示例软件分发平台1205可由能够存储软件并且将其传输到其他计算设备的任何计算机服务器、数据设施、云服务等等实现。第三方可以是拥有和/或操作该软件分发平台1205的实体的客户。例如,拥有和/或操作软件分发平台1205的实体可以是软件(例如图5-图8的示例机器可读指令500)的开发者、销售者和/或许可人。第三方可以是购买和/或许可该软件以供使用和/或再销售和/或分许可的消费者、用户、零售商、oem,等等。在图示示例中,软件分发平台1205包括一个或多个服务器和一个或多个存储设备。存储设备存储机器可读指令1232,这些指令可对应于如上所述的图5-图8的示例机器可读指令500。示例软件分发平台1205的一个或多个服务器与网络1210通信,该网络可对应于互联网和/或任何其他网络中的任何一个或多个。在一些示例中,作为商业交易的一部分,一个或多个服务器响应将软件传输给请求方的请求。对软件的交付、销售和/或许可的支付可由软件分发平台的一个或多个服务器处理和/或由第三方支付实体来处理。这些服务器使得购买者和/或许可人能够从软件分发平台1205下载机器可读指令1232。例如,可与图5的示例机器可读指令500相对应的软件可被下载到示例处理器平台900,该平台要执行机器可读指令500以实现深度神经网络加速器系统100。在一些示例中,软件分发平台1205的一个或多个服务器周期性地提供、传输和/或强制更新软件(例如,图5-图8的示例机器可读指令500),以确保改进、补丁、更新等等被分发并且在最终用户设备处被应用于软件。[0120]从上述内容将会明白,已公开了改进执行语义图像分割的计算机系统的功能的示例系统、方法、装置和制品。所公开的系统、方法、装置和制品通过连接视觉和成像网络,同时只需要少量的本地sram用于同步,从而提高了使用计算设备的效率。深度神经网络加速器系统100对于每秒60帧场景的高达4k图像分辨率,在没有ddr的情况下支持高准确度的语义分割结果。这允许边缘计算系统纳入这个解决方案,以降低功率和总成本。此外,深度神经网络加速器系统100实现了亚帧延时,这对直接在传感器数据上工作的近实时系统(例如,自动化驾驶、工业自动化)是有益的。这允许自动化系统以低延时和低精确度对所感测的环境作出响应。所公开的系统、方法、装置和制品因此指向诸如计算机或其他电子和/或机械设备之类的机器的操作的一个或多个改进。[0121]虽然本文公开了某些示例系统、方法、装置和制品,但本专利的覆盖范围不限于此。相反,本专利覆盖了公平地落在本专利的权利要求的范围内的所有系统、方法、装置和制品。[0122]本文公开了改进语义图像分割的示例方法、装置、系统和制品。进一步示例及其组合包括以下的:[0123]示例1包括一种装置,其包括至少一个存储器,所述装置中的指令,以及处理器电路,来执行所述指令以将输入图像发送到视觉网络电路和成像网络电路中的至少一者,由所述视觉网络电路基于由图像缩放电路生成的所述输入图像的第一特征图谱来生成第一输出,由所述成像网络电路生成所述输入图像的第二输出,由瓶颈扩展器电路将所述第一输出升尺度到基于所述第二输出的分辨率,串接所述第一输出和第二输出以生成串接输出,向所述串接输出应用卷积操作,并且由分割头部电路从所述串接输出生成像素级分割类别图谱。[0124]示例2包括如示例1所述的装置,其中,所述输入图像的第一特征图谱是描述所述输入图像的特征的降尺度特征图谱。[0125]示例3包括如示例1所述的装置,其中,所述处理器电路执行所述指令来基于差分脉冲编码调制来量化所述输入图像。[0126]示例4包括如示例1所述的装置,其中,所述处理器电路执行所述指令来将所述串接输出发送到所述成像网络电路的解码器。[0127]示例5包括如示例1所述的装置,其中,响应于接收到成像任务,所述处理器电路执行所述指令来选择性地将所述输入图像发送到所述成像网络电路的编码器。[0128]示例6包括如示例1所述的装置,其中,所述处理器电路执行所述指令来执行空间可分离的深度卷积和点式卷积。[0129]示例7包括如示例1所述的装置,其中,所述第一输出是至少256个通道的编码特征图谱,并且所述第二输出是与至少1280x720分辨率输入相对应的少于128通道编码特征图谱。[0130]示例8包括一种非暂态计算机可读介质,该介质包括指令,所述指令当被执行时,使得处理器电路至少将输入图像发送到视觉网络电路和成像网络电路中的至少一者,由所述视觉网络电路基于由图像缩放电路生成的所述输入图像的第一特征图谱来生成第一输出,由所述成像网络电路生成所述输入图像的第二输出,由瓶颈扩展器电路将所述第一输出升尺度到基于所述第二输出的分辨率,串接所述第一输出和第二输出以生成串接输出,向所述串接输出应用卷积操作,并且由分割头部电路从所述串接输出生成像素级分割类别图谱。[0131]示例9包括如示例8所述的非暂态计算机可读介质,其中,所述输入图像的第一特征图谱是描述所述输入图像的特征的降尺度特征图谱。[0132]示例10包括如示例8所述的非暂态计算机可读介质,还包括差分脉冲编码调制编码电路来基于差分脉冲编码调制来量化所述输入图像。[0133]示例11包括如示例8所述的非暂态计算机可读介质,其中,所述指令当被执行时,使得所述处理器电路将所述串接输出发送到所述成像网络电路的解码器。[0134]示例12包括如示例8所述的非暂态计算机可读介质,其中,所述指令当被执行时,使得所述处理器电路选择性地将所述输入图像发送到所述成像网络电路的编码器。[0135]示例13包括如示例8所述的非暂态计算机可读介质,其中,所述指令当被执行时,使得所述处理器电路执行空间可分离的深度卷积和点式卷积。[0136]示例14包括如示例8所述的非暂态计算机可读介质,其中,所述第一输出是至少256个通道的经编码的特征图谱,并且所述第二输出是与至少1280x720分辨率输入相对应的少于128个通道经编码的特征图谱。[0137]示例15包括一种装置,该装置包括用于将输入图像发送到视觉网络电路和成像网络电路中的至少一者的装置,用于由所述视觉网络电路基于由图像缩放电路生成的所述输入图像的第一特征图谱来生成第一输出的装置,用于由所述成像网络电路生成所述输入图像的第二输出的装置,用于由瓶颈扩展器电路将所述第一输出升尺度到基于所述第二输出的分辨率的装置,用于串接所述第一输出和第二输出以生成串接输出的装置,用于向所述串接输出应用卷积操作的装置,以及用于由分割头部电路从所述串接输出生成像素级分割类别图谱的装置。[0138]示例16包括如示例15所述的装置,其中,所述输入图像的第一特征图谱是描述所述输入图像的特征的降尺度特征图谱。[0139]示例17包括如示例15所述的装置,还包括用于基于差分脉冲编码调制来量化所述输入图像的装置。[0140]示例18包括如示例15所述的装置,还包括用于将所述串接输出发送到所述成像网络电路的解码器的装置。[0141]示例19包括如示例15所述的装置,还包括用于选择性地将所述输入图像发送到所述成像网络电路的编码器的装置。[0142]示例20包括如示例15所述的装置,还包括用于执行空间可分离的深度卷积和点式卷积的装置。[0143]示例21包括如示例15所述的装置,其中,所述第一输出是至少256个通道的经编码的特征图谱,并且所述第二输出是与至少1280x720分辨率输入相对应的少于128个通道的经编码的特征图谱。[0144]示例22包括一种方法,该方法包括通过利用至少一个处理器执行指令来将输入图像发送到视觉网络电路和成像网络电路中的至少一者,由所述视觉网络电路基于由图像缩放电路生成的所述输入图像的第一特征图谱来生成第一输出,由所述成像网络电路生成所述输入图像的第二输出,由瓶颈扩展器电路将所述第一输出升尺度到基于所述第二输出的分辨率,通过利用所述至少一个处理器执行指令来串接所述第一输出和第二输出以生成串接输出,通过利用所述至少一个处理器执行指令来向所述串接输出应用卷积操作,并且由分割头部电路从所述串接输出生成像素级分割类别图谱。[0145]示例23包括一种执行语义图像分割的装置,该装置包括模式选择电路,来将输入图像发送到视觉网络电路和成像网络电路中的至少一者,所述视觉网络电路,来基于由图像缩放电路生成的所述输入图像的第一特征图谱来生成第一输出,所述成像网络电路,来生成所述输入图像的第二输出,瓶颈扩展器电路,来将所述第一输出升尺度到基于所述第二输出的分辨率,串接所述第一输出和第二输出以生成串接输出,并且向所述串接输出应用卷积操作,以及分割头部电路,来从所述串接输出生成像素级分割类别图谱。[0146]示例24包括如示例23所述的装置,其中,所述输入图像的第一特征图谱是描述所述输入图像的特征的降尺度特征图谱。[0147]示例25包括如示例23所述的装置,还包括差分脉冲编码调制编码电路来基于差分脉冲编码调制来量化所述输入图像。[0148]示例26包括如示例23所述的装置,其中,所述瓶颈扩展器电路将所述串接输出发送到所述成像网络电路的解码器。[0149]示例27包括如示例23所述的装置,其中,响应于接收到成像任务,所述模式选择电路选择性地将所述输入图像发送到所述成像网络电路的解码器。[0150]示例28包括如示例23所述的装置,其中,所述瓶颈扩展器电路执行空间可分离的深度卷积和点式卷积。如示例23所述的装置,其中,所述第一输出是至少256个通道的经编码的特征图谱,并且所述第二输出是与至少1280x720分辨率输入相对应的少于128个通道的经编码的特征图谱。特此通过引用将所附权利要求并入到这个“具体实施方式”部分中,其中每个权利要求独立作为本公开的一个单独实施例。[0151]示例29包括如示例22所述的方法,其中,所述输入图像的第一特征图谱是由可训练视觉缩放器电路生成的降尺度特征图谱。[0152]示例30包括如示例22所述的方法,还包括基于差分脉冲编码调制来量化所述输入图像。[0153]示例31包括如示例22所述的方法,还包括将所述串接输出发送到所述成像网络电路的解码器。[0154]示例32包括如示例22所述的方法,还包括选择性地将所述输入图像发送到所述成像网络电路的编码器。[0155]示例33包括如示例22所述的方法,还包括执行空间可分离的深度卷积和点式卷积。[0156]示例34包括如示例22所述的方法,其中,所述第一输出是至少256个通道的经编码的特征图谱,并且所述第二输出是与至少1280x720分辨率输入相对应的少于128个通道的经编码的特征图谱。[0157]虽然本文公开了某些示例系统、方法、装置和制品,但本专利的覆盖范围不限于此。相反,本专利覆盖了公平地落在本专利的权利要求的范围内的所有系统、方法、装置和制品。特此通过引用将所附权利要求并入到这个“具体实施方式”部分中,其中每个权利要求独立作为本公开的一个单独实施例。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1