用于远程操作系统中基于状态的语音识别的系统和方法与流程

文档序号：20166019发布日期：2020-03-24 21:30阅读：192来源：国知局

相关申请的交叉引用

本申请要求2017年6月6日提交的美国临时申请62/515,864的权益，其全部内容通过引用合并于此。

本公开涉及用于执行远程操作医疗程序的系统和方法，并且更具体地涉及用于在远程操作医疗程序期间提供基于状态的语音识别的系统和方法。

背景技术：

微创医疗技术旨在减少在侵入医疗程序期间受损的组织的数量，从而减少患者的恢复时间、不适和有害的副作用。可以通过患者解剖结构中的自然孔口或通过一个或多个手术切口来执行这样的微创技术。通过这些自然孔口或切口，临床医生可以插入医疗工具以到达目标组织位置。微创医疗工具包括诸如治疗器械、诊断器械和外科手术器械之类的器械。微创医疗工具还可以包括成像器械，例如内窥镜器械。成像器械向用户提供患者解剖结构内的视野。一些微创医疗工具和成像器械可以是远程操作的，或者是计算机辅助的。在远程操作或计算机辅助程序中，外科医生可能需要额外的信息，可能需要装备或器械的帮助，或者可能寻求解决问题的指导。基于状态的语音识别系统和方法评估外科医生在手术中所处的当前环境，从而可以以有效且安全的方式为外科医生提供准确的信息。

技术实现要素：

本发明的实施例由随附于说明书的权利要求书概括。

在一个实施例中，一种远程操作外科手术系统包括操作者输入系统和配置成由操作者输入系统进行操作的远程操作操纵器。远程操作操纵器在外科手术环境中耦接到医疗器械。远程操作外科手术系统还包括具有一个或多个处理器的处理单元。处理单元被配置为识别话音通信，在多个外科手术环境状态变量的背景中评估话音通信，基于多个外科手术环境状态变量中的至少一个确定对话音通信的响应，以及提供命令以实施该响应。

在另一实施例中，一种由计算系统执行的方法包括识别话音通信，在多个外科手术环境状态变量的背景中评估话音通信，以及基于多个外科手术环境状态变量中的至少一个来确定对话音通信的响应。该方法还包括向远程操作外科手术系统的部件提供命令以实施该响应。远程操作外科手术系统包括操作者输入系统和配置为由操作者输入系统进行操作的远程操作操纵器。远程操作操纵器在外科手术环境中耦接到医疗器械。

在另一实施例中，一种远程操作外科手术系统包括操作者输入系统、配置为由操作者输入系统进行操作的远程操作操纵器以及包括一个或多个处理器的处理单元。该处理单元被配置为识别话音通信，评估话音定位变量，基于话音定位变量识别用于实施响应的子系统，在所识别的子系统的背景中评估话音通信，以及提供命令以实施该响应。

在另一实施例中，一种远程操作外科手术系统包括操作者输入系统、配置为由操作者输入系统进行操作的远程操作操纵器以及包括一个或多个处理器的处理单元。该处理单元被配置为从操作者输入系统处的主离合器开关接收话音使能信号，识别话音通信，评估话音通信，以及提供命令以实施该响应。

应当理解，前面的概述和下面的详细描述本质上都是示例性和说明性的，并且旨在提供对本公开的理解，而不限制本公开的范围。就此而言，根据以下详细描述，本公开的其他方面、特征和优点对于本领域技术人员将是显而易见的。

附图说明

当结合附图阅读时，根据以下详细描述可以最好地理解本公开的各方面。要强调的是，根据行业中的标准实践，各种特征未按比例绘制。实际上，为了讨论的清楚性，各种特征的尺寸可以任意增加或减小。另外，本公开可以在各个示例中重复附图标记和/或字母。该重复是出于简化和清楚的目的，并且其本身并不指示所讨论的各种实施例和/或配置之间的关系。

图1a是根据本公开的实施例的远程操作医疗系统的示意图。

图1b是根据本文描述的原理的一个示例的患者侧推车的透视图。

图1c是根据许多实施例的用于远程操作医疗系统的外科医生的控制台的透视图。

图2示出了使用基于状态的语音识别来进行远程操作医疗程序的方法。

图3示出了使用基于状态的语音识别来利用远程操作系统进行远程操作程序的方法。

图4示出了通过发起语音识别使能信号以使用远程操作系统来进行远程操作程序的方法。

图5是远程操作医疗系统的示意图，该远程操作医疗系统包括响应于语音识别系统并与之通信的多个离散子系统。

具体实施方式

为了促进对本公开原理的理解，现在将参考附图中示出的实施例，并且将使用特定语言来描述它们。然而，应理解并不意欲限制本公开的范围。在本发明的各方面的以下详细描述中，阐述了许多具体细节以便提供对所公开实施例的透彻理解。然而，对于本领域技术人员将显而易见的是，可以在没有这些具体细节的情况下实践本公开的实施例。在其他情况下，没有详细描述众所周知的方法、程序、部件和电路，以免不必要地使本发明的实施例的各方面模糊。

如本公开所属领域的技术人员通常会想到的，对所描述的装置、器械、方法的任何改变和进一步修改以及本公开的原理的任何进一步应用都是可以预期的。特别地，完全预期的是，关于一个实施例描述的特征、部件和/或步骤可以与关于本公开的其他实施例描述的特征、部件和/或步骤组合。另外，本文提供的尺度用于特定示例，并且可以预期的是，可以利用不同的尺寸、尺度和/或比率来实现本公开的概念。为了避免不必要的描述性重复，可以根据其他说明性实施例的适用来使用或省略根据一个说明性实施例描述的一个或多个部件或动作。为了简洁起见，将不单独描述这些组合的许多迭代。为了简单起见，在某些情况下，在所有附图中使用相同的附图标记指代相同或相似的部分。

下面的实施例将根据各种器械和器械的部分在三维空间中的状态来描述各种器械和器械的部分。如本文所用，术语“位置”是指对象或对象的一部分在三维空间(例如，沿笛卡尔x、y、z坐标的三个平移自由度)中的方位。如本文所用，术语“取向”是指对象或对象的一部分的旋转放置(三个旋转自由度，例如，滚动、俯仰和偏航)。如本文所用，术语“姿态”是指对象或对象的一部分在至少一个平移自由度中的位置以及该对象或对象的一部分在至少一个旋转自由度中的取向(最多六个总自由度)。如本文所用，术语“形状”是指沿对象测量的一组姿态、位置或取向。

参考附图的图1a，用于例如包括诊断、治疗或外科手术程序的医疗程序的远程操作医疗系统通常由附图标记10指示。如将描述的，本公开的远程操作医疗系统由外科医生的远程操作控制。在替代实施例中，远程操作医疗系统可以由被编程为执行程序或子程序的计算机的部分控制。在其他替代实施例中，由被编程为执行程序或子程序的计算机完全控制的全自动医疗系统可以用于执行程序或子程序。如图1a所示，远程操作医疗系统10通常包括安装到手术台o或其附近的远程操作组装件12，患者p位于手术台o上。远程操作组装件12可以被称为患者侧推车。医疗器械系统14和内窥镜成像系统15可操作地耦接到远程操作组装件12。操作者输入系统16允许外科医生或其他类型的临床医生s查看外科手术部位的图像或表示外科手术部位的图像并控制医疗器械系统14和/或内窥镜成像系统15的操作。

操作者输入系统16可以位于外科医生的控制台，该控制台通常与手术台o位于同一房间。但是，应该理解，外科医生s可以位于与患者p不同的房间或完全不同的建筑物。在各种实施例中，远程操作医疗系统可以包括一个以上的操作者输入系统16和外科医生的控制台。在各种实施例中，操作者输入系统可以在包括平板电脑或膝上型计算机的移动通信装置上可用。操作者输入系统16通常包括一个或多个控制装置，以用于控制医疗器械系统14。(一个或多个)控制装置可以包括任意数量的各种输入装置中的一种或多种，例如手柄、操纵杆、轨迹球、数据手套、扳机枪、脚踏板、手动操作控制器、话音识别装置、触摸屏、人体运动或存在传感器等。在一些实施例中，将向(一个或多个)控制装置提供与远程操作部件的医疗器械相同的自由度，以为外科医生提供远程呈现，即，(一个或多个)控制装置与器械是一体的感知，使外科医生具有直接控制器械的强烈感觉，就像在外科手术部位一样。在其他实施例中，(一个或多个)控制装置可以具有比相关联的医疗器械更多或更少的自由度，并且仍然为外科医生提供远程呈现。在一些实施例中，(一个或多个)控制装置是手动输入装置，其以六个自由度移动，并且还可以包括用于致动器械的可致动手柄(例如，用于闭合抓紧的夹爪末端执行器，将电位施加到电极，递送药物治疗等)。

当外科医生s通过控制台16查看外科手术部位时，远程操作组装件12支撑并操纵医疗器械系统14。可以通过内窥镜成像系统15(诸如，立体内窥镜)获得外科手术部位的图像，可以通过远程操作组装件12操纵内窥镜成像系统15以定位内窥镜15。控制系统20可以用于处理外科手术部位的图像，以便随后通过外科医生的控制台16显示给外科医生s。一次使用的医疗器械系统14的数量通常取决于诊断或外科手术程序以及手术室内的空间限制等因素。远程操作组装件12可以包括一个或多个非伺服控制的链路的运动学结构(例如，可以手动定位并锁定在适当位置的一个或多个链路，通常称为安装结构)和远程操作操纵器。远程操作组装件12包括驱动医疗器械系统14上的输入的多个马达。这些马达响应于来自控制系统(例如，控制系统20)的命令而移动。马达包括驱动系统，该驱动系统在耦接到医疗器械系统14时可以使医疗器械前进到自然孔口或通过手术产生的解剖孔口中。其他电动驱动系统可以使医疗器械的远端以多个自由度移动，该多个自由度可以包括三个线性运动自由度(例如，沿x、y、z笛卡尔轴的线性运动)和三个旋转运动自由度(例如，绕x、y、z笛卡尔轴的旋转)。另外，马达可以用于致动器械的可铰接末端执行器，以将组织抓紧在活检装置的夹爪中等。器械14可以包括具有单个工作构件的末端执行器，诸如手术刀、钝刀、光纤或电极。其他末端执行器可以包括，例如，钳子、抓紧器、剪刀或施夹器。

远程操作医疗系统10还包括控制系统20。控制系统20包括至少一个存储器24和至少一个处理器22，并且通常包括多个处理器，以实现医疗器械系统14、操作者输入系统16和其他辅助系统26之间的控制，其他辅助系统26可以包括，例如，成像系统、音频系统(包括对讲系统)、流体递送系统、显示系统、移动视觉推车、照明系统、转向控制系统、冲洗系统，和/或抽吸系统。控制系统20还包括编程的指令(例如，存储指令的计算机可读介质)以实现根据本文公开的方面描述的一些或全部方法。虽然在图1a的简化示意图中将控制系统20示为单个框，但是该系统可以包括两个或更多个数据处理电路，其中处理的一部分可选地在远程操作组装件12上或其附近执行，处理的另一部分在操作者输入系统16处执行，等等。可以采用各种各样的集中式或分布式数据处理架构中的任何一种。类似地，编程的指令可以被实现为多个单独的程序或子例程，或者它们可以被集成到本文所述的远程操作系统的许多其他方面。在一个实施例中，控制系统20支持无线通信协议，诸如蓝牙、irda、homerf、ieee802.11、dect和无线遥测。

控制系统20与语音识别系统27通信或包括语音识别系统27。语音识别系统27包括一个或多个麦克风，以便接收来自外科手术环境中的人员(特别是外科医生s)的话音通信。语音识别系统还可以包括一个或多个处理器和一个或多个存储器装置，以便处理由麦克风接收的话音通信。可选地，处理器22和存储器24可以处理由语音识别系统27接收的话音通信。处理器可以包括软件和相关的硬件，以便接收和解释来自外科医生的话音通信并生成适当的相应输出信号。语音识别系统27的麦克风可以紧邻外科医生s或其他外科手术人员放置，以减少提供给处理器的背景噪声量。可选地，一个或多个麦克风可以被安装到由外科医生s或其他外科手术人员佩戴的头戴式耳机上。

语音(speech)识别系统27将由麦克风接收的口头话音通信进行数字化，从而将话音(voice)通信转换为电子形式。使用自然语言处理或其他语音处理技术来分析和解释数字化的单词或声音(sound)。该分析可以包括与存储在语音识别系统的存储器中的或通过内部网络(例如，医疗设施或远程操作系统提供商的安全网络)或外部网络(例如，因特网)可由语音识别系统访问的所识别的单词和声音的库进行比较。

在一些实施例中，控制系统20可以包括一个或多个伺服控制器，该伺服控制器从医疗器械系统14接收力和/或扭矩反馈。响应于该反馈，伺服控制器将信号传输到操作者输入系统16。(一个或多个)伺服控制器还可以传输信号，以指示远程操作组装件12移动(一个或多个)医疗器械系统14和/或内窥镜成像系统15，该医疗器械系统14和/或内窥镜成像系统15经由体内的开口延伸到患者体内的内部外科手术部位。可以使用任何合适的常规或专用伺服控制器。伺服控制器可以与远程操作组装件12分开或集成。在一些实施例中，伺服控制器和远程操作组装件被提供为定位在患者身体附近的远程操作臂推车的一部分。

控制系统20可以与内窥镜15耦接，并且可以包括处理器，以处理捕获的图像以用于随后的显示，诸如显示给位于外科医生的控制台上的外科医生或显示在位于本地和/或远程的另一个合适的显示器上。例如，在使用立体内窥镜的情况下，控制系统20可以处理捕获的图像以向外科医生呈现外科手术部位的协调的立体图像。这样的协调可以包括相对图像之间的对准，并且可以包括调整立体内窥镜的立体工作距离。

在替代实施例中，远程操作系统可以包括一个以上的远程操作组装件和/或一个以上的操作者输入系统。操纵器组装件的确切数量将取决于外科手术程序和手术室内的空间限制等。可以将操作者输入系统并置，或者也可以将它们放置在分开的方位中。多个操作者输入系统允许一个以上的操作者以各种组合方式控制一个或多个操纵器组装件。

图1b是远程操作组装件12的一个实施例的透视图，该远程操作组装件12可以称为患者侧推车。患者侧推车12提供对三个外科手术工具30a、30b、30c(例如，器械系统14)和成像装置28(例如，内窥镜成像系统15)(诸如用于捕获程序的部位的图像的立体内窥镜)的操纵。成像装置可以通过缆线56将信号传输到控制系统20。通过具有多个关节的远程操作机构来提供操纵。成像装置28和外科手术工具30a-30c可以穿过患者身体中的切口被定位和操纵，从而将运动学远程中心保持在切口处以最小化切口的尺寸。外科手术部位的图像可以包括当外科手术工具30a-30c的远端位于成像装置28的视场内时外科手术工具30a-30c的远端的图像。

患者侧推车12包括可驱动基座58。可驱动基座58连接到伸缩柱57，伸缩柱57允许调整臂54的高度。臂54可以包括旋转和上下移动的旋转接头55。每个臂54可以连接到定向平台53。定向平台53可以能够旋转360度。患者侧推车12还可以包括伸缩水平悬臂52，以用于在水平方向上移动定向平台53。

在本示例中，每个臂54连接到操纵器臂51。操纵器臂51可以直接连接到医疗器械30a。操纵器臂51可以是可远程操作的。在一些示例中，连接到定向平台的臂54不是可远程操作的。相反，这些臂54在外科医生18开始用远程操作部件进行操作之前根据期望来定位。

可以以包括刚性或柔性内窥镜的各种配置来提供内窥镜成像系统(例如，系统15、28)。刚性内窥镜包括容纳中继透镜系统的刚性管，该中继透镜系统用于将图像从内窥镜的远端传输到近端。柔性内窥镜使用一个或多个柔性光纤传输图像。基于数字图像的内窥镜具有“尖端上的芯片(chiponthetip)”设计，其中远侧数字传感器(诸如一个或多个电荷耦接器件(ccd)或互补金属氧化物半导体(cmos)器件)存储图像数据。内窥镜成像系统可以向观看者提供二维或三维图像。二维图像可以提供有限的深度感知。三维立体内窥镜图像可以为观看者提供更准确的深度感知。立体内窥镜器械采用立体相机来捕获患者解剖结构的立体图像。内窥镜器械可以是完全可消毒的组装件，其内窥镜缆线、手柄和轴都被牢固地耦接并且被气密密封。

图1c是外科医生的控制台16的透视图。外科医生的控制台16包括左眼显示器32和右眼显示器34，用于向外科医生s提供能够进行深度感知的外科手术环境的协调立体视图。控制台16还包括一个或多个输入控制装置36，输入控制装置36进而促使远程操作组装件12操纵一个或多个器械或内窥镜成像系统。输入控制装置36可以提供与其相关联的器械14相同的自由度，以便为外科医生s提供远程呈现，或者输入控制装置36与器械14是一体的感知，从而使外科医生具有直接控制器械14的强烈感觉。为此，可以采用位置、力和触觉反馈传感器(未示出)，以通过输入控制装置36将位置、力和触觉从器械14传回到外科医生的手部。输入控制装置37是从用户的脚接收输入的脚踏板。

在远程操作期间，外科医生可能需要附加信息，可能需要装备或器械的协助，或者可能寻求解决问题的指导。当前的故障排除或信息收集技术要求外科医生中止外科手术活动以寻求信息或解决问题。例如，如果外科医生在与操作者控制台16接合的同时在医疗器械中遇到限制或阻力，则外科医生可能需要中断外科手术程序，远离操作者控制台，释放控制装置36以在线访问故障排除菜单或手册，否则会延迟该程序并引入相关风险。如下面详细描述的，了解程序和远程操作系统部件的当前状态的语音识别系统可以允许外科医生更有效且更安全地访问信息并对问题进行故障排除。

图2示出了使用基于状态的语音识别来利用远程操作系统10进行远程操作程序的方法100。方法100在图2中被示出为一组操作或过程。不是所有示出的过程都可以在方法100的所有实施例中执行。另外，在图2中未明确示出的一个或多个过程可以被包含在所图示的过程之前、之后、之间或作为其一部分。在一些实施例中，方法100的一个或多个过程可以至少部分地以存储在非暂时性有形机器可读介质上的可执行代码的形式来实现，该可执行代码在被一个或多个处理器(例如，控制系统20的处理器)运行时可以使一个或多个处理器执行一个或多个过程。

在过程102中，由控制系统(例如，控制系统20)识别外科手术环境中的话音通信。更具体地，语音识别系统27可以检测来自外科医生s或外科手术团队的另一成员的话音通信。由语音识别系统27和/或控制系统20对检测到的话音通信进行分析和解释。美国专利号6,591,239(1999年12月9日提交)(公开了“voicecontrolledsurgicalsuite”)公开了一种这样的语音识别系统，该专利文献通过引用整体合并于此。

在过程104中，可以由控制系统20监视和评估各种外科手术环境状态变量200。变量200提供关于外科手术环境中的各种系统、器械、装备、程序和人员的状态的信息。讲话者状态变量202提供关于话音通信的讲话者的信息。讲话者可以是外科手术团队中的任何人，包括外科医生s和/或外科手术人员。关于讲话者的信息可以包括标识信息、训练历史、证书、程序历史、典型的外科手术团队成员、通信偏好、经常使用的方言/行话、人体测量学信息、人体工程学偏好、装备偏好、界面偏好以及讲话者在外科手术环境中的物理位置(包括与系统和器械的接近度)。训练历史可以包括例如用户的模拟器经验和监理员辅助的程序经验的累积记录，包括程序的类型、程序的结果以及程序中发生的任何问题。它还可以包括评估、认证和培训时数的累积记录。可以在用户的每个训练情节之后更新训练历史。证书信息可以包括例如使用系统或使用这些系统访问特定程序的证书或其他权利。证书可以由发布机构(例如培训师、医疗机构(例如，医院、诊所、培训中心))发布。程序历史信息可以包括例如由讲话者执行的程序的累积记录，包括程序的类型、任何用户特质、程序结果以及先前识别的话音通信。程序信息可以包括所执行的程序的数量、所执行的程序的类型、所执行的程序的速度以及先前程序的转换时间。程序信息可以进一步包括用于每个先前程序的系统的软件版本和模型。通信偏好可以包括讲话者能流利使用的语言的记录以及用于音频和/或文本通信的优选语言。通信偏好还可以包括讲话者关于通信传递媒介(例如视觉、听觉、组合的视觉和听觉)和音量设置的偏好。人体测量学信息可以包括讲话者的解剖学测量信息，包括例如视觉的验光测量和任何需要的矫正镜片、眼内间距、高度、重量、利手以及包括听觉或视觉在内的身体限制。人机工程学偏好可以包括讲话者发现最舒适或最有用的操作者控制和器械设置。装备偏好信息可以包括讲话者关于远程操作系统(例如，系统10、器械系统14、用户控制台16)的部件的可选布置、功能和设置的偏好。例如，装备偏好可以包括用于控制台16的优选的手方位和按钮/踏板功能分配。偏好可以包括讲话者针对组装件12相对于患者的优选配置。偏好可以包括优选的器械(例如，器械14)设置，例如消融功率水平、能量、力、扭矩、钉仓和吻合器的利手。偏好可以包括优选的端口布置和臂配置。偏好可以包括优选的功能，例如优选的工作台角度、患者定位预设或显微手术能力。偏好可以包括优选的辅助装备(例如装备26)，其包括：补充成像系统(例如mri、x射线、超声)；视频输入输出；吹气设置(例如，期望压力、最大流速)、音频设置(例如，激活了哪些麦克风、反馈抑制、激活了哪些扬声器、使用话音提示)。用户界面偏好可包括讲话者关于图形用户界面、其他感官显示或内窥镜器械设置的偏好。例如，偏好可以涉及视觉校正和自动聚焦。偏好还可以包括讲话者的优选显示颜色、亮度、对比度、阴影、动态对比度以及使用近红外成像。

讲话者状态变量202还可以包括关于讲话者的语音清晰度的信息。语音清晰度可能会受到语音特征(例如方言、口音或语音障碍)的影响，或者可能受到物理障碍(例如讲话者脸上的外科手术口罩或麦克风失真)的影响。例如，讲话者状态变量可以包括讲话者是否具有以可预测方式影响词语发音的语音障碍，例如r音化(诸如“r”之类的特定辅音的慢性错误发音)。在另一个示例中，讲话者状态变量可以包括讲话者是否戴着外科手术口罩、是否偏爱戴着外科手术口罩和/或在戴着外科手术口罩时语音清晰度是否具有可预测的变化。

程序状态变量204提供关于外科手术程序的信息，例如包括关于在该程序中执行的计划任务顺序、用于执行该程序的常见技术变化、在该程序期间出现的常见问题以及程序中需要的工具更换的信息。程序状态变量204还可以提供信息以跟踪在该程序中使用的装置。例如，程序状态变量可以包括关于在外科手术程序期间放置于患者解剖结构内的夹具、缝合线、其他外科手术装置的方位的信息。

器械状态变量206包括在外科手术程序中过去、当前或将来使用的关于器械(例如，器械14)或多个器械的信息。该信息可以包括器械标识信息、配置、操作设置和常见故障模式。器械状态变量206可以包括关于用于识别器械的替代名称的信息、器械运动范围以及运动学信息(例如器械尖端的当前方位)。器械状态变量206可以包括关于器械当前正在做什么以及与话音通信相关联的命令是否可行或者是否会对患者或外科手术系统的另一部分造成损害的信息。

操纵器状态变量208包括关于远程操作操纵器(例如，操纵器12)的信息，该信息包括例如每个臂的配置、每个臂的运动范围、附接到每个操纵器臂的器械以及操纵器的常见故障模式。变量208还可以包括关于操纵器臂的运动范围以及在手术环境中运动是否被另一物体阻碍的信息。

操作者控制台状态变量210包括关于操作者输入系统(例如系统16)的信息，该信息例如包括关于控制装置36、37的功能分配、与每个控件装置相关联的运动自由度、通过眼睛显示器32、34可见的图像、每个控制装置的移动范围以及控制装置的常见故障模式或操作者输入系统的其他方面的信息。变量210还可以包括关于操作者输入系统中任何讲话者的音量或静音状态、系统中是否正在用双重操作者以及当前正在控制哪个平台的信息。

辅助装备状态变量212包括关于辅助装备(例如系统26)的信息，该信息可以包括关于外科手术环境中使用的成像系统、音频系统、流体输送系统、显示系统、照明系统、转向控制系统、冲洗系统和/或抽吸系统的配置、设置、功率和故障模式信息。

可视化装备状态变量214包括关于内窥镜成像系统(例如，系统15)和任何相关显示系统的信息。该信息可以包括例如关于患者解剖结构中的内窥镜的远端的姿态信息、照明设置、图像处理器设置、放热信息、功率状态、光学配置和常见故障模式。

患者状态变量216包括关于当前患者的信息，该信息例如包括身份、身高、重量、体重指数、性别、外科手术史、病史、当前外科手术口的位置以及患者相对于操纵器的姿态。

员工状态变量218包括关于外科手术环境中的人员的信息，该信息包括身份信息、分配的任务、分配的清单、外科手术环境中的物理方位、训练历史、证书、程序历史、通信偏好、人体测量学信息、人体工程学偏好、装备偏好和界面偏好。

子系统变量219包括关于外科手术环境中的子系统的信息。子系统可以包括例如外科医生控制台16、辅助外科医生控制台、远程操作组装件12、视觉推车或移动计算装置。每个子系统包括其自己的可控装置，这些可控装置包括显示器、扬声器、麦克风、器械和/或电源。识别该子系统允许以与子系统相关的方式来解释话音通信。每个子系统可以与它自己的命令集相关联，使得只有包括相关命令集中的命令的话音通信才可以引起来自该子系统的响应。例如，如果话音命令通俗地提及“臂1”，则可以评估系统状态变量以确定哪个子系统与该标识符相关联，并且系统响应可以指向所确定的子系统。如果话音命令是“交换针头驱动器”，则可以评估系统状态变量以确定哪个子系统包括针头驱动器，并且系统响应可以指向所确定的子系统。

在过程106中，在外科手术环境状态变量200的背景中评估话音通信。更具体地，例如使用变量200中的一个或多个来确定话音通信的含义，回答由话音通信提出的问题，对话音通信中识别的问题进行故障排除，执行在话音通信中作出的命令，解决在话音通信中出现的歧义，识别与话音通信相关联的警告，和/或对外科手术环境中的另一位团队成员提供听觉或文字指令。话音通信的含义可以通过参考单词识别搜索空间或库来确定。基于所评估的外科手术环境状态变量，单词识别搜索空间中的单词可以被升级或优先化以便与话音通信匹配。单词识别搜索空间中的单词与到外科手术系统的各个部件的输出命令相关联。单词识别搜索空间可能受到外科手术状态变量的约束，因此在确定响应时可以从考虑中消除与变量约束不相关的系统响应。

在外科手术环境状态变量的背景中评估话音通信可以包括基于变量来限制单词识别搜索空间。例如，如果对器械外科手术状态变量的评估表明外科手术空间中的器械仅是抓紧器和烧灼剪，则可以从单词识别搜索空间中删除术语“密封器”，以避免术语“剪刀(shears)”和“密封器(sealer)”之间的混淆。作为另一示例，如果对器械外科手术状态变量的评估表明正在使用单极弯曲铰剪，则可替代的名称和已知行话(例如“mcs”、“铰剪”、“剪刀”、“热剪”和“烧灼剪”)被优先考虑为与所识别的话音通信可能匹配。

在外科手术环境状态变量的背景中评估话音通信还可以包括评估部分语音，包括名词、动词和指示代词(例如“这个”和“那个”)。例如，如果外科医生询问“这个有什么问题？”，同时用右手用户控制装置示意时，术语“这个”可以在用于与右手用户控制装置相关联的操纵器臂的操纵器状态变量、用于附接到与右手用户控制装置相关联的操纵器臂的器械的器械状态变量以及用于右手用户控制以解决由右手用户控制装置控制的器械的控制链中的潜在问题的主控制台状态变量的背景中进行评估。作为另一示例，如果外科医生询问“那个有什么问题？”，同时用右手用户控制装置示意以指向由左手用户控制装置控制的器械，则术语“那个”可以在用于与左手用户相关联的操纵器臂的操纵器状态变量、用于附接到与左手用户控制装置相关联的操纵器臂的器械的器械状态变量以及用于左手用户控制以解决由左手用户控制装置控制的器械的控制链中的潜在问题的主控制台状态变量的背景中进行评估。

在外科手术环境状态变量的背景中评估话音通信还可以包括评估内部定向指令(例如，“达芬奇，使屏幕更亮”)和外部定向指令(例如，“护士，重新装载吻合器”)。指令的内部或外部性质可以通过起头的关键词来识别，例如“达芬奇”(指示对远程操作控制系统的命令)或“护士”(指示对外科手术人员的命令)。可替代地，可以省略起头的关键词，并且可以通过查看诸如变量218、204、206之类的外科手术变量来确定指令的内部或外部性质，以确定哪些命令需要系统或人类动作。

在外科手术环境状态变量的背景中评估话音通信还可以包括在语音清晰度因素的背景中评估话音通信。可以开发语音识别算法以识别和/或校正由于语音清晰度引起的错误。例如，当评估话音通信时，系统可以基于讲话者是戴着口罩还是习惯戴口罩在多个语音识别模型之间进行选择。用于口罩佩戴者的语音识别模型可以补偿在某些单词开始时话音低沉或辅音掉落的影响。在各种实施例中，系统可以使用两个语音识别模型来评估语音，并自适应地选择生成更准确的语音识别的模型。准确性可以基于外科手术背景。例如，由于外科手术背景，“臂(arm)”和“农场(farm)”之间的歧义可以决定为“臂”。准确性也可以基于程序背景。例如，基于外科手术程序的状态，“重新定位患者”可能是比“重新定位站点”更合适的解释。准确性也可以基于语法或含义。例如，“引入小袋(introducethepouch)”在语法上可能比“引入扣环(introducetheouch)”更可取。

在过程108中，基于一个或多个外科手术环境状态变量来确定对识别的话音通信的系统响应。可以将适当的系统响应确定为例如控制器械的运动的命令，控制操纵器臂的运动的命令，控制辅助装备的操作的命令，对内窥镜进行调整的命令，向外科手术人员或其他用户发送文本或话音通信的命令，更新患者记录的命令，向讲话者提供一个或多个后续查询(例如，通过话音或文本通信)以解决原始话音通信中的歧义或澄清/确认原始话音通信的命令。确定该系统响应可以包括基于与多个候选响应相关联的置信因素来依次开发和呈现响应于讲话者的系统选择。

在过程110中，用一个或多个命令来实现对外科手术系统的一个或多个子系统所确定的系统响应。例如，所确定的系统响应可以通过以下命令来实现：控制器械的命令112，控制给用户(包括不存在于外科手术区域中的用户)的文本或听觉通信的命令114，控制操纵器臂的命令116，控制用户控制装置的命令118，控制辅助装备的操作的命令120和/或控制包括内窥镜的可视化装备的命令122。

下面提供方法100的多个示例。

在一个示例中，如果接收到话音通信“太暗”，则与可视化装备214相关联的外科手术状态变量被估计和评估。与已识别的话音通信相关联的系统响应的选项可以包括增加内窥镜的照明或调整数字图像处理器以增加亮度。因为变量214还包括关于照明器的远端的姿态的信息，所以适当的响应可以由照明器的远端与患者组织之间的距离来确定。如果距离大于预定阈值，则执行增加照明器亮度的命令可能是适当的，但是如果距离小于预定阈值，则增加照明器的亮度可能会产生热量，从而会使患者组织干燥或烧伤。在这种情况下，调整数字图像处理器以增加向讲话者显示的图像的亮度可能更合适。

在另一示例中，如果接收到话音通信“听不到我的助手”，则动词“听”与各种听觉相关的变量相关联，包括讲话者202、主控台210、辅助装备212以及人员218。例如，可以评估与外科手术人员218相关联的外科手术状态变量，以确定指示了一个或多个说话的外科手术人员中的哪一个。可以评估与讲话者相关联的外科手术状态变量，以确定讲话者是否具有已知的听力缺陷。可以评估与主控台210相关联的外科手术状态变量，以确定是否可以调整外科医生使用的扬声器的音量设置。可以评估与辅助装备212相关联的外科手术状态变量，以确定工作人员的麦克风是静音还是可调整的。

在另一示例中，如果接收到话音通信“改变臂1上的剪刀”，则在包括程序204和器械206、操纵器208的多个外科手术状态变量的背景中评估与“改变”、“剪刀”和“臂1上”相关联的变量。例如，可以评估外科手术状态变量206和208，以确定剪切器械是否已耦接到臂1，或者讲话者在使器械与操纵器臂相关联时是否犯了错误。如果没有错误，则已实施的响应可能是命令剪刀弹出。如果出现错误，则所实施的响应可以是在显示器上将正确的臂与耦接的剪刀突出显示给讲话者，并向讲话者询问，以确认突出显示的臂是否是在其上实施工具弹出的合适臂。如果对程序状态变量204或器械状态变量206的评估表明该器械当前正在抓取患者组织，则由于患者安全考量，所实施的响应可以是拒绝执行讲话者命令，或者所实施的响应可以是在命令操纵器臂弹出器械之前命令器械释放被抓的组织。如果话音通信命令患者手术台移动，则可能发生类似的评估。如果所评估的状态变量指示器械当前正在抓取组织，则可以拒绝移动患者手术台的命令，或者可以首先执行组织释放命令。

在另一示例中，如果接收到话音通信“器械将不会正确移动”，则在包括程序204、器械206、操纵器208、可视化装备214和主控台210的多个外科手术状态变量的背景中评估与“器械”和“将不会正确移动”相关联的变量。例如，对操纵器变量208的评估可以指示两个操纵器臂已经彼此接触，或者操纵器臂之一的运动受到外科手术环境或运动限制范围内的另一件装备撞击。可替代地，对主控台变量210的评估可以指示操作者控制装置正试图移动到允许的运动范围之外，或者当前双控制台系统中的另一操作者具有控制权。可替代地，对器械变量206的评估可以指示器械没有与操纵器臂正确地接合，或者所尝试的运动在器械运动范围之外。可替代地，对程序变量204、操纵器变量208和/或可视化装备变量214的评估可以指示内窥镜操纵器臂被激活(例如，被离合)，从而停用其他器械臂。如果变量的评估确定操纵器臂彼此接触，则确定并实施的系统响应可以是掌控操纵器臂并重新调整，更改到不同的内窥镜观察角度，调整或创建新的进入端口，在操纵器臂之间交换器械，或者在端口之间交换操纵器臂。

在另一示例中，如果接收到话音通信“esu不起作用”，则缩写esu可以被识别为是指电外科手术单元(例如，辅助装备的类型)。可以评估与电外科手术单元相关联的变量212、210，以确定是否存在向该单元提供的电功率；该功率是否为命令的程序设置得不够高；操作者控制台上的脚踏板控制是否发生故障；效果等级是否尚未设置并因此默认为零；器械和esu之间的电源线是否连接好；或者在控制台查看器上未检测到操作者的头部时是否致动能量踏板。

在另一示例中，如果接收到话音通信“校正颜色”，则可以评估与颜色相关联的变量，包括患者214和可视化装备214。例如，对患者变量214的评估可以指示患者肥胖，这允许系统识别出存在脂肪组织，该脂肪组织经常以橙色色调出现。所确定的系统响应可以是数字地调整图像处理器上的颜色设置。

在另一示例中，如果话音通信是针对外科手术人员中的一个或多个成员的一组指令，则可以评估与人员218和程序204相关联的变量以确定该指令向谁发送、被发送指令的工作人员的位置以及指令应该被存储或显示在哪里。所确定和实施的系统响应可以是生成指令日志，该指令日志以电子方式被发送给外科手术人员的一个或多个成员或可以由该一个或多个成员访问。如果外科手术人员的成员配备了移动装置(例如，手机、平板电脑装置)，则可以跟踪该移动装置在外科手术环境中的存在，并且如果未检测到该移动装置(例如，外科手术人员已经离开房间)，则指令可以被传输到语音邮件或转录为文本消息，然后发送到移动装置。

图3示出了用于利用远程操作系统10来使用基于状态的语音识别(特别是话音定位变量)进行远程操作程序的方法300。方法300在图3中被示出为一组操作或过程。在方法300的所有实施例中可以不执行所有示出的过程。另外，在图3中未明确示出的一个或多个过程可以被包含在图示的过程之前、之后、之间或作为其一部分。在一些实施例中，方法300的一个或多个过程可以至少部分地以存储在非暂时性有形机器可读介质上的可执行代码的形式来实现，该可执行代码在由一个或多个处理器(例如，控制系统20的处理器)运行时可以使一个或多个处理器执行一个或多个过程。

在过程302中，由控制系统(例如，控制系统20)识别外科手术环境中的话音通信。更具体地，语音识别系统27可以检测来自外科医生s或外科手术团队的另一成员的话音通信。由语音识别系统27和/或控制系统20对检测到的话音通信进行分析和解释。

在过程304中，评估话音定位变量312。话音定位变量可以是例如讲话者状态变量202。话音定位变量可以是提供指示讲话者在系统10的外科手术环境内或相对于外科手术环境中的装备或器械的位置的任何信息。例如，定位变量314是由空间上分离的麦克风阵列捕获的一组音频音量。讲话者相对于阵列中的麦克风的已知方位的位置可以通过比较阵列中的每个麦克风在给定时间检测到的音频音量来确定。例如，由阵列中的一个麦克风检测到的较大声音可以表明讲话者与同时检测到较安静声音的另一个麦克风相比更靠近该麦克风。时延测量也可以指示接近度，因此可以用作话音定位变量。附加地或替代地，定位变量316是与系统10中的装备相关联的存在传感器(presencesensor)。例如，存在传感器可以是头戴式存在传感器，其检测用户的头部处于适当位置以操作外科医生的控制台16。附加地或替代地，定位变量318是机器视觉信息。例如，机器视觉系统可以包括相机系统，该相机系统观察每个麦克风附近的场地。假定相机和麦克风具有相似的几何形状以进行采集，使得麦克风不会拾取基本上在相关相机的视野范围外的话音。相机系统连续获取并处理图像，以将图像中明显的特征与面部或面部特征的通用模板进行匹配，以确定图像中是否存在有人的高可能性。机器视觉还可以用于通过与每个人的一组代表性面部图像进行比较来识别与每个麦克风相关联的图像中的特定个体。在其他实施例中，可以根据耦接到讲话者的传感器或标识符(例如，射频识别标签、光学传感器或电磁方位传感器)来确定定位变量。

在过程306中，从话音定位变量中识别用于提供对话音通信的响应的系统10的子系统。该子系统可以包括例如外科医生控制台16、辅助外科医生控制台、远程操作组装件12、视觉推车或移动计算装置。每个子系统包括其自己的可控装置，包括显示器、扬声器、麦克风、电源。识别该子系统允许以与子系统相关的方式来解释话音通信。每个子系统可以与它自己的命令集相关联，使得仅包括相关联的子集中的命令的话音通信可以引起来自子系统的响应。

在过程308中，在所识别的系统的背景中评估话音通信。例如，如果对话音定位变量的评估表明讲话者位于患者侧而不是在外科医生控制台处，则请求外科手术图像的话音通信可以使图像显示在患者侧视觉推车上，而不是显示在外科医生控制台处。随后用于控制显示器亮度或缩放功能的话音通信将被应用于患者侧推车上的图像，而不是讲话者看不见的其他显示器。在另一示例中，话音通信可以用于传递所识别的系统的控制。例如，可以将诸如“对臂1进行控制”或“对所有臂进行控制”的话音通信评估为将控制权限转移到检测到语音的控制台子系统的命令。类似地，在双操作者控制台配置中，可以将话音通信“将控制提供给另一个控制台”或“将控制提供给jones医生”评估为将控制从检测到语音的控制台子系统转移到第二子系统或jones医生登录的控制台子系统的命令。

在所识别的子系统的背景中评估话音通信还可以包括评估诸如“这个”和“那个”之类的指示代词。例如，如果外科医生问“这个有什么问题？”，同时该外科医生实际位于显示系统附近，则除了显示系统的最新活动和显示系统的设置以外，术语“这个”还可以在讲话者的位置的背景内进行评估。因此，系统可能会解决与显示系统有关的潜在问题，例如电源状态、亮度、显示的图像等。

在过程310中，通过所识别的子系统基于话音定位变量来实现对话音通信的响应。取决于子系统的响应可以限于与子系统相关联的命令集。例如，取决于子系统的响应可以包括用于以下操作的命令：授权控制子系统或附接到子系统的器械；更改设置(例如，显示亮度、音频音量)；使对讲麦克风静音/取消静音；显示或隐藏状态消息；设置子系统值(例如照明水平或注气压力)；检索数值(例如注气压力或温度)；调整数值(例如显示亮度或扬声器音量)；启动配置(例如，设置配置)；设置显示模式(例如，平铺显示、荧光图像、单眼、立体)；检索状态(例如，时钟时间、经过的时间、记录开/关状态)；进行故障排除(例如“为什么我不能移动此器械”)；获知系统消息(例如，确认警告消息的内容)；进行器械更换(例如，弹出工具、松开手柄、交换臂)；执行另一种离散动作(例如，翻转内窥镜角度、水平移动视图、拍摄图像、注释图像、开始/停止记录、调整缩放、调整相机方位、调整主/从比例)；或者执行高级控件(例如，手术台运动、优化操纵器方位、启动人体工程学设置)。实施该响应还可以包括禁用与未识别的子系统相关的部件。

图4示出了用于利用远程操作系统10通过发起语音识别使能信号来进行远程操作程序的方法400。方法400在图4中被示出为一组操作或过程。在方法400的所有实施例中可以不执行所有示出的过程。另外，在图4中未明确示出的一个或多个程序可以包括在图示的过程之前、之后、之间或作为其一部分。在一些实施例中，方法400的一个或多个过程可以至少部分地以存储在非暂时性有形机器可读介质上的可执行代码的形式来实现，该可执行代码在由一个或多个处理器(例如，控制系统20的处理器)运行时可以使一个或多个处理器执行一个或多个过程。

在过程402中，接收语音识别系统使能信号。语音识别系统使能信号可以是例如口语触发词或物理触发器的接合。例如，可以接合现有的主离合器手指开关以启用语音识别系统。主离合器手指开关可以位于输入控制装置36之一上。主离合器手指开关的典型功能是中断将主控制运动与伺服运动链接起来的控制回路。这种中断允许重新定位控制装置。在这种背景下，主离合器手指开关的激活可以具有次要效果，即启用语音识别系统。可选地，在激活主离合器手指开关之后，可能还需要非典型动作或动作缺失来启用语音识别系统。例如，典型地，在主离合器手指开关的激活之后是控制装置36的重新定位。如果经过预定的时间段而没有控制装置36的运动，则主离合器手指开关的激活可以被识别为启用语音识别系统的信号。可替代地，语音识别系统可以在主离合器被致动时被激活，但是当控制系统观察到控制装置的位移超过阈值位移值时暂停激活(即，忽略语音)。在主动主离合器运动期间忽略话音通信可以防止对错误或无意的语音采取行动，同时也可避免在检测到部分或无法识别的语音的情况下产生错误反馈。在其他实施例中，可以提供听得见的音调以警告用户语音识别系统已启用并正在收听。在一些实施例中，在语音识别系统被启用并收听时，将主离合器手指开关保持在激活状态。

在过程404中，由控制系统(例如，控制系统20)识别外科手术环境中的话音通信。更具体地，语音识别系统27可以检测来自外科医生s或外科手术团队的另一成员的话音通信。由语音识别系统27和/或控制系统20对检测到的话音通信进行分析和解释。

在过程406中，实施对话音通信的响应。在各种实施例中，实施该响应可以包括抑制系统10的其他部件。例如，当在外科医师控制台16处激活主离合器手指开关时，可以抑制外科手术套件对讲系统，以便旨在提供系统话音控制的口头话音通信不被广播给在外科手术环境中的人员。这种抑制避免了外科手术人员的困惑，并降低了外科手术人员听到命令并试图采取相应行动的风险。在另一替代方案中，专用开关可以激活能够检测话音通信的菜单系统。

图5示出了包括多个离散子系统502、504、506、508、510的远程操作系统医疗系统500的示意图，这些离散子系统响应于包括语音识别系统514(例如，系统27)或与语音识别系统514通信的控制系统512(例如，系统20)并与之通信。子系统502、504、506可以是例如基本上类似于远程操作组装件12的远程操作组装件，并且可以包括一个或多个远程操作臂。子系统508、510可以是例如基本上类似于输入系统16的操作者输入系统。附加的或可替代的子系统可以包括显示系统、移动计算装置或辅助系统(例如，系统26)。系统500的操作者可以发布由语音识别系统514识别的话音命令(如先前针对系统27所述)。基于所识别的话音命令，子系统502-510可以被离散地操作。例如，识别出的“弹出臂1”的话音命令可以使控制系统512在子系统502处启动从远程操作操纵器弹出器械，该子系统被识别为包括“臂1”。基于所识别的话音命令，子系统502-510中的一个或全部可以组合起来操作。例如，识别出的话音命令“优化定位”可以使控制系统512同时或顺序地将子系统502、504、506的远程操作操纵器的臂移动到被确定为对于当前远程操作程序最佳的方位和取向。

可以仅在触发词的背景中或与外科手术环境状态变量一起评估所识别的话音通信。例如，触发词“臂1”、“臂2”和“臂3”可以分别与子系统502、504、506相关联，以便将在所识别的子系统的背景中评估包括那些单词的话音命令，并且将在所识别的子系统的背景中实施响应。可替代地，可以在外科手术环境状态变量(包括与子系统502-510相关联的那些变量)的背景中对所识别的话音通信进行全面评估。例如，对外科手术状态变量的系统监视允许在外科手术状态变量的背景中评估所识别的话音通信。如果操作者命令“交换针头驱动器”，则受监视的系统状态变量将指示哪个子系统502-510正在操作针头驱动器，以便在该子系统上实现对命令的响应。如果操作者命令“优化臂方位”，则提供关于每个其他子系统的方位和取向信息的受监视的系统状态变量将生成响应，该响应可以命令多个子系统进行调整。

本发明的实施例中的一个或多个元件可以在用于在诸如控制处理系统的计算机系统的处理器上执行的软件中实现。当以软件实现时，本发明的实施例的元件本质上是用以执行必要任务的代码段。程序或代码段可以被存储在处理器可读存储介质或装置中，该处理器可读存储介质或装置可以通过在传输介质或通信链路上以载波形式体现的计算机数据信号来进行下载。处理器可读存储装置可以包括可存储信息的任何介质，包括光学介质、半导体介质和磁介质。处理器可读存储装置的示例包括：电子电路；半导体装置、半导体存储器装置、只读存储器(rom)、闪存、可擦可编程只读存储器(eprom)；软盘、cd-rom、光盘、硬盘或其他存储装置。可以经由计算机网络(诸如互联网、内联网等)下载代码段。

注意，所呈现的过程和显示可以不是固有地与任何特定计算机或其他装置有关。各种通用系统可以与根据本文的教导的程序一起使用，或者可以证明构造更专用的装置来执行所描述的操作是方便的。各种此类系统所需的结构将作为权利要求中的元素出现。另外，没有参考任何特定的编程语言来描述本发明的实施例。应当理解，可以使用各种编程语言来实现如本文所述的本发明的教导。

尽管已经描述并且在附图中示出了本发明的某些示例性实施例，但是应当理解，这样的实施例仅是示例性的，而不是限制本发明，并且本发明的实施例不限于示出和描述的特定构造和布置，因为本领域普通技术人员可以进行各种其他修改。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：B·D·伊特科维兹;J·M·阿散尼欧斯;C·R·伯恩
技术所有人：直观外科手术操作公司
我是此专利的发明人

上一篇：一种新型井盖和基于互联网的快速更换施工工法的制作方法
上一篇：一种探伤检测的井盖自动更换设备的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、司老师：1.制浆造纸 2.植物资源精细化工与化学 3.生物质精炼 4.天然产物化学
2、薛老师：1.CRISPR-Cas系统 2.基因编辑 3.基因修复 4.天然产物合成 5.单分子技术开发与应用
3、戴老师：1.天然药物（中药）合成生物学研究 2.酵母生物学与工程化研究
4、孟老师：1. 基于糖类的抗肿瘤药物的合成和活性评价及糖类疫苗的研制 2.功能糖类的化学酶法合成及构效关系研究 3.多糖及仿生材料功能的开发及应用
5、满老师：1.天然产品的提取分离与活性研究 2.天然产物活性与安全性评价 3.中药组方配伍机制研究
如您是高校老师，可以点此联系我们加入专家库。