用于电子显微镜的全自动、无模板粒子拾取的制作方法

文档序号:20605084发布日期:2020-05-01 22:01阅读:229来源:国知局
用于电子显微镜的全自动、无模板粒子拾取的制作方法

关于联邦资助的研究或开发的声明

本发明是在国家卫生研究院授予的gm090200号拨款和空军科学研究办公室授予的fa9550-12-1-0317号拨款的政府支持下完成的。政府对本发明有一定的权利。

相关申请

本申请声明了于2017年6月13日提交的题为“mappingheterogeneousortime-varyingobjectsusinglow-ordermoments(使用低阶矩映射异构或者时变对象)”的美国临时申请no.62/518,975以及于2018年1月5日提交的题为“fullyautomatictemplate-freeapproachtoparticlepickinginelectronmicroscopy(用于电子显微镜中的粒子拾取的全自动无模板方法)”的美国临时申请no.62/614.007的权益,两者的全部内容通过引用并入本文。



背景技术:

本发明涉及用于识别包含粒子的溶液图像中的粒子的二维投影的系统和方法。



技术实现要素:

在一些实施方式中,本文所描述的系统和方法提供用于在电子显微镜中使用的全自动、无模板粒子拾取。特别是,所公开的过程允许在低温电子显微镜(cryo-em)中所获得的显微照片中识别嘈杂、二维的粒子投影。在一些实施方式中,这些方法使用全自动的框架,该框架利用由互相关函数收集的信息。然而,在本文所描述的一些实施方式中,自动互相关方法不需要模板。

粒子拾取是单粒子cryo-em的计算管道中关键的第一步。从所捕获的包含相同类型的粒子的多个实例的溶液的显微照片中选择粒子可以是困难的——尤其是对于低对比度的小粒子。由于使用cryo-em的粒子的高分辨率的重建可以需要几十万个粒子,因此手动识别显微照片图像中的粒子投影和手动选择粒子是不切实际地耗时的。另一种选择可以是使用半自动方法从显微照片图像中选择粒子。然而半自动方法可能受到手动偏见的困扰并且可能仍过分的耗时。本文所描述的示例通过提供快速、准确和全自动的粒子拾取来避免这些问题。这些示例中的一些是完全无模板的,并且使用在强度和方差(variance)提示上训练的核支持向量机(svm)分类器以用于自动粒子识别。

识别二维显微照片中粒子投影的一种方法可能是使用输入模板。互相关函数的峰(即,在显微照片和模板之间)指示粒子投影的位置。相反,在下面的示例中所描述的无模板方法使用从显微照片中自动收集的窗口的训练集合。为了对查询窗口的内容进行分类,使用任何查询窗口与训练集合的响应(依据归一化的互相关)。一旦覆盖整个显微照片的部分重叠的查询窗口的集合已经被分类,最有可能包括粒子投影的窗口集合和最有可能包括噪声的窗口的集合被用来训练svm分类器。然后分类器被应用于显微照片的每个可能窗口,并向每个窗口的中心像素提供分类。这样,显微照片被分割成粒子投影区域和噪声区域。此外,尽管下面所描述的示例在单粒子cryo-em中利用粒子拾取技术(例如,从随机噪声中分离信号),该技术也可应用于广泛的成像应用,例如图像去噪。

与模板匹配方法不同,本文所描述的系统和方法是全自动和数据自适应的。在互相关方法的思想背后,观察到在与模板具有相似视图的粒子的存在下,粒子的一些输入模板与显微照片之间的互相关函数被最大化。如果模板图像仅包括噪声(即,不包含粒子),则在噪声存在的下,互相关函数不必要被最大化。这意味着,图像的内容可以从该图像与来自显微照片(或显微照片本身)的异构窗口集合的互相关中被发现。这里的一个优势是用户输入不是必要的。

在一些实施方式中,该方法通过在所捕获的显微照片图像中查找参考窗口的集合而开始。在一些实施方式中,参考集合包含噪声窗口和粒子投影窗口。显微照片被分成几个容器(container)(即矩形非重叠区域),每个容器包含很多不同的重叠的nxn窗口。分析每个容器以识别四个nxn窗口:具有最高平均强度值的窗口、具有最低平均强度值的窗口、从容器作为整体具有最高方差的窗口和具有最低方差的窗口。具有较低的平均强度和较高的方差的窗口通常指示包含粒子投影的窗口,而具有较高的平均强度和较低的方差的窗口通常指示噪声。

然后从显微照片中以查询图像具有一些重叠的方式提取定义数量的查询图像(即尺寸为nxn的窗口)。然后在每个查询图像和每个参考窗口之间计算归一化的互相关函数。在一些实施方式中,对于每个查询图像和每个参考窗口,系统将在多个不同的偏移的每个处(例如,在每个可能的偏移处)计算互相关函数。系统然后将通过移除为查询图像和特定参考窗口计算的所有互相关的平均值来归一化。系统然后计算每个查询图像的响应信号——响应信号由每个参考窗口的信号值组成,并且是查询图像和参考窗口之间的归一化的互相关的最大值。然后基于超过阈值的响应信号(例如,在查询图像和每个不同的参考窗口之间)的条目的数量为每个查询图像计算得分。在一些实施方式中,阈值是基于多个查询图像或者显微照片中所有查询图像的归一化的互相关值计算的。

然后为svm分类器选择训练集合。使用从最高评分的显微照片的查询图像中选择的非重叠图像训练粒子模型。使用从具有相对较低得分的查询图像的显微照片的区域中选择的非重叠图像训练噪声模型。使用粒子模型的训练集合和噪声模型的训练集合训练分类器。一旦训练好,分类器就被应用到整个显微照片图像中,以将显微照片图像的每个像素分类为粒子或者噪声。在一些实施方式中,然后基于邻近粒子像素区域的尺寸和/或与邻近粒子像素的其他区域的距离,从被分类为粒子的显微照片图像的像素中自动选择粒子。

在一些实施方式中,如果邻近粒子像素的区域太大或太近,则将它们忽略。这样做是为了避免将污染物识别为潜在粒子。然而,在其他实施方式中,可以应用附加的过程步骤以主动识别显微照片图像中的一种或多种特定类型的污染物。或者,在应用无模板粒子拾取机制之后,可以使用在无模板过程中识别的粒子作为基于模板的过程的输入模板,对显微照片应用基于模板的粒子拾取机制。

粒子拾取问题是揭示粒子的三维结构和三维结构对cryo-em中很多生物大分子的可能可变性的第一步。因此,在一些实施方式中,本文所描述的粒子拾取过程诸如分类平均、取向估计、三维重建和改进被集成到包含其他组件的cryo-em软件包中。例如,在一些实施方式中,然后使用从显微照片中拾取的粒子用于使用低阶矩映射异构或时变对象。

在一些实施方式中,可以直接从所拾取的粒子的多个测量值计算的求平均的统计来映射(直至对称性)异构对象(例如,对象的集合)。例如,该系统可被配置成从显微照片计算每个拾取的粒子的统计的集合,并且产生对象(或者异构对象)的近似值,并且可选地,所观测的对象实例的分布,其将产生与显微照片中每个所拾取的粒子中所测量的统计大致相同的测量统计。

在一个实施例中,本发明提供了一种用于定位和提取显微照片图像中粒子的多个二维投影的全自动、无模板的方法。由电子处理器接收包含多个第一类型的粒子的样品的显微照片图像,该电子处理器处理显微照片图像以从显微照片图像自动聚集参考图像的集合。通过分析多个部分重叠窗口中的每一个窗口中的图像数据并且与其他窗口相比识别具有满足至少一个统计准则的图像数据的窗口的子集合,来聚集参考图像的集合。然后计算每个参考图像中的图像数据与多个查询图像窗口中的每个中的图像数据之间的互相关。基于该互相关分析,显微照片中的多个位置被自动识别为包含第一类型的粒子的不同实例的二维投影。在一些实施方式中,然后使用来自这些位置中的每个的图像数据以映射第一类型的粒子的三维模型。

考虑到详细描述和附图,本发明的其他方面将变得显而易见。

附图说明

图1是根据一个实施例的用于在包含粒子的多个实例的二维投影的所捕获的图像中拾取粒子的实例的图像处理系统的框图。

图2是用于使用图1的系统识别所捕获的显微照片图像中粒子的多个实例的二维投影的方法的流程图。

图3a是包括一种类型的粒子的多个实例的二维投影的β-半乳糖苷酶显微照片图像。

图3b是应用于图3a的显微照片图像的图2的方法的中间输出,该中间输出识别图3a的显微照片图像中被归类为粒子的一部分的像素。

图3c是应用于图3a的显微照片图像的图2的方法的粒子拾取器的输出,该输出指示在图3a的显微照片图像中自动识别的粒子。

图4a是包括一种类型的粒子的多个实例的二维投影的klh显微照片图像。

图4b是应用于图4a的显微照片图像的图2的方法的中间输出,该中间输出识别图4a的显微照片图像中被归类为粒子的一部分的像素。

图4c是应用于图4a的显微照片图像的图2的方法的粒子拾取器的输出,该输出指示在图4a的显微照片图像中自动识别的粒子。

图5是用于识别用于图2的方法的显微照片图像中的参考集合的方法的流程图。

图6a是根据图5的方法被划分为多个容器的显微照片图像的示例。

图6b是根据图5的方法在图6a的显微照片图像的单个容器中识别的四个参考图像的示例。

图7是用于使用在图5中识别的用于图2的方法的参考集合,计算从显微照片图像中提取的多个查询图像的每个的响应信号得分k(sg)。

图8a是包括粒子的至少一部分的查询图像的响应信号的图。

图8b是图8a的响应信号的直方图。

图9a是不包括粒子的至少一部分的查询图像的响应信号的图。

图9b是图9a的响应信号的直方图。

图10是用于将显微照片图像的每个像素分类为粒子像素或者噪声像素的方法以用于图2的方法的流程图。

图11a是包括相同类型粒子的多个实例的二维投影的显微照片图像的另一示例。

图11b是图11a的显微照片图像,该显微照片图像识别用于确定用于训练图10的方法中的粒子模型的训练数据的集合的具有高响应信号得分的查询图像。

图11c是图11a的显微照片图像,该显微照片图像识别具有高或中等响应信号得分的查询图像-其补集用于确定用于在图10的方法中训练噪声模型的训练数据的集合。

图12是用于使用由图10的方法生成的显微照片的二值分割图像从显微照片图像中识别(即,“拾取”)粒子的用于图2的方法的方法的流程图。

图13a是显微照片图像的另一个示例。

图13b是由图10的方法生成的图13a的显微照片的二值分割图像。

图13c是图13a的显微照片,该显微照片进一步示出了使用图12的方法在图13a的显微照片中已经被自动识别的粒子的二维投影。

图14是用于基于对使用图2的方法在显微照片图像中识别的粒子的多个二维投影的统计分析来映射对象(诸如,例如,粒子)的方法的流程图。

图15是用于基于第一矩和第二矩来映射对象(例如粒子)的方法的流程图,所述第一矩和第二矩是基于使用图2的方法对在显微照片图像中识别的粒子的多个二维投影的分析而确定的。

图16a是真正事实(groundtruth)3d分子和使用图15的方法生成的分子的3d重建的透视图。

图16b是从不同视角的真正事实3d分子和图16a的分子的3d重建的透视图。

具体实施方式

在详细解释本发明的任何实施例之前,应当理解,本发明在其应用中不限于以下描述中所述或在以下附图中所示的构造和组件布置的细节。本发明能够以各种方式实施或实现其他实施例。

单粒子低温电子显微镜(cryo-em)旨在从多个2d投影确定3d样本(如大分子)的结构。为了获得这些2d投影,将包含大分子的溶液冻结在碳膜上的玻璃冰中,从而创建样本网格。电子束然后穿过冰和被冻结在冰中的大分子,创建由成像系统捕获的大分子的2d投影(例如,作为显微照片)。

不幸的是,由于辐射损伤,只有少数成像电子可用于显微照片的创建。结果,显微照片具有低的信噪比。因此,每个显微照片包括噪声区域和大分子的嘈杂2d投影区域。除此之外,显微照片还包含源于诸如碳膜的污染物的非重要信息的区域。

不同类型的区域具有不同的典型强度值。仅包含噪声的显微照片的区域通常比其他区域具有较高的强度值。此外,包含粒子的区域通常比仅包含噪声的区域具有较高的方差。由于此,可以用于投影图像识别的两个提示是图像的均值和方差。

为了在高分辨率下确定3d结构,需要许多投影图像,通常是几十万个。因此,大分子3d重建的第一步包含确定包含微粒的显微照片的区域,而不是包含噪音或污染物的区域。这是粒子拾取步骤。

几十万个2d投影的全手动选择将是乏味和令人望而却步地耗时。可以使用诸如边缘检测或模板匹配的机制开发自动或半自动的方法。模板匹配方案的输入包括显微照片和包含要匹配的2d模板的图像。例如,这些模板可以是手动选择的粒子投影。目的是输出匹配模板的显微照片中的区域。这种方法背后的想法是,模板图像和显微照片之间的互相关在模板存在时较大。然而,这种方法的一个消极限制是高的错误检测率。这个问题源于事实:给定足够的随机数据,无意义的噪声可以被视为模式。

在基于模板的框架的示例中,用户从少量的显微照片中手动选择大约一千个粒子。然后这些粒子图像被分类以生成用于从所有的显微照片中自动选择粒子的较少量的模板图像。然后对这些粒子图像进行分类以识别非粒子。在一些实施方式中,自动分析可以被配置成采用确保任何两个所拾取的粒子的位置不重叠的后处理步骤。或者,系统可被配置成使用预定义的模板,而不使用由用户提供的/识别的模板。

然而,在下面所描述的示例中,系统被配置成实现粒子拾取框架,该框架在不使用手动选择和不包括模板的意义下是全自动和数据自适应性的。系统被配置成使用自动选择的参考窗口的集合,而不是模板。该集合包括粒子和噪声窗口两者。该系统还被配置成通过与自动定义的参考集合的每个窗口的互相关来确定任何查询图像(即,显微照片的较小的区域)中粒子的存在。一旦它们的内容被确定,最可能包含粒子的查询图像和最可能包含噪声的那些查询图像就可以用来训练分类器。该分类器的输出用于粒子拾取。

在一些实施方式中,以下示例中所描述的公式忽略了对比度传递函数(ctf),因为粒子选择过程通过比较从相同显微照片中获取的窗口在单个显微照片级别上执行。不比较不同显微照片上的窗口。由于ctf在整个显微照片中大致相同,在这个水平上可以忽略它的影响。在一些实施方式中,在粒子拾取之前校正ctf,这减少了单个投影的支持,并且可以帮助在附近的粒子投影之间区分。ctf校正也略微增加了粒子相对于背景的对比度。该校正是通过相位翻转完成的,这不改变噪声统计。不管在粒子拾取阶段ctf被处理的具体方式,在重建管道的后来的阶段ctf不被忽略。

图1示出了用于处理所捕获的显微照片图像和自动识别显微照片图像中粒子的2d投影的成像系统的示例。该系统包括通信地耦合到计算机可读的非临时存储器103的电子处理器101。存储器103存储数据(例如,图像数据)和由电子处理器101执行以提供成像系统的功能性——包括例如在下面的方法中所描述的功能性——的指令。尽管图1的示例仅示出单个电子处理器101和单个存储器103,但是在一些实施方式中,系统可以被配置成包括多个电子处理器(例如,图形处理单元(gpu)的处理器阵列)和/或多个不同的存储模块(物理地集成到外壳或远程存储系统)。

电子处理器101还通信地耦合到图像捕获系统105。图像捕获系统105被配置成捕获包含粒子(例如,分子或大分子)的粒子类型的多个实例的样本的图像。在一些实施方式中,图像捕获系统105包括被配置成捕获样本的二维显微照片图像的cryo-em成像系统。在一些实施方式中,电子处理器101被配置成控制图像捕获系统105的操作,而在其他实施方式中,电子处理器101被配置成接收由图像捕获系统105所捕获的图像而不提供任何控制。例如,在一些实施方式中,图像捕获系统105独立于电子处理器101操作,并且由图像捕获系统所捕获的图像由用户直接或间接地传送到电子处理器101和/或存储器103。

电子处理器101还通信地耦合到显示屏幕107,并且被配置成向显示屏幕107提供图像数据,并且使得显示屏幕107输出图像、数据,以及在一些实施方式中,图形用户界面。如下面进一步详细描述的,在一些实施方式中,电子处理器101被配置成使得显示屏107输出从图像捕获系统105接收到的带有注释和/或其他附加信息的一个或多个显微照片图像,该附加信息是由电子处理器101基于对显微照片图像的处理/分析计算的。

图2示出了由电子处理器101执行的用于自动识别从图像捕获系统105接收到的显微照片图像中的粒子的二维投影的方法的示例。在显微照片图像被捕获(步骤201)之后,电子处理器101处理图像以查找参考集合(步骤203),并且从显微照片图像(如下面进一步详细描述)中提取查询图像(步骤205)。电子处理器101然后在查询图像和参考集合之间应用归一化互相关函数(ccf)(步骤207),并且基于由ccf计算的信号响应,计算每个查询图像的信号响应得分k(sg)(步骤209)。基于信号响应得分,电子处理器自动选择特定查询图像(例如,所捕获的显微照片图像的部分)以用作支持向量机(svm)分类器的训练数据(步骤211)。使用自动选择的训练数据训练支持向量机分类器(步骤213),并且然后将该分类器应用于原始显微照片图像以产生将显微照片图像中的每个像素识别为“粒子像素”或“噪声像素”的二值分割图像(步骤215)。基于二值分割图像,电子处理器101然后将图像的部分识别/定义为包含粒子的二维投影(即,“粒子拾取”)(步骤217)。

图3a、3b和3c示出了应用于所捕获的显微照片图像的图2的粒子拾取方法的第一示例。图3a示出了包括多个β-半乳糖苷酶分子的样品的所捕获的显微照片图像的示例。图3b示出了由将显微照片图像的每个像素识别为“粒子像素”或“噪声像素”的图2的方法的支持向量机分类器输出的二值分割图像的示例。图3c示出了基于图3b的二值分割图像由电子处理器101所自动确定的位于粒子的每个二维投影周围的方形框。

图4a、4b和4c示出了应用于所捕获的显微照片图像的图2的粒子拾取方法的另一示例。图4a示出了包括多个klh粒子的样品的所捕获的显微照片图像的示例。图4b示出了由图2的方法的svm分类器输出的二值分割图像,并且图4c示出了基于图4b的二值分割图像由电子处理器所自动确定的位于粒子的每个二维投影周围的方形框。

图5-13c示出了图2的自动、无模板粒子拾取方法的各个步骤的更详细示例。特别地,图5示出了用于定义将在互相关分析中与查询图像一起使用的参考图像的集合的方法。参考图像的集合不必包含显微照片中所有可能的窗口。这将导致不必要的长运行时间。相反,在图5的示例中,从显微照片中选择b窗口的子集合。这些所选择的窗口中的每一个都可能包含粒子或者可能仅包含噪声,而一些窗口也可能包含碳、冰晶或其他污染物。总的来说,所选择的窗口由相当数量的包含粒子的窗口和相当数量的包含噪声的窗口组成。

为了自动选择该子集合,显微照片图像由系统捕获并且接收(步骤501),并且被划分成b/4个不重叠的“容器”。容器是显微照片的一些正方形或矩形部分。每个容器保持许多nxn窗口。图6a示出了被划分成容器的显微照片的示例。然后对每个单独的容器进行分析,以识别容器中将被用作参考集合的一部分的所定义的数量的nxn窗口(步骤505)。分别分析多个部分重叠的nxn窗口的每个窗口以确定是否将窗口用作参考集合的一部分。

应用于窗口的特定分析或使得特定窗口被选择为参考集合一部分的条件在不同的实施方式中可能不同。然而,在图5的示例中,电子处理器计算每个特定容器内的每个窗口的平均强度和方差。如上所述,包含粒子的嘈杂投影的区域通常比仅包含噪声的区域具有较低的强度值和较高的方差。因此,每个容器中平均强度最低的窗口可能包含粒子并且平均强度最高的窗口可能不包含粒子。类似地,每个容器中方差最大的窗口可能包含粒子并且方差最小的窗口可能不包含粒子。因此,图5的方法被配置成在每个单独的容器中识别具有最高平均强度的窗口和具有最低平均强度的窗口(步骤507)。该方法还识别具有最大方差的窗口和具有最小方差的窗口(步骤509)。图6b示出了具有在步骤507和509中所识别的四个“窗口”的单个容器的示例。

对显微照片中的每个容器重复该过程直到在每个容器中的四个参考图像(即,四个窗口)已经被识别为止(步骤511和513)。一旦已经分析/处理了每个容器,定义包括在显微照片的每个“容器”中被识别的四个“窗口”的“参考集合”(步骤515)。

在一些实施方式中(诸如在图5中的示例),参考窗口集合被配置成包含具有噪声的窗口和具有粒子的窗口两者。对于大致对称的粒子(即从每个角度具有类似投影的粒子),任何查询图像将对于包含粒子的每个参考图像具有类似的响应。因此,如果噪声图像不被包括在参考集合中,则响应信号sg将是均匀的而不管g的内容如何。

在定义了参考集合之后(使用图5的方法),显微照片被划分成多个查询图像并且在每个查询图像和每个参考图像之间应用互相关分析。如图7的示例所示,系统被配置成从显微照片中提取m个查询图像的集合。每个查询图像g被定义为相同尺寸(例如,nxn,其中n被选择使得粒子尺寸略大于窗口)。查询图像被定义为具有一些重叠。此外,查询图像的集合一起应该跨整个显微照片。该实践提高了某些查询图像包含噪声而其他的包含粒子的可能性。系统被配置成然后计算每个查询图像的响应信号得分k(sg)(步骤703)。响应信号得分的计算基于对单个查询图像的每个参考图像的归一化互相关函数的应用。

互相关函数(ccf)由下式定义:

cfm,g(x,y)=∑x,∑y′fm(x′,y′)g(x+x′,y+y′)(1)

该函数可被认作与fm,g和偏移(x,y)相关联的得分。在某一偏移下的互相关得分在没有附近的偏移的背景下本身没有多大的意义。为此,我们定义互相关函数上的以下归一化:

我们称这为归一化,因为它将所有的互相关转移到共同的基线。

考虑查询图像g包含粒子的情况。预计当fm包含具有相似视图的粒子时得分cfm,g(x,y)被最大化。在这种情况下,将存在一些偏移(x,y),使得图像fm和g最匹配,并且对于所有其他偏移(x′,y′)cfm,g(x,y)≥cfm,g(x′,y′)。因此,

换言之,预计大并且是正的。在这种情况下,我们说g具有对fm的强响应。

接下来,考虑查询图像g不包含粒子的情况。在这种情况下,不应该存在大大增加任何fm的匹配的任何偏移(x,y)。因此,通常大小相对较小。换言之,g具有对fm的弱响应。

在该示例中,我们定义响应信号sg使得:

在式(4)中定义的响应信号与单个查询图像g相关联。响应信号的每个条目包含与单个参考图像的最大归一化的互相关。因此,响应信号捕获查询图像对参考图像中的每个的响应的强度。可以使用sg来确定g的内容。如果查询图像包含粒子,sg将显示对包含具有类似视图的粒子的参考图像的高响应并且显示对其他参考图像的相对低的响应。因此,sg将有多个峰。另一方面,如果查询图像仅包含噪声,sg将具有相对均匀的内容。这在图8a到9b中演示。图8a是包含粒子的查询图像的响应信号的图(图8b是图8a的响应信号的直方图)。图9a是不包含粒子的查询图像(图9b是图9a的响应信号的直方图)。图8a的响应信号示出几个峰,而图9a的响应信号更均匀/平坦。

尽管基于互相关的方法中误报率高,但这是真实的。确实,包含粒子的查询图像g1对不包含具有类似视图的粒子的参考窗口具有强的响应是可能的。然而,对于大多数参考窗口,将不是这种情况,并且因此sg将保持非均匀。此外,一些不包含粒子的查询图像g2对一些参考图像fm可以有强的响应是可能的。然而,将不会有很多这样的参考图像。因此,响应信号将仍如所预期的相对均匀。

现在返回图7的示例,为了确定每个查询图像g的内容,系统被配置成使用下式检查超过某一阈值的条目的数量:

其中,阈值t是根据响应信号的集合确定的并且被实验地设置为

已知具有高k(sg)的任何查询图像g对大量参考窗口已经具有相对强的响应,并且因此被预计包含粒子。另一方面,具有低k(sg)的查询图像g被预计包含噪声。以这种方式,系统被配置成将k(sg)作为查询窗口g的得分。该得分越高,我们可以越有把握g包含粒子。

在至少一些实施方式中,仅因为系统被配置成检查跨整个显微照片的查询图像的集合,该得分是有用的。代替检查单个查询图像的响应信号的均匀性,该系统被配置成使用整个集合的响应信号来确定阈值,高于该阈值时我们认为响应是强的。因此,在一些实施方式中,没有严格的必要来在参考集合中包括噪声窗口。

再次返回图7,在计算第一查询图像的响应信号得分k(sg)(步骤703)之后,对每个查询图像重复该过程(步骤705、707),直到已经为每个查询图像计算得分为止。在一些实施方式(如图7所示)中,可以确定响应信号阈值得分(步骤709),以区分与粒子对应的查询图像和与噪声对应的查询图像。如果粒子查询图像的得分大于阈值(步骤711),则查询图像可以被标记为包含粒子(步骤713)。相反,如果得分低于阈值,则查询图像可以被标记为包含噪声(步骤715)。

然而,在其他实施方式中,如图10的示例中进一步示出的,每个查询图像的相对得分用于识别将用于训练svm分类器的训练数据的集合。系统被配置成将训练数据的集合定义包括其分类(如粒子或噪声)被给予高置信度的查询图像。如果查询图像的集合被标记为并且我们进一步将用于训练粒子模型和噪声模型的图像的集合分别标记为s1和s2。训练集合是s1∪s2。

s1和s2的选择取决于两个参数τ1和τ2。这些参数定义被认为包括粒子的训练图像的数量(τ1)和可能包含粒子的训练图像的数量(τ2)。识别具有最高响应信号得分k的τ1个查询图像(步骤1001)。这些查询图像将在显微照片中一起形成将用于提取训练集合s1的多个连接的区域(步骤1005)。预计包含伪影的显微照片的区域与单个粒子相比尺寸不同。因此,图10的示例中的系统被配置成使用尺寸作为区分伪影区域和粒子区域的提示。为了避免在我们的训练数据集合中包括包含伪影的图像数据,系统被配置成确定τ1个查询图像的每个连接的区域中的尺寸(例如,像素总数),并且丢弃来自尺寸大于所定义的粒子尺寸阈值的连接的区域的查询图像(步骤1007)。将基于τ1个查询图像的所有的未丢弃图像来定义粒子模型的训练集合(步骤1009)。

为了识别噪声模型的训练数据的集合s2,系统被配置为识别具有最高响应信号得分k的τ2个查询图像(步骤1003)。数量τ2被定义为大于τ1的数量,并且因此,在步骤1003中所选择的查询图像的数量将大于在步骤1001中所选择的查询图像的数量。因此,在步骤1003中所选择的查询图像将包括系统以高置信度确定的包括粒子的所有查询图像和系统以低置信度确定的可能包括粒子的附加查询图像。反过来,在步骤1003中未被选择的查询图像包括具有低响应信号得分并且由系统确定可能包括纯噪声的查询图像的子集合。将被用于训练噪声模型的训练数据的集合s2是从不被包括在τ2个查询图像中的不与τ2个查询图像重叠的所有查询图像的集合中提取的(步骤1011)。

图11a示出了显微照片图像的示例。图11b示出在图11a的显微照片中已经被识别为具有τ1最高k得分的查询图像的窗口,该窗口将用于提取svm分类器的粒子模型的训练数据。最后,图11c示出了在图11a的显微照片中已经被识别为具有τ2最高k得分的查询图像的窗口,该窗口将用于提取svm分类器的噪声模型的训练数据。

在一些实施方式中,根据样品中大分子的浓度(即,投影在显微照片中的粒子数)做出对τ1和τ2的选择。当浓度低时,在显微照片中存在较少的粒子投影。因此,系统能够以合理的确定性确定包含粒子的查询图像较少。另一方面,如果浓度高,在显微照片中存在较多的粒子投影并且将存在更多的可以被确信地确定包含粒子的查询图像。

例如,考虑具有m=20000个查询图像的显微照片。如果已知有许多投影的粒子,我们可以假设例如具有最高k得分的1000个查询图像包含粒子。因此,τ1可以被设置为等于1000。此外,当已知显微照片包含许多投影的粒子时,可能在20000个查询图像中15000个可能包含粒子的一些部分。因此,我们可以假设,未被包含在具有最高k得分的τ2=15000个的图像中的显微照片的区域将是噪声区域。在一些实施方式中,在大分子浓度不高的情形下,τ2的值不如τ1的值重要。

svm分类器的训练集合将由包括向量和标签训练集合中的每个向量xi包含窗口hi∈s1∪s2的均值和方差,并且与标签yi相关联,其中,

训练集合用于训练支持向量机(svm)分类器(步骤1013)。在一些实施方式中,系统被配置成使用高斯径向基函数(rbf)svm。一旦分类器被训练,分类器被应用于整个显微照片,以获得对显微照片中尺寸为nxn的每个可能窗口的预测(步骤1015)。该分类归因于每个窗口的中心像素,并且向粒子像素和噪声像素提供显微照片的分割。分类器的输出是其中每个像素被标记为粒子像素或噪声像素的二值图像(即,二值分割图像)(步骤1017)。

一旦svm分类器已经被训练并应用于显微照片图像以生成二值分割图像,最终的粒子拾取例程应用于所分割的显微照片图像。图12示出了最终粒子拾取例程的一个示例。接收二值分割图像(步骤1201),并且识别“粒子”像素的集群(步骤1203)。每个连接的粒子像素区域/集群可以包含粒子。另一方面,它还可能包含一些伪影。因此,本例中的系统被配置成忽略太小或太大的集群。这可以通过计算集群的尺寸(例如,集群中的像素总数)(步骤1205)和将尺寸与最大尺寸阈值和最小尺寸阈值进行比较(步骤1207)来完成。如果集群的尺寸大于最大尺寸阈值或小于最小尺寸阈值,则该集群被丢弃(步骤1209),并且将不被标记为显微照片中的“拾取的粒子”中的一个。

或者,这可以通过形态学操作来完成。侵蚀是在二值图像上进行的形态学操作,其中来自每个集群的像素被移除。由与集群边界的接近度确定要被移除的像素。这样,侵蚀操作将缩小二值图像的集群。这种缩小可以用来确定包含伪影的集群。当通过大于粒子尺寸的因子收缩时,大的伪影将保留。当通过小于粒子尺寸的因子收缩时,小的伪影将消失。

两个粒子可以被非常紧密地冻结在一起也是可能的。因为这也将使真实的粒子投影失真,距离太近的粒子也被忽视。如图12所示,系统被配置成确定集群的中心ri(步骤1211),并且确定集群的中心与最近的其它集群之间的距离。如果集群的中心与另一集群之间的距离小于阈值距离(步骤1213),则两个集群都被丢弃(步骤1209)。然而,如果特定的集群通过了尺寸和距离测试,则粒子被“拾取”并且粒子在显微照片中的位置由围绕集群的中心定义的框指示(步骤1215)。在一些实施方式中,根据粒子的已知(或假设)尺寸来确定框的尺寸。所定义的框的像素内容是由图12的方法“拾取”的粒子。重复这些步骤,直到显微照片中的所有集群已经被分析。在一些其他实施方式中,一旦通过图12的方法“拾取”多个粒子,使用来自图12中的“拾取的”粒子作为输入模板,将基于模板的粒子拾取算法应用于原始显微照片图像。

图13a、13b和13c示出了图10和12的方法的另一个示例。图13a示出了显微照片图像的示例。图13b示出了由图10的方法生成的二值分割图像的示例。图13c示出了定义多个“拾取的”粒子的图12的方法的最终输出的示例。

如上所述,在一些实施方式中,使用上述系统和方法在显微照片图像中识别的粒子的二维投影的集合可用于映射粒子(例如,以生成粒子的3d数字模型)。异构对象的一个示例是可以出现在许多(可能是连续体)构象中的一个的分子。每次测量(例如,每个所拾取的粒子的二维投影)是在操作(诸如分子的旋转及其向2d图像的投影)的集合中的一个操作应用于对象后的(许多可能实例的)对象的一个实例的(可能是嘈杂和失真的)记录。例如,在一些应用中,每次测量是不同物理分子的投影(每个分子是可能的不同构象的实例),其在未知的旋转方向中观察到(具有附加测量失真和噪声)。在一些情况下,操作和失真的一些参数是已知的。例如,在cryo-em中,每个图像被近似已知的滤波器失真,但是分子在每个特定图像(例如,所拾取的粒子)中的旋转是未知的。假定可能操作的集合是已知的(例如,在任何角度上所有可能的旋转随后是二维投影的操作的集合)。然而,在每次测量中应用的特定操作(例如,投影之前应用的特定旋转)是未知的。对象实例(在可能的对象的集合中)的分布是近似已知的(通常是均匀的)或者是由算法所估计的(达到对象分布的对称性)。

在cryo-em示例中,测量(例如,来自显微照片中的每个所拾取的粒子)是不同分子的图像,这些图像是以不同的方向在薄冰层中被捕获的(通常它们中的许多被记录在相同显微照片中,并且具有附加的失真)。在一些情况下,便于将测量描述为犹如在每次测量中被旋转的相同对象的测量。

在一些实施方式中,系统和/或方法被配置成使用诸如低阶矩的统计,以估计对象或异构对象,并且可选地,直接从统计中估计对象实例的分布(直至对称),而不估计在每次测量中应用的未知操作,并且也不估计每次测量的异构实例。在一些实施方式中,这些统计是对象或异构对象以及对象实例的分布的函数,该函数是基于测量过程的模型推导的。

在一些实施方式中,用于估计对象的方法和系统仅需要一次传递数据,并且可以以流的方式应用,甚至不存储所有数据。该方法的其他一些实施方式可以被配置成使用附加处理,例如,以细化结果或改进数据的预处理。

在一些实施方式中,系统被配置为通过产生对象或异构对象的近似,以及可选地将产生与实际测量(即,从显微照片的所拾取的粒子)的测量统计信息大致相同的测量统计信息的观测到的对象实例的分布。可选地,如在应用中所需要的,可以使用对某些选择操作不变的统计。例如,到某数值精度对某些组操作不变的傅立叶系数的乘积(或等价地,对空间域中的点的值的乘积的统计,在组上平均,诸如对平移进行求平均)。特别地,这种统计可用于多参考对准(mra)问题,其中使用对所测量的信号的平移是不变的特征。

在一些实施方式中,该方法在用于已知为二维和三维分类的任务的低温电子显微镜(cryo-em)和x射线自由电子激光器(xfel)中使用。三维分类是cryo-em领域常用的术语,用于描述用于映射异构结构的多种方法和应用。在本领域中的术语涵盖的其他过程中,它包括将图像分配给不同的类(唯一的或“软”分配)的方法,其中每个类指的是异构对象的不同结构/对象实例。之后通常跟随恢复每个类的异构结构的过程。该术语还隐含地指映射异构对象的其他方法,包括从这里所描述的统计直接映射,和使用这里描述的统计来恢复允许对原始图像分配类的特征(对象的近似映射或对象的其他统计)(这将通常随后是改进过程)。引申而言,该术语指在其他领域应用的类似的过程。

二维分类是cryo-em领域中常用的术语,用于描述用于获得被认为比原始测量失真更小的伪测量的多种方法和应用。在本领域中的术语涵盖的其他过程中,它包括收集大致类似的图像(直到平面内旋转和某些失真)并对它们进行求平均,或者更一般地,组合它们以获得更好的归一化的伪图像,例如通过增加不同图像提供关于不同频率的信息(例如,“类平均”)。该术语还包括“类似”(与类似的方向和异构实例相关联)的聚类图像,这是通常是获取伪测量过程的一部分的操作,诸如所公开的获得伪图像的方法的一个实施例,该伪图像是将产生与测量统计类似的统计的图像的集合。这些伪图像可以直接用于对象的映射(通过从图像映射对象的任何方法,有或没有附加图像),或者作为“模板”帮助聚类其他图像以进行类平均或其他处理。

在二维分类中,伪图像本身是“异构对象”,因为同构对象产生不同的伪图像的集合,每个伪图像表示所应用的操作中的一个的输出,诸如从不同的观看方向的投影。通过扩展,本文对对象的所有引用也应用于异构对象的情况(使得每个伪图像与特定的对象实例和特定的方向近似地相关联)。该方法检索这样的近似伪图像的集合,其目的是使每个伪图像隐含地与一些未知的旋转和异构实例相关联。通过扩展,术语二维分类也指在其他领域中应用的类似过程。

对于描述对象的映射和3d建模的示例,本文中对粒子和异构粒子以及应用于它们的操作的集合的引用可以被扩展到成还覆盖所应用的操作的分布。从测量中可以计算的一些统计取决于对象/异构对象以及所应用的操作的分布而变。例如,在cryo-em中从图像计算出的矩的预计(通常是独立于平面内旋转的统计)取决于对象/超对象、异构对象实例的分布和观看方向的分布(通常直到平面内旋转)。通过扩展所有扩展以包括所应用的操作的分布(可选地,对象实例和所应用的操作的联合分布),来扩展所公开的方法以恢复对象/异构对象。此外,所公开的方法适用于非异构对象的情况,其中统计是在先前工作中还未被处理的应用的操作的分布的函数(例如,仅在旋转的均匀分布的情况下处理cryo-em中的协方差和双频谱,并且所公开的方法将此扩展到旋转的非均匀分布的情况)。

不是所有的统计是分布的函数。例如,可以选择所计算的矩,使得它们对对象的平移是不变的,使它们对所应用的偏移的分布不变。mra中的信号的其他统计是平移分布的函数。在一些应用中,假定操作的分布是近似均匀的,产生更简单的表达式。所公开的方法涉及对象和/或异构对象的估计、异构对象实例的分布(如适用),并且被扩展到所应用的操作的分布的估计(直至对称),不管所应用的操作的分布实际上是实践中所实际计算的还是仅用于计算其他变量的目的。

所公开的方法可用于多个科学或工程应用,其解决了在未知对象的集合的实例上应用的未知操作(从已知的集合中未知的操作)的反问题,其中应用用于估计对象的集合。特别是,该方法对cryo-em和xfel感兴趣,其中检查对象的观看方向是未知的。另一个应用是使用异构和/或移动和/或时变对象的计算机断层扫描(ct)。例如,发生为在机器中的对象呼吸或移动的成像人体的变化是测量异构性的来源。可能这种方法将适用于附加成像技术。

cryo-em中许多现有的方法需要对象的良好的初始估计(可能是低分辨率估计),以产生令人满意的结果。所公开的方法提供了可以通过现有方法进一步改进的初始估计。

一个特定的前瞻性的cryo-em应用,通常被称为二维分类,正在从嘈杂二维投影图像的整个数据集合中估计少量的代表性的投影图像。所公开的方法的一个实施方式如下。首先在所有二维投影的低阶矩上进行求平均。这些矩被设计成对平面内的旋转是不变的。给定所估计的矩,寻找具有那些所求平均的矩的几个代表性的二维投影图像。计算实施例中的一个正使用与下面讨论的实验测试中所描述的方法类似的方法。

cryo-em实验通常包括获取、存储和处理数十万个图像。当前的算法在许多实例中产生不令人满意的结果,并且由于算法需要多次重新访问多图像,因此它们需要重要的计算资源。存在异构对象的应用程序被认为特别具有挑战性。

在各种情况下,所公开的方法降低了数据和计算负载的维度和大小,并且在一些情况下,预计其产生更好的结果。该方法仅需要(但不限于)一次传递数据,并且可以以不需要存储所有数据的流式方式应用。

本发明解决了还未被处理的异构对象的情况。此外,所公开的方法不依赖于所应用的操作上的均匀分布的假设,并且它不仅适用于对平移是完全不变的统计(在双频谱对附录中的讨论的测量的平移是不变的意义上)。公开的方法允许操作的已知分布或分布的估计(隐式或显式)作为估计对象的手段。

图14示出了使用上述技术映射异构对象的一种方法的示例。首先,在应用粒子拾取机制(诸如上面所描述的自动粒子拾取机制)来识别粒子图像的集合(步骤1401)之后,系统从粒子图像的集合估计测量的所求平均的统计(例如,较低的矩),而不必假定对象的先验模型,但是可能结合先前的信息(步骤1403)。系统然后使用多个计算方法中的一个来恢复与计算出的测量的统计一致的异构对象的模型(以及可选的应用于该对象的采样状态和/或操作的分布)(步骤1405)。

与被包括在图像的数据集合中的信息量相比,可能被包括在所估计的低阶矩中的信息是有限的。这可能影响该方法的性能。不变的统计对某些操作是不变的,但不是对所有的操作。例如,为2d图像计算的旋转不变特征对图像的偏移不是不变的。在应用中,图像近似居中,因此效果是有限的。可以通过使用其他算法的产生的估计的随后改进、cryo-em和xfel中估计的标准实践来减轻一些限制。

已在称为多参考对准(mra)的简化模型上对所公开的方法进行了实验测试。在mra中,测量值是周期信号的嘈杂周期性平移实例。非异构情况下的模型是cryo-em和xfel的测量过程的简化模型。在当前异构性的讨论中,每个测量是多个未知信号中的一个的嘈杂周期性平移实例。

所公开的方法可直接由商业cryo-em设备、xfel使用,并且可能由标准ct机器使用。所公开的方法显著降低了数据的维数;它需要显著低的存储和计算负载。

如上所述,一些实施方式提供了图像处理系统,该图像处理系统被配置成提供从cryo-em投影图像的低阶矩获得的分子结构的3d从头开始(ab-initio)模型。在投影图像的观看方向均匀地分布在球体上的假设下,自相关分析可以用来确定分子的3d结构。然而,在一些实施方式中,这种方法可能产生cryo-em中的正交检索问题,这基本上意味着仅自相关(相当于二阶矩)不能唯一地确定3d结构。因此,在一些实施方式中,还使用了三阶产品,这反过来使问题的解决更复杂。具体地,由于噪声的方差以三次幂增加,因此更难具有三阶矩的精确估计,并且与一阶和二阶乘积相比,需要更多的样本(例如,投影图像)来抑制相同的噪声水平。

然而,通过利用样本的集合(例如,投影图像)中的观看方向的分布的不均匀性,可以实现仅使用嘈杂投影的一阶矩和二阶矩的重建过程。特别地,3d结构和2d投影都可以经由适当的基来表示(例如,使用基函数),并且然后就扩展系数而言,推导出矩的显式形式。这些导出的公式说明了3d体积与观看方向的分布之间的依赖关系;当一阶矩和二阶矩中的分布都保持线性时,体积在一阶矩中是线性的并且在二阶矩中是二次的。因此,确定3d结构相当于求解具有比未知更多的约束的二次多项式系统(即,超定方程系统)。从数学上讲,该方法能够仅使用一阶和二阶矩确定粒子的3d结构并且不需要投影图像的均匀分布或三阶矩的确定。

图15示出了用于使用一阶和二阶矩构建分子的3d数字模型的方法的示例。首先,获取粒子投影图像的集合——例如,通过将诸如上面的示例所描述的粒子拾取机制应用于所捕获的显微照片图像(步骤1501)。对于每个投影图像,系统确定粒子关于可操纵基础的表示(步骤1503)。然后对表示进行求平均以估计粒子图像的前两个矩(例如,第一矩和第二矩)(步骤1505)。利用所估计的粒子投影图像的前两个矩,系统自动求解用于(a)3d结构的表示系数和(b)粒子投影图像的观看方向分布的表示系数的多项式方程组(步骤1507)。基于所求解的多项式方程组,图像处理系统能够合成表示以形成分子的从头开始3d模型(步骤1509)。

作为进一步的示例,在一些实施方式中,系统被配置成通过以下形式的一系列扩展来表示球面坐标系中的三维结构的傅立叶变换:

其中,rl,s是径向频率ρ的函数,yl,m是球面谐波,并且al,m,s是扩展系数。

此外,三维旋转组so(3)上的分布由下式表示:

其中是l阶的维格纳d矩阵,r是旋转矩阵(so(3)元素),并且是扩展系数。

然后,图像处理系统从第一和第二矩的显式形式μ1、μ2分别推导多项式方程。通过由k,表示的图像的径向和角度分辨率来对矩进行参数化。因此,本示例中的图像处理系统使用定义为下式的方程组:

其中是固定系数的多阵列,与al,m,s和无关。通过求解al,m,s和可以显式地形成三维结构φ。

实际上,2d图像和3d结构的表示允许根据用户的偏好保留数据的不同特性。在cryo-em中起重要作用的这种特性的示例是有效地表示旋转变换的能力,也称为可操纵的表示。为此,使用傅立叶-贝塞尔基,可以开发投影的协方差矩阵的可操纵性,并且实现cryo-em数据的高级去噪方案。其他还可导致有利特性的基包括例如可操纵pca、prolates和球形贝塞尔。在各种不同的实施方式中,这些表示或其它基可以基于例如特定应用和/或用户偏好以本文讨论的方法实现。

经由矩估计3d结构的主要优点中的一个是以高效、单通道优化方案解决该问题的能力。换言之,当读取数据时,经验矩统计数据被更新。因此,对于昂贵的迭代和存储空间的需求显著减少。在基于上面所描述的示例的一些实施方式中,系统被配置为通过搜索与已经从数据收集的估计的矩匹配的体积和分布来执行优化。因此,优化的搜索空间与通常相当大的投影的数量无关。相反,在各种不同的配置中,系统被配置为利用诸如信赖域、伪牛顿和内点的高级梯度下降优化算法,以最大化体积到时刻的拟合。因此,优化的运行时间和空间与3d结构的分辨率成正比,而不与输入2d图像数据的尺寸成正比,从而提供更快的重建。

图16a和16b中给出了3d重建的示例。图16a中在右侧和图16b中在底部的对象是从非均匀分布中采样的随机选择的观看方向上的2d投影图像的真正事实模拟3d结构的示例。图16b中在左侧和图16b中在顶部的对象是仅使用原始结构的前两个矩和如上所述的快速优化方案,基于真正事实模拟3d结构的2d投影图像所确定的3d映射重建。

作为上面所描述的重建方法的副作用,系统可被配置成估计在投影中粒子的已知旋转的分布(即,拍摄投影图像的观看方向)。该分布可进一步用作其他进一步改进过程的输入,以加速和改善改进过程的结果。此外,由于上面所描述一些方法利用投影图像的观看方向的非均匀性,在一些实施方式中,系统可以被配置成在数据采集阶段(例如,在捕获显微照片图像或从显微照片提取投影图像)施加非均匀性。例如,可以调整或控制cryo-em实验本身的设计,使得突出非均匀性,以提高从头开始模型的精度,并且减少生成模型所需的时间量。最后,上面所描述的示例允许在极高的噪声水平下粒子的3d模型的重建,这反过来提高了推导小粒子从头开始模型的能力。

尽管上面所描述的粒子拾取的具体示例仅解决识别和提取单一类型分子的二维投影,但是在一些实施方式中,调整和实施上面所描述的系统和方法以识别和提取多种不同类型分子的二维投影——例如,在显微照片中所示的样品包括多种不同类型的分子或者异构/时变的分子的情况下。类似地,尽管上面描述的用于从多个二维投影图像构造二维模型的特定示例可以解决仅构造单个三维模型,但在一些实施方式中,调整和实施上面所描述的系统和方法以生成多个三维模型——例如,在异构的情况下。

因此,除其他外,本发明提供了全自动和无模板的系统和方法,该系统和方法用于识别和定位显微照片图像中的粒子的二维投影,并从这些所识别的投影中快速确定三维分子结构。本发明的各种特征和优点在以下权利要求中阐述。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1