提供针对多芯片封装的热参数报告的装置和方法与流程

文档序号:11530445阅读:373来源:国知局
提供针对多芯片封装的热参数报告的装置和方法与流程

实施例涉及系统的功率管理,并且更特别地涉及包括处理器的多芯片封装的功率管理。



背景技术:

半导体处理和逻辑设计中的发展已经准许可以存在于集成电路设备上的逻辑的量方面的增长。结果,计算机系统配置已经从单个集成电路演进到可能涉及单独的集成电路上的多个硬件线程、多个核、多个设备和/或完整系统的系统。另外,随着集成电路的密度和性能已经增长,针对计算系统(从嵌入式系统到服务器)的功率要求也已经增加。此外,软件低效及其硬件的要求也已经引起计算设备能量消耗方面的增加。事实上,一些研究表明计算设备消耗针对国家(诸如美利坚合众国)的整个电力供应的相当大百分比。结果,存在对于与集成电路相关联的能量效率和节省的至关重要的需要。这些需要将随着服务器、台式计算机、笔记本、ultrabooks™、平板电脑、移动电话、处理器、嵌入式系统等变得甚至更加普遍(从包括在典型计算机、汽车和电视中到生物技术)而增加。

附图说明

图1是根据本发明的实施例的系统的一部分的框图。

图2是根据本发明的实施例的处理器的框图。

图3是根据本发明的另一个实施例的多域处理器的框图。

图4是包括多个核的处理器的实施例。

图5是根据本发明的一个实施例的处理器核的微架构的框图。

图6是根据另一个实施例的处理器核的微架构的框图。

图7是根据又另一个实施例的处理器核的微架构的框图。

图8是根据再一个实施例的处理器核的微架构的框图。

图9是根据本发明的另一个实施例的处理器的框图。

图10是根据本发明的实施例的代表性soc的框图。

图11是根据本发明的实施例的另一个示例soc的框图。

图12是实施例可以与其一起使用的示例系统的框图。

图13是实施例可以与其一起使用的另一个示例系统的框图。

图14是代表性计算机系统的框图。

图15是根据本发明的实施例的系统的框图。

图16是根据本发明的实施例的多芯片封装的框图。

图17是根据本发明的实施例的方法的流程图。

图18是根据本发明的另一个实施例的方法的流程图。

具体实施方式

尽管参考特定集成电路中(诸如计算平台或处理器中)的能量节省和能量效率来描述以下实施例,但其他实施例可应用于其他类型的集成电路和逻辑设备。本文描述的实施例的类似技术和教导可以应用于其他类型的电路或半导体设备,其还可受益于更好的能量效率和能量节省。例如,所公开的实施例不限于任何特定类型的计算机系统。也就是说,所公开的实施例可以用于许多不同的系统类型,范围从服务器计算机(例如,塔、机架、刀片、微服务器等等)、通信系统、存储系统、任何配置的台式计算机、膝上型计算机、笔记本和平板计算机(包括2:1平板电脑、平板手机等等),并且还可以在诸如手持设备、片上系统(soc)和嵌入式应用之类的其他设备中使用。手持设备的一些示例包括诸如智能电话之类的蜂窝电话、互联网协议设备、数字摄像机、个人数字助理(pda)和手持pc。嵌入式应用典型地可以包括微控制器、数字信号处理器(dsp)、网络计算机(netpc)、机顶盒、网络集线器、广域网(wan)交换机、可穿戴设备或可以执行以下教导的功能和操作的任何其他系统。更是这样,实施例可以在具有标准语音功能的移动终端(诸如移动电话、智能电话和平板手机)中和/或在没有标准无线语音功能通信能力的非移动终端(诸如,许多可穿戴装置、平板电脑、笔记本、台式机、微服务器、服务器等等)中实现。此外,本文描述的装置、方法和系统不限于物理计算设备,但还可以涉及用于能量节省和效率的软件优化。如在以下描述中将容易地明显的,本文描述的方法、装置和系统的实施例(无论是否参考硬件、固件、软件或其组合)是对“绿色技术”未来至关重要的,诸如对涵盖大部分美国经济的产品中的功率节省和能量效率而言。

现在参考图1,其示出了根据本发明的实施例的系统的一部分的框图。如图1中所示,系统100可以包括各种组件,所述组件包括如示出为多核处理器的处理器110。处理器110可以经由外部电压调节器160耦合到电源供应150,所述外部电压调节器160可以执行第一电压变换以向处理器110提供主调节电压。

如所见,处理器110可以是包括多个核120a-120n的单管芯处理器。此外,每个核可以与集成电压调节器(ivr)125a-125n相关联,所述集成电压调节器125a-125n接收主调节电压并且生成要被提供到与ivr相关联的处理器的一个或多个代理的操作电压。同样,ivr实现方式可以被提供以允许电压以及从而每个单独的核的功率和性能的精细粒度控制。这样,每个核可以以独立的电压和频率操作,这使得能够实现大灵活性并且提供用于平衡功率消耗与性能的广泛机会。在一些实施例中,多个ivr的使用使得能够将组件分组成单独的功率平面,以使得功率被ivr调节并供应到分组中的仅那些组件。在功率管理期间,一个ivr的给定功率平面可以被降低动力消耗或断电,当处理器被置于某个低功率状态时,而另一个ivr的另一个功率平面保持活动,或完全供电。

又参考图1,可以在处理器内存在附加组件,所述附加组件包括输入/输出接口132、另一个接口134和集成存储器控制器136。如所见,这些组件中的每一个可以由另一个集成电压调节器125x供电。在一个实施例中,接口132可以实现针对intel®快速路径互连(qpi)互连的操作,其提供包括多个层的高速缓存一致性协议中的点对点(ptp)链路,所述多个层包括物理层、链路层和协议层。继而,接口134可以经由快速外围组件互连(pcie™)协议通信。

还示出了功率控制单元(pcu)138,其可以包括执行关于处理器110的功率管理操作的硬件、软件和/或固件。如所见,pcu138经由数字接口向外部电压调节器160提供控制信息以使电压调节器生成适当的调节电压。pcu138还经由另一个数字接口向ivr125提供控制信息以控制所生成的操作电压(或者使对应ivr要在低功率模式中被禁用)。在各种实施例中,pcu138可以包括各种各样的功率管理逻辑单元以执行基于硬件的功率管理。这样的功率管理可以是完全处理器控制的(例如,通过各种处理器硬件,并且其可以由工作负载和/或功率、热或其他处理器约束来触发)以及/或者功率管理可以响应于外部源(诸如平台或管理功率管理源或系统软件)来执行。

虽然为了易于图示而未示出,要理解的是在处理器110内可以存在附加组件,诸如非核逻辑和诸如内部存储器(例如,高速缓存存储器层级的一个或多个级等等)之类的其他组件。此外,虽然在图1的实现方式中以集成电压调节器示出,但实施例并不被如此限制。

注意到本文描述的功率管理技术可以独立于和补充于基于操作系统(os)的功率管理(ospm)机制。根据一个示例ospm技术,处理器可以以各种性能状态或级别(所谓的p状态,即从p0到pn)操作。通常,p1性能状态可以对应于可被os请求的最高保证性能状态。除了该p1状态之外,os还可以请求较高性能状态,即p0状态。该p0状态可以从而是机会或涡轮(turbo)模式状态,其中当功率和/或热量预算可用时,处理器硬件可以将处理器或至少其部分配置成以比保证频率更高的频率操作。在许多实现方式中,处理器可以包括高于p1保证最大频率的多个所谓的箱(bin)频率,所述箱频率超过如在制造期间被熔断或以其他方式写入到处理器中的特定处理器的最大峰值频率。此外,根据一个ospm机制,处理器可以以各种功率状态或级别操作。关于功率状态,ospm机制可以指定不同功率消耗状态,通常称为c状态,c0、c1到cn状态。当核是活动的时,其以c0状态运行,并且当核是空闲的时,它可以被置于核低功率状态,也称为核非零c状态(例如,c1-c6状态),其中每个c状态处于较低功率消耗级别(以使得c6是比c1更深的低功率状态,等等)。

要理解的是在不同实施例中可以单独地或组合地使用许多不同类型的功率管理技术。作为代表性示例,功率控制器可以控制处理器以通过某个形式的动态电压频率调节(dvfs)进行功率管理,其中一个或多个核或其他处理器逻辑的操作电压和/或操作频率可以被动态控制成降低某些情形中的功率消耗。在示例中,可以使用可从加利福尼亚州圣克拉拉的intel公司得到的enhancedintelspeedstep™技术来执行dvfs以提供最低功率消耗等级处的最优性能。在另一个示例中,可以使用intelturboboost™技术来执行dvfs以使得一个或多个核或其他计算引擎能够基于条件(例如,工作负载和可用性)而以比保证操作频率更高的频率来操作。

可以在某些示例中使用的另一个功率管理技术是不同计算引擎之间的工作负载的动态交换。例如,处理器可以包括以不同功率消耗级别来操作的非对称核或其他处理引擎,以使得在功率受限情形中,一个或多个工作负载可以被动态切换到在较低功率核或其他计算引擎上执行。另一个示例性功率管理技术是硬件工作循环(hdc),其可以使核和/或其他计算引擎根据工作循环而周期性地被启用和禁用,以使得可以使一个或多个核在工作循环的不活动时段期间不活动并且使其在工作循环的活动时段期间活动。尽管利用这些特定示例进行描述,但要理解的是在特定实施例中可以使用许多其他功率管理技术。

实施例可以在包括服务器处理器、台式处理器、移动处理器等的针对各种市场的处理器中实现。现在参考图2,示出了根据本发明的实施例的处理器的框图。如图2中所示,处理器200可以是包括多个核210a-210n的多核处理器。在一个实施例中,每个这样的核可以具有独立功率域,并且可以被配置成基于工作负载而进入和离开活动状态和/或最大性能状态。各种核可以经由互连215耦合到包括各种组件的系统代理或非核220。如所见的,非核220可以包括共享高速缓存230,所述共享高速缓存230可以是最后一级高速缓存。此外,非核可以包括集成存储器控制器240以例如经由存储器总线与系统存储器(在图2中未示出)通信。非核220还包括各种接口250和功率控制单元255,所述功率控制单元255可以包括执行本文所述的功率管理技术的逻辑。

此外,通过接口250a-250n,可以做出到各种芯片外组件(诸如,外围设备、大容量储存器等)的连接。虽然在图2的实施例中以该特定实现方式示出,但本发明的范围在这方面不被限制。

现在参考图3,示出了根据本发明的另一实施例的多域处理器的框图。如图3的实施例中所示,处理器300包括多个域。具体地,核域310可以包括多个核3100-310n,图形域320可以包括一个或多个图形引擎,并且还可以存在系统代理域350。在一些实施例中,系统代理域350可以以与核域独立的频率来执行,并且可以总是保持通电以处理功率控制事件和功率管理,以使得域310和320可以被控制成动态进入和离开高功率和低功率状态。域310和320中的每一个可以以不同的电压和/或功率操作。注意到虽然仅示出有三个域,但要理解的是本发明的范围在这方面不被限制,并且在其他实施例中可以存在附加的域。例如,可以存在多个核域,每一个核域包括至少一个核。

通常,除了各种执行单元和附加处理元件之外,每个核310还可以包括低级高速缓存。继而,各种核可以耦合到彼此,并且耦合到由最后一级高速缓存(llc)3400-340n的多个单元形成的共享高速缓存存储器。在各种实施例中,llc340可以在核和图形引擎以及各种媒体处理电路之间共享。如所见的,环互连330因而将核耦合在一起,并且提供核、图形域320和系统代理电路350之间的互连。在一个实施例中,互连330可以是核域的部分。然而,在其他实施例中,环互连可以具有其自己的域。

如进一步所见的,系统代理域350可以包括显示器控制器352,其可以提供关联的显示器的控制和到关联的显示器的接口。如进一步所见的,系统代理域350可以包括功率控制单元355,所述功率控制单元355可以包括执行本文所述的功率管理技术的逻辑。

如图3中进一步所见的,处理器300还可以包括集成存储器控制器(imc)370,其可以提供到系统存储器(诸如,动态随机存取存储器(dram))的接口。多个接口3800-380n可以存在以使得能够实现处理器与其他电路之间的互连。例如,在一个实施例中,可以提供至少一个直接媒体接口(dmi)接口以及一个或多个pcie™接口。又进一步,为了提供诸如附加处理器或其他电路之类的其他代理之间的通信,还可以提供一个或多个qpi接口。尽管在图3的实施例中以该高级示出,但要理解的是本发明的范围在这方面不被限制。

参考图4,图示了包括多个核的处理器的实施例。处理器400包括任何处理器或处理设备,诸如微处理器、嵌入式处理器、数字信号处理器(dsp)、网络处理器、手持处理器、应用处理器、协处理器、片上系统(soc)或执行代码的其他设备。在一个实施例中,处理器400包括至少两个核——核401和402,其可以包括非对称核或对称核(所图示的实施例)。然而,处理器400可以包括可以是对称的或非对称的任何数目的处理元件。

在一个实施例中,处理元件指的是支持软件线程的硬件或逻辑。硬件处理元件的示例包括:线程单元、线程槽、线程、处理单元、上下文、上下文单元、逻辑处理器、硬件线程、核和/或任何其他元件,其能够保持针对处理器的状态,诸如执行状态或架构状态。换言之,在一个实施例中,处理元件指的是能够独立地与代码(诸如软件线程、操作系统、应用或其他代码)关联的任何硬件。物理处理器典型地指的是集成电路,其潜在地包括任何数目的其他处理元件,诸如核或硬件线程。

核经常指的是位于集成电路上的能够维持独立架构状态的逻辑,其中每个独立维持的架构状态与至少一些专用执行资源相关联。与核相比,硬件线程典型地指的是位于集成电路上的能够维持独立架构状态的任何逻辑,其中独立维持的架构状态共享对执行资源的访问。如可以看到的,当某些资源被共享并且其他资源专用于架构状态时,硬件线程和核的命名之间的界限重叠。又经常,核和硬件线程被操作系统视为单独的逻辑处理器,其中操作系统能够单独地调度每个逻辑处理器上的操作。

如在图4中所图示的,物理处理器400包括两个核,核401和402。此处,核401和402被视为对称核,即具有相同配置、功能单元和/或逻辑的核。在另一个实施例中,核401包括无序处理器核,而核402包括有序处理器核。然而,核401和402可以单独地从任何类型的核中选择,诸如原生核、软件管理的核、适配成执行原生指令集架构(isa)的核、适配成执行翻译的isa的核、共同设计的核或其他已知核。又进一步讨论的,以下进一步详细描述核401中图示的功能单元,因为核402中的单元以类似的方式操作。

如所描绘的,核401包括两个硬件线程401a和401b,其还可以被称为硬件线程槽401a和401b。因此,在一个实施例中,诸如操作系统之类的软件实体潜在地将处理器400视为四个分离的处理器,即能够同时执行四个软件线程的四个逻辑处理器或处理元件。如以上提到的,第一线程与架构状态寄存器401a相关联,第二线程与架构状态寄存器401b相关联,第三线程可以与架构状态寄存器402a相关联,并且第四线程可以与架构状态寄存器402b相关联。此处,架构状态寄存器(401a、401b、402a和402b)中的每一个可以被称为处理元件、线程槽或线程单元,如上所述。如所图示的,在架构状态寄存器401b中复制架构状态寄存器401a,因此单独的架构状态/上下文能够被存储以用于逻辑处理器401a和逻辑处理器401b。在核401中,诸如分配器和重命名器块430中的指令指针和重命名逻辑之类的其他较小资源也可以针对线程401a和401b复制。诸如重排序/退役单元435中的重排序缓冲器、iltb420、加载/存储缓冲器和队列之类的一些资源可以通过划分而被共享。诸如通用内部寄存器、(一个或多个)页表基址寄存器、低级数据高速缓存和数据tlb415、(一个或多个)执行单元440和无序单元435的部分之类的其他资源潜在地是完全共享的。

处理器400经常包括其他资源,所述其他资源可以完全被共享、通过划分而被共享、或由处理元件专用/专用于处理元件。在图4中,图示了具有处理器的说明性逻辑单元/资源的纯粹示例性的处理器的实施例。注意到,处理器可以包括或省略这些功能单元中的任一个,以及包括未描绘的任何其他已知功能单元、逻辑或固件。如所图示的,核401包括简化的代表性无序(ooo)处理器核。但是,在不同实施例中可以利用有序处理器。ooo核包括预测要被执行/获取的分支的分支目标缓冲器420以及存储针对指令的地址翻译条目的指令翻译缓冲器(i-tlb)420。

核401还包括耦合到取出单元420以对所取出的元素进行解码的解码模块425。在一个实施例中,取出逻辑包括分别与线程槽401a、401b相关联的单独的定序器。核401经常与第一isa相关联,第一isa定义/指定在处理器400上可执行的指令。作为第一isa的一部分的机器代码指令经常包括指令的一部分(称为操作码),其引用/指定要执行的指令或操作。解码逻辑425包括电路,所述电路从其操作码中识别出这些指令并将所解码的指令传递到流水线中以用于如由第一isa定义的处理。例如,在一个实施例中,解码器425包括被设计或适配成识别诸如事务指令之类的特定指令。作为由解码器425的识别的结果,架构或核401采取特定、预定义的动作以执行与适当指令相关联的任务。重要的是要注意,本文所述的任务、块、操作和方法中的任一个可以响应于单个或多个指令来执行;其中的一些可以是新的或旧的指令。

在一个示例中,分配器和重命名器块430包括保留资源(诸如存储指令处理结果的寄存器文件)的分配器。然而,线程401a和401b潜在地能够无序执行,其中分配器和重命名器块430还保留其他资源,诸如跟踪指令结果的重排序缓冲器。单元430还可以包括寄存器重命名器以将程序/指令引用寄存器重命名到处理器400外部的其他寄存器。重排序/退役单元435包括诸如以上提及的重排序缓冲器、加载缓冲器和存储缓冲器之类的组件以支持无序执行和稍后对无序执行的指令的有序退役。

在一个实施例中,调度器和(一个或多个)执行单元块440包括调度在执行单元上的指令/操作的调度器单元。例如,在具有可用浮点执行单元的执行单元的端口上调度浮点指令。与执行单元相关联的寄存器文件还被包括以存储信息指令处理结果。示例性执行单元包括浮点执行单元、整数执行单元、跳转执行单元、加载执行单元、存储执行单元和其他已知的执行单元。

较低级数据高速缓存和数据翻译缓冲器(d-tlb)450耦合到(一个或多个)执行单元440。数据高速缓存要存储近来使用的/操作的元素(诸如数据操作数),其潜在地在存储器一致性状态中保存。d-tlb要存储近来虚拟/线性到物理地址翻译。作为特定示例,处理器可以包括页表结构以将物理存储器分割成多个虚拟页面。

此处,核401和402共享对较高级或较远高速缓存410的访问,所述较高级或较远高速缓存410要对近来取出的元素进行高速缓存。注意到较高级或较远指的是越来越远离或变得远离(一个或多个)执行单元的高速缓存级。在一个实施例中,较高级高速缓存410是最后一级数据高速缓存(在处理器400上的存储器层级中的最后高速缓存),诸如第二或第三级数据高速缓存。然而,较高级高速缓存410不如此受限,由于它可以与指令高速缓存相关联或包括指令高速缓存。代替地,追踪高速缓存(一种类型的指令高速缓存)可以耦合在解码器425之后以存储近来解码的追踪。

在所描绘的配置中,处理器400还包括总线接口模块425和功率控制器460,其可以执行根据本发明的实施例的功率管理。在该场景下,总线接口405与处理器400外部的设备(诸如系统存储器和其他组件)通信。

存储器控制器470可以与诸如一个或许多存储器之类的其他设备对接。在示例中,总线接口405包括与用于与存储器对接的存储器控制器以及用于与图形处理器对接的图形控制器的环互连。在soc环境中,甚至更多设备(诸如网络接口、协处理器、存储器、图形处理器和任何其他已知的计算机设备/接口)可以集成在单个管芯或集成电路上以在高功能性和低功率消耗的情况下提供小形状因子。

现在参考图5,示出了根据本发明的一个实施例的处理器核的微架构的框图。如图5中所示,处理器核500可以是多级流水线无序处理器。核500可以基于接收的操作电压而以各种电压操作,所述接收的操作电压可以是从集成电压调节器或外部电压调节器接收的。

如图5中所见,核500包括前端单元510,其可以用于取出要被执行的指令并准备好它们以供稍后在处理器流水线中使用。例如,前端单元510可以包括取出单元501、指令高速缓存503以及指令解码器505。在一些实现方式中,前端单元510还可以包括追踪高速缓存连同微代码储存器以及微操作储存器。取出单元501可以例如从存储器或指令高速缓存503取出宏指令并将其馈送到指令解码器505以将其解码成原语(primitive)(即微操作)以供处理器执行。

在前端单元510和执行单元520之间耦合无序(ooo)引擎515,所述ooo引擎515可以用于接收微指令并准备好它们以供执行。更具体地,ooo引擎515可以包括各种缓冲器以对微指令流重排序并分配对于执行所需的各种资源以及提供逻辑寄存器到各种寄存器文件(诸如寄存器文件530和扩展寄存器文件535)内的存储位置上的重命名。寄存器文件530可以包括用于整数和浮点操作的单独的寄存器文件。为了配置、控制和附加操作的目的,机器特定寄存器(msr)538的集合还可以存在并且对核500内(以及在核外部)的各种逻辑可访问。例如,功率限制信息可以被存储在一个或多个msr中,并且可以被动态更新,如本文所述的那样。

各种资源可以存在于执行单元520中,所述执行单元520除其他专用硬件之外尤其包括例如各种整数、浮点和单指令多数据(simd)逻辑单元。例如,这样的执行单元除其他这样的执行单元外尤其可以包括一个或多个算术逻辑单元(alu)522以及一个或多个矢量执行单元524。

来自执行单元的结果可以被提供到退役逻辑,即重排序缓冲器(rob)540。更具体地,rob540可以包括接收与被执行的指令相关联的信息的各种阵列和逻辑。该信息然后被rob540审查以确定是否指令被有效退役以及结果数据被提交到处理器的架构状态,或者是否发生阻止指令的适当退役的一个或多个异常。当然,rob540可以处理与退役相关联的其他操作。

如图5中所示,rob540耦合到高速缓存550,在一个实施例中所述高速缓存550可以是低级高速缓存(例如l1高速缓存),尽管本发明的范围在此方面不被限制。执行单元520还可以直接耦合到高速缓存550。来自高速缓存550的数据通信可以与较高级高速缓存、系统存储器等一起发生。虽然在图5的实施例中以该高级示出,但要理解的是本发明的范围在这方面不被限制。例如,虽然图5的实现方式关于无序机器,诸如intel®x86指令集架构(isa)的无序机器,但本发明的范围在这方面不被限制。也就是说,在有序处理器、诸如基于arm的处理器之类的精简指令集计算(risc)处理器或可以经由仿真引擎和关联的逻辑电路仿真不同isa的指令和操作的另一个类型的isa的处理器中可以实现其他实施例。

现在参考图6,示出了根据本发明的另一个实施例的处理器核的微架构的框图。在图6的实施例中,核600可以是不同微架构的低功率核,诸如基于intel®atomtm的处理器,其具有被设计成降低功率消耗的相对有限的流水线深度。如所见的,核600包括指令高速缓存610,所述指令高速缓存610被耦合以向指令解码器615提供指令。分支预测器605可以耦合到指令高速缓存610。注意到指令高速缓存610还可以耦合到另一级高速缓存存储器,诸如l2高速缓存(在图6中为了易于图示而未示出)。继而,指令解码器615将经解码的指令提供到发布队列620以供存储和递送到给定执行流水线。微代码rom618耦合到指令解码器615。

浮点流水线630包括浮点寄存器文件632,所述浮点寄存器文件632可以包括具有诸如128、256或512位的给定位的多个架构寄存器。流水线630包括调度指令以供在流水线的多个执行单元之一上执行的浮点调度器634。在所示的实施例中,这样的执行单元包括alu635、置乱(shuffle)单元636和浮点加法器638。继而,在这些执行单元中所生成的结果可以被提供回到缓冲器和/或寄存器文件632的寄存器。当然要理解的是,虽然以这几个示例执行单元示出,但在另一个实施例中可以存在附加的或不同的浮点执行单元。

还可以提供整数流水线640。在所示的实施例中,流水线640包括整数寄存器文件642,所述整数寄存器文件642可以包括具有诸如128或256位的给定位的多个架构寄存器。流水线640包括调度指令以供在流水线的多个执行单元之一上执行的整数调度器644。在所示的实施例中,这样的执行单元包括alu645、置乱单元646和跳转执行单元648。继而,在这些执行单元中所生成的结果可以被提供回到缓冲器和/或寄存器文件642的寄存器。当然要理解的是,虽然以这几个示例执行单元示出,但在另一个实施例中可以存在附加的或不同的整数执行单元。

存储器执行调度器650可以调度存储器操作以供在地址生成单元652中执行,所述地址生成单元652还耦合到tlb654。如所见的,这些结构可以耦合到数据高速缓存660,所述数据高速缓存660可以是l0和/或l1数据高速缓存,其继而耦合到高速缓存存储器层级的附加级,包括l2高速缓存存储器。

为了提供对无序执行的支持,除了重排序缓冲器680之外,还可以提供分配器/重命名器670,所述重排序缓冲器680可以被配置成对无序执行的指令进行重排序以供有序退役。尽管在图6的图示中以该特定流水线架构示出,但要理解的是许多变型和替换方案是可能的。

注意到,在具有非对称核的处理器中,诸如根据图5和6的微架构,工作负载可以出于功率管理原因而在核之间动态地交换,由于这些核尽管具有不同的流水线设计和深度但可以具有相同或相关的isa。这样的动态核交换可以以对用户应用(并且可能地也对内核)透明的方式来执行。

参考图7,示出了根据又另一个实施例的处理器核的微架构的框图。如图7中所图示的,核700可以包括以非常低功率消耗级别执行的多级有序流水线。作为一个这样的示例,处理器700可以具有根据可从加利福尼亚州森尼维尔的arm控股有限公司得到的armcortexa53的微架构。在实现方式中,可提供被配置成执行32位和64位代码二者的8级流水线。核700包括取出单元710,所述取出单元710被配置成取出指令并将其提供到解码单元715,所述解码单元715可以对指令(例如诸如armv8isa之类的给定isa的宏指令)进行解码。还注意到,队列730可以耦合到解码单元715以存储经解码的指令。经解码的指令被提供到发布逻辑725,其中经解码的指令可以被发布到多个执行单元中的给定的一个执行单元。

进一步参考图7,发布逻辑725可以将指令发布到多个执行单元之一。在所示的实施例中,这些执行单元包括整数单元735、乘法单元740、浮点/矢量单元750、双发布单元760和加载/存储单元770。这些不同执行单元的结果可以被提供到写回单元780。要理解的是,虽然为了易于图示而示出单个写回单元,但在一些实现方式中不同的写回单元可以与每一个执行单元相关联。此外,要理解的是虽然在图7中示出的每个单元和逻辑以高级别来表示,但特定实现方式可以包括更多或不同的结构。使用具有如图7中的流水线的一个或多个核设计的处理器可以以从移动设备扩展到服务器系统的许多不同最终产品来实现。

参考图8,示出了根据再一个实施例的处理器核的微架构的框图。如图8中所图示的,核800可以包括以非常高性能级别执行的多级多发布无序流水线(其可以以比图7的核700更高的功率消耗级别发生)。作为一个这样的示例,处理器800可以具有根据armcortexa57设计的微架构。在实现方式中,可提供被配置成执行32位和64位代码二者的15(或更多)级流水线。此外,流水线可以提供3(或更多)宽和3(或更多)发布操作。核800包括取出单元810,所述取出单元810被配置成取出指令并将其提供到解码器/重命名器/分派器815,其可以对指令(例如armv8指令集架构的宏指令)进行解码、重命名指令内的寄存器引用和将指令(最终)分派到所选执行单元。经解码的指令可以被存储在队列825中。注意到虽然在图8中为了易于图示而示出单个队列结构,但要理解的是可以针对多个不同类型的执行单元中的每一个而提供单独的队列。

在图8中还示出了存储在队列825中的经解码的指令可以从其发布到所选执行单元的发布逻辑830。发布逻辑830还可以在特定的实施例中实现,其中针对发布逻辑830耦合到的多个不同类型的执行单元中的每一个有单独的发布逻辑。

经解码的指令可以被发布到多个执行单元中的给定的一个。在所示的实施例中,这些执行单元包括一个或多个整数单元835、乘法单元840、浮点/矢量单元850、分支单元860和加载/存储单元870。在实施例中,浮点/矢量单元850可以被配置成处理128或256位的simd或矢量数据。又进一步,浮点/矢量执行单元850可以执行ieee-754双精度浮点操作。这些不同执行单元的结果可以被提供到写回单元880。注意到,在一些实现方式中,不同的写回单元可以与执行单元中的每一个相关联。此外,要理解的是虽然在图8中示出的每个单元和逻辑以高级别来表示,但特定实现方式可以包括更多或不同的结构。

注意到,在具有非对称核的处理器中,诸如根据图7和8的微架构,工作负载可以出于功率管理原因而动态地交换,由于这些核尽管具有不同的流水线设计和深度但可以具有相同或相关的isa。这样的动态核交换可以以对用户应用(并且可能地也对内核透明)的方式来执行。

使用具有如在图5-8中的一个或多个中的流水线的一个或多个核设计的处理器可以以从移动设备扩展到服务器系统的许多不同最终产品来实现。现在参考图9,示出了根据本发明的另一个实施例的处理器的框图。在图9的实施例中,处理器900可以是包括多个域的soc,其中的每一个可以被控制成以独立的操作电压和操作频率来操作。作为特定说明性示例,处理器900可以是基于intel®architecturecoretm的处理器,诸如i3、i5、i7或从intel公司可得到的另一个这样的处理器。然而,诸如从加利福尼亚州森尼维尔的超威半导体公司(amd)可得到的、来自arm控股公司或其被许可方的基于arm的设计或来自加利福尼亚州森尼维尔的mips技术公司或其被许可方或采纳方的基于mips的设计之类的其他低功率处理器可以代替地存在于其他实施例中,诸如苹果a7处理器、高通snapdragon处理器、或德克萨斯州仪器omap处理器。这样的soc可以用于低功率系统中,诸如智能电话、平板计算机、平板手机计算机、ultrabooktm计算机或其他便携式计算设备。

在图9中所示的高级视图中,处理器900包括多个核单元9100-910n。每个核单元可以包括一个或多个处理器核、一个或多个高速缓存存储器和其他电路。每个核单元910可以支持一个或多个指令集(例如,x86指令集(具有已经添加有较新版本的一些扩展);mips指令集;arm指令集(具有诸如neon之类的可选附加扩展))或其他指令集或其组合。注意到核单元中的一些可以是(例如,不同设计的)异构资源。此外,每个这样的核可以耦合到高速缓存存储器(未示出),在实施例中所述高速缓存存储器可以是共享级(l2)高速缓存存储器。非易失性储存器930可以用于存储各种程序和其他数据。例如,该储存器可以用于存储微代码、引导信息(诸如bios)、其他系统软件等的至少部分。

每个核单元910还可以包括使得能够实现到处理器的附加电路的互连的诸如总线接口之类的接口。在实施例中,每个核单元910耦合到一致性结构,所述一致性结构可以充当主高速缓存一致性管芯上互连,其继而耦合到存储器控制器930。继而,存储器控制器935控制与诸如dram之类的存储器(在图9中为了易于图示而未示出)的通信。

除了核单元之外,在处理器内存在附加处理引擎,包括至少一个图形单元920,所述至少一个图形单元920可以包括执行图形处理以及可能地执行图形处理器上的通用操作(所谓的gpgpu操作)的一个或多个图形处理单元(gpu)。此外,可以存在至少一个图像信号处理器925。信号处理器925可以被配置成处理从(soc内部的或芯片外的)一个或多个捕获设备接收的传入图像数据。

还可以存在其他加速器。在图9的图示中,视频编码器950可以执行编码操作,包括针对视频信息而编码和解码,例如提供对高清晰度视频内容的硬件加速支持。显示器控制器955还可以被提供以对显示器操作进行加速,包括提供对系统的内部和外部显示器的支持。此外,安全处理器945可以存在以执行安全性操作,诸如安全引导操作、各种密码操作等。

每一个单元可以使其功率消耗经由功率管理器940来控制,所述功率管理器940可以包括执行本文所述的各种功率管理技术的控制逻辑。

在一些实施例中,soc900还可以包括非一致性结构,其耦合到各种外围设备可以耦合到的一致性结构。一个或多个接口960a-960d使得能够实现与一个或多个芯片外设备的通信。这样的通信可以经由各种各样的通信协议,除其他类型的通信协议之外尤其诸如pcietm、gpio、usb、i2c、uart、mipi、sdio、ddr、spi、hdmi。尽管在图9的实施例中以该高级示出,但要理解的是本发明的范围在这方面不被限制。

现在参考图10,示出了代表性soc的框图。在所示的实施例中,soc1000可以是多核soc,所述多核soc被配置用于为了合并到智能电话或其他低功率设备(诸如平板计算机或其他便携式计算设备)中而要被优化的低功率操作。作为示例,soc1000可以使用诸如较高功率和/或低功率核(例如无序核和有序核)的组合之类的非对称或不同类型的核来实现。在不同实施例中,这些核可以基于inte®architecturetm核设计或arm架构设计。在又其他实施例中,可以在给定soc中实现intel和arm核的混合。

如图10中所见,soc1000包括具有多个第一核10120-10123的第一核域1010。在实施例中,这些核可以是低功率核,诸如有序核。在一个实施例中,这些第一核可以被实现为armcortexa53核。继而,这些核耦合到核域1010的高速缓存存储器1015。此外,soc1000包括第二核域1020。在图10的图示中,第二核域1020具有多个第二核10220-10223。在示例中,这些核可以是与第一核1012相比的更高功率消耗的核。在实施例中,第二核可以是无序核,其可以被实现为armcortexa57核。继而,这些核耦合到核域1020的高速缓存存储器1025。注意到虽然在图10中示出的示例包括每个域中的4个核,但要理解的是在其他实施例中在给定域中可以存在更多或更少的核。

进一步参考图10,还提供了图形域1030,其可以包括被配置成独立地执行例如由核域1010和1020的一个或多个核提供的图形工作负载的一个或多个图形处理单元(gpu)。作为示例,除了提供图形和显示再现操作之外,gpu域1030还可以用于提供对各种各样的屏幕大小的显示支持。

如所见的,各种域耦合到一致性互连1040,其在实施例中可以是高速缓存一致性互连结构,其继而耦合到集成存储器控制器1050。在一些示例中,一致性互连1040可以包括共享高速缓存存储器,诸如l3高速缓存。在实施例中,存储器控制器1050可以是提供与芯片外存储器的通信的多个通道(诸如(在图10中为了易于图示而未示出的)dram的多个通道)的直接存储器控制器。

在不同的示例中,核域的数目可以变化。例如,对于适合于合并到移动计算设备中的低功率soc而言,可以存在诸如图10中示出的有限数目的核域。又进一步,在这样的低功率soc中,包括较高功率核的核域1020可以具有较少数目的这样的核。例如,在一个实现方式中,两个核1022可以被提供以使得能够实现以降低的功率消耗级别的操作。此外,不同的核域还可以耦合到中断控制器以使得能够实现不同域之间的工作负载的动态交换。

在又其他实施例中,可以存在较大数目的核域以及附加可选ip逻辑,因为soc可以缩放到用于合并到其他计算设备(诸如台式机、服务器、高性能计算系统、基站等)中的较高性能(和功率)级别。作为一个这样的示例,可以提供均具有给定数目的无序核的4个核域。又进一步,除了可选gpu支持(其作为示例可以采取gpgpu的形式)之外,还可以提供用于提供对特定功能(例如,web(网络)服务、网络处理、切换等)的优化的硬件支持的一个或多个加速器。此外,可以存在输入/输出接口以将这样的加速器耦合到芯片外组件。

现在参考图11,示出了另一个示例soc的框图。在图11的实施例中,soc1100可以包括使得能够实现针对多媒体应用、通信和其他功能的高性能的各种电路。同样,soc1100适合于合并到各种各样的便携式和其他设备,诸如智能电话、平板计算机、智能tv等。在所示的示例中,soc1100包括中央处理器单元(cpu)域1110。在实施例中,多个单独的处理器核可以存在于cpu域1110中。作为一个示例,cpu域1110可以是具有4个多线程核的四核处理器。这样的处理器可以是同构或异构处理器,例如,低功率和高功率处理器核的混合。

继而,gpu域1120被提供以执行一个或多个gpu中的高级图形处理以处理图形和计算api。dsp单元1130可以提供一个或多个低功率dsp以用于除了可以在多媒体指令的执行期间发生的高级计算之外处理低功率多媒体应用,诸如音乐回放、音频/视频等。继而,通信单元1140可以包括经由各种无线协议提供连接性的各种组件,所述各种无线协议诸如蜂窝通信(包括3g/4glte)、无线局域协议(诸如bluetooth™、ieee802.11)等。

又进一步,多媒体处理器1150可以用于执行高清晰度视频和音频内容的捕获和回放,包括用户手势的处理。传感器单元1160可以包括多个传感器和/或传感器控制器以对接到在给定平台中存在的各种芯片外传感器。图像信号处理器1170可以被提供有一个或多个单独的isp以执行关于从平台的一个或多个摄像机(包括静止和视频摄像机)捕获的内容的图像处理。

显示器处理器1180可以提供对到给定像素密度的高清晰度显示器的连接的支持,包括无线传送内容以供在这样的显示器上回放的能力。又进一步,位置单元1190可以包括gps接收器,其具有对多个gps星座的支持以为应用提供使用这样的gps接收器获得的高准确的定位信息。要理解的是虽然在图11的示例中以该特定组件集合示出,但许多变型和替换方案是可能的。

现在参考图12,示出了实施例可以与其一起使用的示例系统的框图。如所见的,系统1200可以是智能电话或其他无线通信器。基带处理器1205被配置成执行关于要从系统传送或由系统接收的通信信号的各种信号处理。继而,基带处理器1205耦合到应用处理器1210,其可以是执行除了用户应用(诸如许多公知的社交媒体和多媒体应用)之外的os和其他系统软件的系统的主cpu。应用处理器1210还可以被配置成执行针对设备的各种其他计算操作。

继而,应用处理器1210可以耦合到用户接口/显示器1220,例如触摸屏显示器。此外,应用处理器1210可以耦合到存储器系统,所述存储器系统包括非易失性存储器(即闪速存储器1230)和系统存储器(即动态随机存取存储器(dram)1235)。如进一步所见的,应用处理器1210还耦合到捕获设备1240,诸如可以记录视频和/或静止图像的一个或多个图像捕获设备。

又参考图12,包括订户身份模块和可能地安全存储和密码处理器的通用集成电路卡(uicc)1240也耦合到应用处理器1210。系统1200还可以包括安全处理器1250,所述安全处理器1250可以耦合到应用处理器1210。多个传感器1225可以耦合到应用处理器1210以使得能够实现各种感测到的信息(诸如,加速度计和其他环境信息)的输入。音频输出设备1295可以提供接口以输出声音,例如以语音通信、播放或流式传输音频数据等的形式。

如进一步图示的,提供了近场通信(nfc)无接触接口1260,其经由nfc天线1265在nfc近场中进行通信。虽然在图12中示出了分离的天线,但要理解的是在一些实现方式中,可以提供一个天线或不同的天线集以使得能够实现各种无线功能。

功率管理集成电路(pmic)1215耦合到应用处理器1210以执行平台级功率管理。为此,pmic1215可以向应用处理器1210发布功率管理请求以进入某些低功率状态,如期望的那样。此外,基于平台约束,pmic1215还可以控制系统1200的其他组件的功率级。

为了使得通信能够被传送和接收,各种电路可以耦合在基带处理器1205和天线1290之间。具体地,可以存在射频(rf)收发器1270和无线局域网(wlan)收发器1275。通常,rf收发器1270可以用于根据诸如3g或4g无线通信协议(诸如根据码分多址(cdma)、全球移动通信系统(gsm)、长期演进(lte)或其他协议)之类的给定无线通信协议接收和传送无线数据和呼叫。此外,可以存在gps传感器1280。还可以提供诸如无线电信号(例如am/fm和其他信号)的接收或传送之类的其他无线通信。此外,还可以经由wlan收发器1275来实现局部无线通信。

现在参考图13,示出了实施例可以与其一起使用的另一个示例系统的框图。在图13的图示中,系统1300可以是移动低功率系统,诸如平板计算机,2:1平板电脑、平板手机或其他可转换或独立平板系统。如所图示的,soc1310存在,并且可以被配置成操作为针对该设备的应用处理器。

各种设备可以耦合到soc1310。在所示的图示中,存储器子系统包括耦合到soc1310的闪速存储器1340和dram1345。此外,触摸面板1320耦合到soc1310以提供显示能力和经由触摸的用户输入,包括在触摸面板1320的显示器上供应虚拟键盘。为了提供有线网络连接性,soc1310耦合到以太网接口1330。外围中心1325耦合到soc1310以使得能够实现与各种外围设备对接,诸如可以通过各种端口或其他连接器中的任一个而耦合到系统1300。

除了soc1310内的内部功率管理电路和功能之外,pmic1380耦合到soc1310以提供基于平台的功率管理,例如基于系统是由电池1390还是由经由ac适配器1395的ac功率供电。除了该基于功率源的功率管理之外,pmic1380还可以执行基于环境和使用条件的平台功率管理活动。又进一步,pmic1380可以向soc1310传送控制和状态信息以引起soc1310内的各种功率管理动作。

又参考图13,为了提供无线能力,wlan单元1350耦合到soc1310并继而到天线1355。在各种实现方式中,wlan单元1350可以提供根据一个或多个无线协议的通信。

如进一步图示的,多个传感器1360可以耦合到soc1310。这些传感器可以包括各种加速度计、环境和其他传感器,其包括用户手势传感器。最终,音频编解码器1365耦合到soc1310以提供到音频输出设备1370的接口。当然,要理解的是虽然在图13中以该特定实现方式示出,但许多变型和替换方案是可能的。

现在参考图14,示出代表性计算机系统(诸如,笔记本、ultrabook™或其他小形状因子系统)的框图。在一个实施例中,处理器1410包括微处理器、多核处理器、多线程处理器、超低电压处理器、嵌入式处理器或其他已知的处理元件。在所图示的实现方式中,处理器1410充当用于与系统1400的各种组件中的许多组件通信的主处理单元和中央中心。作为一个示例,处理器1400被实现为soc。

在一个实施例中,处理器1410与系统存储器1415通信。作为说明性示例,系统存储器1415经由多个存储器设备或模块来实现以提供给定量的系统存储器。

为了提供诸如数据、应用、一个或多个操作系统等之类的信息的持久性存储,大容量储存器1420还可以耦合到处理器1410。在各种实施例中,为了使得能够实现较薄和较轻系统设计以及为了改进系统响应性,该大容量储存器可以经由ssd来实现,或者大容量储存器可以主要使用具有较小量ssd储存器充当ssd高速缓存的硬盘驱动器(hdd)来实现以使得能够实现在断电事件期间的上下文状态和其他这样的信息的非易失性存储,以使得在系统活动的重新初始化时可以发生快速上电。在图14中还示出了,闪速设备1422可以例如经由串行外围接口(spi)耦合到处理器1410。该闪速设备可以提供系统软件的非易失性存储,所述系统软件包括基本输入/输出软件(bios)以及系统的其他固件。

在系统1400内可以存在各种输入/输出(i/o)设备。具体地在图14的实施例中示出了显示器1424,所述显示器1424可以是高清晰度lcd或led面板,其可以进一步提供触摸屏1425。在一个实施例中,显示器1424可以经由显示器互连耦合到处理器1410,所述显示器互连可以被实现为高性能图形互连。触摸屏1425可以经由另一个互连耦合到处理器1410,所述另一个互连在实施例中可以是i2c互连。如图14中进一步所示的,除了触摸屏1425之外,通过触摸的方式的用户输入还可以经由触摸板1430而发生,所述触摸板1430可以被配置在底架内并且还可以与触摸屏1425耦合到相同的i2c互连。

为了感知计算和其他目的,各种传感器可以存在于系统内,并且可以以不同的方式耦合到处理器1410。某些惯性和环境传感器可以通过传感器中心1440(例如经由i2c互连)耦合到处理器1410。在图14中所示的实施例中,这些传感器可以包括加速度计1441、环境光传感器(als)1442、罗盘1443和陀螺仪1444。其他环境传感器可以包括一个或多个热传感器1446,在一些实施例中,所述热传感器1446经由系统管理总线(smbus)总线耦合到处理器1410。

在图14中还看到,各种外围设备可以经由低引脚计数(lpc)互连耦合到处理器1410。在所示的实施例中,可以通过嵌入式控制器1435来耦合各种组件。这样的组件可以包括键盘1436(例如,经由ps2接口耦合)、风扇1437和热传感器1439。在一些实施例中,触摸板1430还可以经由ps2接口耦合到ec1435。此外,诸如可信平台模块(tpm)1438之类的安全处理器还可以经由该lpc互连耦合到处理器1410。

系统1400可以以各种各样的方式(包括无线地)与外部设备通信。在图14中所示的实施例中,存在各种无线模块,其中的每一个可以对应于被配置用于特定无线通信协议的无线电。用于在短距离(诸如近场)中的无线通信的一个方式可以是经由nfc单元1445,所述nfc单元1445在一个实施例中可以经由smbus与处理器1410通信。注意到,经由该nfc单元1445,与彼此紧密接近的设备可以通信。

如图14中进一步所见,附加无线单元可以包括其他短距离无线引擎,包括wlan单元1450和蓝牙单元1452。使用wlan单元1450,可以实现wi-fi™通信,而经由蓝牙单元1452,可以发生短距离bluetoothtm通信。这些单元可以经由给定链路与处理器1410通信。

此外,例如根据蜂窝或其他无线广域协议的无线广域通信可以经由wwan单元1456发生,所述wwan单元1456继而可以耦合到订户身份模块(sim)1457。此外,为了使得能够实现位置信息的接收和使用,还可以存在gps模块1455。注意到,在图14中所示的实施例中,wwan单元1456和集成的捕获设备(诸如摄像机模块1454)可以经由给定链路进行通信。

集成的摄像机模块1454可以合并在盖中。为了提供音频输入和输出,音频处理器可以经由数字信号处理器(dsp)1460来实现,所述dsp1460可以经由高清晰度音频(hda)链路耦合到处理器1410。类似地,dsp1460可以与集成编码器/解码器(codec)和放大器1462通信,其继而可以耦合到输出扬声器1463,所述输出扬声器1463可以在底架内实现。类似地,放大器和编解码器1462可以被耦合以从麦克风1465接收音频输入,所述麦克风1465在实施例中可以经由双阵列麦克风(诸如数字麦克风阵列)来实现以提供高质量音频输入以使得能够实现系统内的各种操作的语音激活的控制。还注意到,可以将音频输出从放大器/编解码器1462提供到耳机插口1464。尽管在图14的实施例中以这些特定组件示出,但要理解的是本发明的范围在这方面不被限制。

可以以许多不同的系统类型来实现实施例。现在参考图15,示出了根据本发明的实施例的系统的框图。如图15中所示,多处理器系统1500是点对点互连系统,并且包括经由点对点互连1550耦合的第一处理器1570和第二处理器1580。如图15中所示,处理器1570和1580中的每一个可以是多核处理器,其包括第一和第二处理器核(即,处理器核1574a和1574b以及处理器核1584a和1584b),尽管在处理器中潜在地可以存在更多的核。每一个处理器可以包括pcu或其他功率管理逻辑以执行如本文所述的基于处理器的功率管理。

又参考图15,第一处理器1570还包括存储器控制器中心(mch)1572和点对点(p-p)接口1576和1578。类似地,第二处理器1580包括mch1582以及p-p接口1586和1588。如图15中所示,mch1572和1582将处理器耦合到相应的存储器,即存储器1532和存储器1534,所述存储器可以是本地附接到相应处理器的系统存储器(例如,dram)的部分。第一处理器1570和第二处理器1580可以分别经由p-p互连1562和1564耦合到芯片组1590。如图15中所示,芯片组1590包括p-p接口1594和1598。

此外,芯片组1590包括通过p-p互连1539将芯片组1590与高性能图形引擎1538耦合的接口1592。继而,芯片组1590可以经由接口1596耦合到第一总线1516。如图15中所示,各种输入/输出(i/o)设备1514可以耦合到第一总线1516连同总线桥1518,所述总线桥1518将第一总线1516耦合到第二总线1520。在一个实施例中,各种设备可以耦合到第二总线1520,所述各种设备包括例如键盘/鼠标1522、通信设备1526和可以包括代码1530的数据存储单元1528(诸如盘驱动器或其他大容量存储设备)。另外,音频i/o1524可以耦合到第二总线1520。实施例可以被合并到其他类型的系统中,所述其他类型的系统包括移动设备,诸如智能蜂窝电话、平板计算机、笔记本、ultrabook™等。

多芯片处理器(mcp)封装和其他多设备组件(诸如,双列直插存储器模块(dimm))具有递送针对封装在共同衬底上的每一个设备(例如,每一个管芯或芯片)的温度信息的能力。然而,平台热管理典型地不需要高粒度(例如,密度)的传感器数据,其可以从所有温度传感器可得到。代替地,平台服务器管理固件(smfw)可以基于冷却区内的不同组件而行动以按需递送冷却。提供适当水平的冷却的一个技术可以基于冷却区内的所有组件的最小热裕度。

为了简化具有mcp的smfw实现方式,一种机制可以对从温度传感器接收的数据进行规范化和聚合。例如,smfw可以作用于mcp中的传感器的最小裕度(例如,与热控制技术(诸如,冷却或节流)相关联的确定的触发值与每一个测量的管芯温度之间的差异中的最小差异)。

在实施例中,mcp包括处理器管芯和平台控制器中心(pch)管芯。在另一个实施例中,mcp包括处理器管芯、一个或多个动态随机存取存储器(dram)管芯和网络接口控制器(nic)管芯。在另一个实施例中,mcp包括处理器管芯和nic管芯。在其他实施例中,mcp可以包括两个或更多管芯的其他组合。

为了在确保操作的效率的同时降低smfw复杂性,mcp可以受益于向一个或多个预设阈值(例如,测量温度与预设阈值之间的差异)中的每一个报告最小温度裕度的机制。在实施例中,提供到smfw的裕度可以包括到mcp内的所有管芯的温度控制参数的最小裕度(控制温度裕度)以及到mcp内的所有管芯的节流参数的最小裕度。到温度控制的裕度中的最小裕度可以用于确定是否向mcp提供冷却,而到节流的裕度中的最小裕度可以用于预期mcp中的节流活动。此外,可以报告来自mcp内的所有管芯的最高温度。

针对mcp内的管芯的到温度控制参数的裕度(δtcontrol)可以通过计算管芯的测量温度与控制温度tcontrol(例如,冷却剂被循环以便减低操作温度所处的预设温度)之间的差异来确定。例如,冷却剂可以是气体(例如,空气),其通过一个或多个风扇而循环,或者是液体冷却剂,其被例如泵装置所循环,或者是另一个类型的冷却剂循环机制。

到节流参数的裕度(δtthrottle)可以通过计算mcp内的管芯中的一个的测量温度与节流温度tthrottle(例如,管芯被节流(例如活动水平被降低)所处的预设温度)之间的差异来计算。管芯内的活动的节流(例如,降低)可以通过降低管芯内的逻辑的时钟频率、降低逻辑的操作电压、降低执行逻辑的指令吞吐量、降低管芯内的一个或多个逻辑的工作循环等等或者以上提及的节流技术或其他节流技术中的任何的组合来实施。

图16是根据本发明的实施例的多芯片封装1600的框图。mcp1600可以包括多个管芯16100-1610n,其包括处理器管芯16100和平台控制器中心(pch)管芯16101。

处理器管芯16100可以包括核区域1620,所述核区域1620可以包括多个核16240-1624n、多个温度传感器16260-1626n以及高速缓存存储器1628。处理器管芯16100可以包括非核区域1630,所述非核区域1630可以包括功率管理单元(pmu)1632、互连逻辑1636以及一个或多个非核代理,其中每一个具有一个或多个温度传感器1638。pmu1632可以包括温度比较逻辑1634、温度数据计时器1642以及封装睡眠状态计时器1644。pmu1632可以包括硬件(例如,控制器)、软件、固件或其组合。例如,pmu1632可以包括执行计算(例如,确定在所接收的温度值与温度控制参数之间的差异、确定多个值中的最大值等)的硬件控制器。

pch管芯16101可以包括温度传感器1646和温度报告逻辑1640。附加管芯16102-1610n可以包括动态随机存取存储器(dram)、网络接口控制器(nic)管芯和/或其他管芯中的一个或多个。其他管芯16102-1610n中的每一个可以包括温度传感器和温度报告逻辑(未示出)。

在操作中,温度报告逻辑1640可以向pmu1632报告与pch管芯16101的温度关联的温度数据。温度数据可以由温度传感器1646生成。(可替换地,温度报告逻辑1640可以从温度传感器1646接收原始温度数据,并且可以在向pmu1632报告之前将所接收的原始温度数据转换成温度数据)。可以根据要由温度数据计时器1642确定的时段而在周期性的基础上由温度比较逻辑1634从温度报告逻辑1640接收温度数据。温度数据计时器1642可以在预设时间段(δt)内周期性地倒计时,并且当时间段(δt)完成时,由温度报告逻辑1640从温度传感器1646接收的温度数据可以由pmu1632接收,并且可以被输入到温度比较逻辑1634。在一些实施例中,温度数据可以大体上瞬时被测量,并且瞬时温度数据可以在δt到期时从pch16101传送到pmu1632。在其他实施例中,温度数据可以在时间段δt期间被测量多次。测量的温度数据可以被平均,并且在δt上测量的温度数据的平均可以被提供到温度比较逻辑1634。

基于从每一个管芯接收的温度数据,温度比较逻辑1634可以计算mcp内的最高温度(thighest)。温度比较逻辑1634还可以计算针对每一个管芯的δtthrottle和δtcontrol中的一个或二者。例如,针对第k类型的管芯中的第j管芯的δtthrottlej可以通过计算管芯的测量温度(基于所接收的温度数据而确定)与确定的节流温度tthrottlek(例如,针对管芯类型k的节流温度,其中k是对应于管芯类型的整数)的差异而确定。根据所计算的δtthrottlej值,可以确定针对特定k的最小值(“δtthrottle”)。温度比较逻辑1634可以从δtthrottlek的计算值(针对k的所有值)中选择δtthrottlek的最小值(“δtthrottle”)。

以类似的方式,温度比较逻辑1634可以确定针对第k类型的管芯的第j管芯(j=1,2,...)的δtcontrolj,作为管芯的测量温度与确定的控制温度tcontrolk(例如,针对管芯类型k的控制温度,其中k是对应于管芯类型的整数)的差异。温度比较逻辑1634可以确定针对每个值k的第k类型的管芯的δtcontrolj的最小值(“δtcontrolk”)。根据针对k的所有值的各种δtcontrolk,可以选择最小节流裕度δtcontrol。热报告可以包括thighest、δtthrottle和δtcontrol中的一个或多个。热报告可以被存储在例如pmu1632中,并且可以在请求时被提供。例如,报告可以被提供到软件管理固件(smfw,未示出),其可以在mcp1600外部。

基于热报告,smfw可以确定动作的过程以降低mcp1600的操作温度。例如,如果δtcontrol被smfw解释为mcp1600正操作在过度温度的指示,smfw可以例如经由诸如空气之类的冷却剂或例如液体冷却剂的另一冷却剂来实施mcp1600的冷却。例如,如果冷却剂是空气,则冷却可以经由接合一个或多个风扇以循环空气来实施。例如,如果冷却剂是液体,则冷却可以经由接合一个或多个液体泵以循环冷却剂来实施。如果根据δtcontro的后续值,确定mcp1600不在过度温度操作,则冷却剂循环机制可以被降低、卸除或关闭。

如果根据δtthrottle,确定管芯之一1610i正操作在超过管芯1610i的tthrottlek的温度,则可以指示mcp1600的一个或多个管芯的节流。如果根据δtthrottle的后续值,确定没有管芯温度超过其对应控制温度tthrottlek,则可以停止节流。

图17是根据本发明的实施例的方法1700的流程图。在块1702处,例如在mcp的功率管理单元(pmu)接收温度报告请求。继续到块1704处,由pmu从mcp的每个管芯接收温度数据。前进到块1706,可以确定mcp的所有n个管芯的最大温度tmax。

可以不同地处理针对在不同类型的管芯上收集的温度的热裕度,因为类型k的每个管芯可以具有对管芯类型k特定的tthrottlek和/或tcontrolk。继续到块1707,k被初始化到值1。移动到块1708,可以针对mcp中的特定类型k(例如,k=1,2,3等)的每个管芯确定到节流的裕度(δtthrottlej)。(在一些实施例中,节流温度tthrottlek针对所有管芯是相同的。在其他实施例中,节流温度tthrottlek可以针对每一个管芯类型k不同。)继续进行到块1710,可以根据δtthrottlej的值确定类型k的管芯的最小δtthrottlek。

继续到块1712,可以针对类型k的每个管芯确定到控制的裕度δtcontrolj。(在一些实施例中,控制温度tcontrolk针对所有管芯是相同的。在其他实施例中,控制温度tcontrolk可以取决于管芯类型k。)前进到块1714,可以根据δtcontrolj的值确定针对类型k的管芯的最小δtcontrolj(=δtcontrolk)。移动到判定菱形1716,如果在mcp中存在另一个类型的管芯,则继续进行到块1718,k递增并返回到块1708,针对另一个管芯类型确定最小裕度(例如,δtthrottlek和δtcontrolk)。继续进行到块1720,δtthrottle和δtcontrol被确定为针对k的所有值的δtthrottlek和δtcontrolk的相应值的最小值。前进到块1722,mcp热报告可以响应于请求而被存储,并且可以包括tmax、δtthrottle和δtcontrol中的一个或多个。报告可以在请求时被提供到例如外部请求器(诸如包括mcp、smfw的平台)或者到另一个请求器。

图18是根据本发明的另一个实施例的方法1800的流程图。在块1802处,温度计时器(例如,在mcp的功率管理单元(pmu)内)可以开始,其用于定时第一时段,例如在从mcp的一个或多个管芯接收温度数据到pmu之前发生的定时的间隔。继续到判定菱形1804,如果温度计时器尚未完成其第一时段的定时,则温度计时器可以继续运行,直到完成第一时段为止。继续进行到判定菱形1806,如果mcp是活动状态(例如,mcp处于封装c0状态),则继续到块1814,可以由pmu从mcp的管芯接收温度数据。

如果在判定菱形1806处,mcp处于睡眠状态(例如,处于诸如封装c3状态、封装c6状态等之类的睡眠状态),则继续进行到块1808,延迟计时器可以开始以延迟pmu对温度数据的接收,这可以允许mcp维持在睡眠模式中达附加的延迟时间,所述附加的延迟时间可以导致能量节省,如与较早“唤醒”(例如,以便收集温度数据)相比,所述较早唤醒将由pmu在第一时段到期时请求。继续到判定菱形1810,延迟计时器可以运行以完成延迟时段。当完成延迟时段时,前进到块1811,mcp可以从其睡眠状态醒来以便从mcp的管芯收集温度数据。移动到块1812,可以重置延迟计时器。继续进行到块1814,可以从mcp的管芯读取温度数据,并且继续进行到块1816,可以重置温度数据计时器。继续到块1802,温度数据计时器可以再次开始以定时温度测量之间的另一个第一时段。因而,当mcp处于睡眠状态时,与第一时段相比,包括延迟计时器的数据获取实例的定时可以提供较长“停机时间”(例如,第二时段,其包括第一时段和延迟时段)。当mcp处于睡眠模式时的第二时段的实现可以导致由于其中mcp处于睡眠状态的延长的时间间隔而增加的功率节省。

以下描述其他实施例。

第1实施例是一种处理器,其包括至少一个核和功率管理逻辑。所述功率管理逻辑要从包括处理器的封装内的多个管芯接收温度数据,确定多个温度控制裕度中的最小温度控制裕度,其中每一个温度控制裕度要基于与管芯相关联的相应热控制温度以及基于与管芯相关联的相应温度数据而确定,生成热报告,所述热报告要包括最小温度控制裕度,以及存储热报告。

第2实施例包括第1实施例的要素。此外,所述功率管理逻辑还要确定针对所述多个管芯中的每一个管芯的对应温度控制裕度,其中每个温度控制裕度要基于与管芯相关联的相应热控制温度以及与管芯相关联的相应温度数据之间的差异而确定。

第3实施例包括第2实施例的要素。此外,所述功率管理逻辑要从所述多个温度控制裕度中选择最小热控制裕度。

第4实施例包括第2实施例的要素。此外,所述功率管理逻辑要确定所述封装是否处于活动状态,并且响应于确定所述封装处于活动状态,所述功率管理逻辑要根据第一时间段周期性地从所述封装的每一个管芯接收对应温度数据。

第5实施例包括第4实施例的要素。此外,响应于由功率管理逻辑确定所述封装处于睡眠状态,所述功率管理逻辑要在第二时间段已经逝去之后将所述封装唤醒到活动状态,其中第二时段长于第一时间段,并且当将所述封装唤醒到活动状态时,所述功率管理逻辑要从所述多个管芯中的每一个管芯接收对应温度数据。

第6实施例包括第1实施例的要素,其中所述功率管理逻辑要响应于请求而提供热报告。

第7实施例包括第1实施例的要素,其中所述功率管理逻辑还要确定多个节流裕度中的每一个,并且其中每个节流裕度是基于节流温度以及基于从所述多个管芯中的对应管芯接收的对应温度数据而确定的。

第8实施例包括第7实施例的要素。此外,所述功率管理逻辑还要确定所述多个节流裕度中的最小节流裕度,并且在热报告中包括最小节流裕度。

第9实施例包括实施例1-9中的任一个的要素,其中所述功率管理逻辑还要基于所接收的温度数据而确定所述多个管芯的最高温度,并且在热报告中包括所述多个管芯的最高温度。

第10实施例是一种多芯片封装(mcp),其要包括多个管芯,每一个管芯提供与管芯的管芯温度关联的对应温度数据。mcp还要包括功率管理逻辑,所述功率管理逻辑要从每一个管芯接收包括对应温度数据的多个温度数据,确定多个温度控制裕度,每一个温度控制裕度基于所述管芯的对应温度数据以及基于所述管芯的相应热控制温度,确定所述温度控制裕度中的最小温度控制裕度,以及存储包括最小温度控制裕度的报告。

第11实施例包括第10实施例的要素。此外,所述功率管理逻辑要从多个温度数据中确定最大管芯温度,并且在报告中包括与管芯的最大管芯温度关联的信息。

第12实施例包括第10实施例的要素,其中所述处理器要确定针对每一个管芯的节流裕度,所述节流裕度是基于管芯的相应节流温度与基于从管芯接收的温度数据的管芯温度的比较而确定的。

第13实施例包括第12实施例的要素,并且,所述处理器还要从所述多个节流裕度中确定最小节流裕度,并且在报告中包括最小节流裕度。

第14实施例包括实施例10-13中的任一个的要素。此外,所述功率管理逻辑要响应于mcp处于活动状态,根据第一时间段周期性地从每一个管芯收集对应温度数据。

第15实施例包括第14实施例的要素。此外,响应于mcp处于睡眠状态中,所述功率管理逻辑要在长于第一时间段的第二时间段之后唤醒mcp,并且从每一个管芯收集对应温度数据。

第16实施例是一种其上存储有数据的机器可读介质,所述数据如果被至少一个机器使用则使至少一个机器制造至少一个集成电路来执行方法,所述方法包括:在多芯片封装(mcp)的功率管理逻辑处从多芯片封装(mcp)的多个管芯中的每一个管芯接收对应温度数据,由功率管理逻辑基于对应温度数据以及基于管芯的相应控制温度而确定针对每一个管芯的对应控制温度裕度,由功率管理逻辑从控制温度裕度中确定最小控制温度裕度,以及由功率管理逻辑存储包括最小控制温度裕度的热报告。

第17实施例包括第16实施例的要素。此外,所述方法还包括由功率管理逻辑基于管芯温度与关联于mcp的活动的减少的节流温度的比较而确定管芯的最小节流裕度,并且在热报告中包括最小节流裕度。

第18实施例包括实施例16-17中的任一个的要素。此外,mcp处于活动状态和睡眠状态之一,并且所述方法还包括由功率管理逻辑确定mcp是否处于活动状态。

第19实施例包括第18实施例的要素,并且所述方法还包括响应于确定mcp处于活动状态,由功率管理逻辑根据第一时间段从每一个管芯周期性地接收对应温度数据。

第20实施例包括第19实施例的要素,并且所述方法还包括,响应于确定mcp处于睡眠状态,使mcp在大于第一时段的第二时间段已经逝去之后改变到活动状态,并且当mcp处于活动状态时,接收对应温度数据。

第21实施例是一种方法,其要包括:在多芯片封装(mcp)的功率管理逻辑处从多芯片封装(mcp)的多个管芯中的每一个管芯接收对应温度数据,由功率管理逻辑基于对应温度数据以及基于管芯的相应控制温度而确定针对每一个管芯的对应控制温度裕度,由功率管理逻辑从控制温度裕度中确定最小控制温度裕度,以及由功率管理逻辑存储包括最小控制温度裕度的热报告。

第22实施例包括第21实施例的要素,并且还包括由功率管理逻辑基于管芯温度与关联于mcp的活动的减少的节流温度的比较而确定管芯的最小节流裕度,并且在热报告中包括最小节流裕度。

第23实施例包括第21实施例的要素,其中mcp处于活动状态和睡眠状态之一,并且所述方法还包括由功率管理逻辑确定mcp是否处于活动状态。

第24实施例包括第23实施例的要素,并且还包括响应于确定mcp处于活动状态,由功率管理逻辑根据第一时间段从每一个管芯周期性地接收对应温度数据。

第25实施例包括第24实施例的要素,并且还包括,响应于确定mcp处于睡眠状态,使mcp在大于第一时段的第二时间段已经逝去之后改变到活动状态,并且当mcp处于活动状态时,接收对应温度数据。

第26实施例包括第21实施例的要素,并且还包括提供对请求的热报告响应。

第27实施例包括执行实施例21-26中的任一个的方法的装置。

第28实施例包括一种装置,其包括执行实施例21-26中的任一个的方法的部件。

第29实施例是一种装置,其要包括:用于从多芯片封装(mcp)的多个管芯中的每一个管芯接收对应温度数据的部件,用于基于对应温度数据以及基于管芯的相应控制温度而确定针对每一个管芯的对应控制温度裕度的部件,用于从控制温度裕度中确定最小控制温度裕度的部件,以及用于存储包括最小控制温度裕度的热报告的部件。

第30实施例包括第29实施例的要素,并且还包括用于基于管芯温度与关联于mcp的活动的减少的节流温度的比较而确定管芯的最小节流裕度以及用于在热报告中包括最小节流裕度的部件。

第31实施例包括第29实施例的要素。mcp处于活动状态和睡眠状态之一,并且所述装置还包括用于确定mcp是否处于活动状态的部件。

第32实施例包括第31实施例的要素,并且还包括用于响应于确定mcp处于活动状态而由功率管理逻辑根据第一时间段从每一个管芯周期性地接收对应温度数据的部件。

第33实施例包括第32实施例的要素,还包括,用于响应于确定mcp处于睡眠状态而使mcp在大于第一时段的第二时间段已经逝去之后改变到活动状态以及当mcp处于活动状态时接收对应温度数据的部件。

第34实施例包括实施例29-33中的任一个的要素,并且还包括用于提供对请求的热报告响应的部件。

实施例可以以代码来实现,并且可以被存储在非临时性存储介质上,所述非临时性存储介质具有存储在其上的指令,所述指令可以用于将系统编程为执行所述指令。实施例还可以以数据来实现,并且可以被存储在非临时性存储介质上,其如果被至少一个机器使用,则使至少一个机器制造至少一个集成电路以执行一个或多个操作。所述存储介质可以包括但不限于任何类型的盘(包括软盘、光盘、固态驱动器(ssd)、压缩盘只读存储器(cd-rom)、压缩盘可重写器(cd-rw)和磁光盘)、半导体设备(诸如只读存储器(rom)、诸如动态随机存取存储器(dram)、静态随机存取存储器(sram)之类的随机存取存储器(ram)、可擦除可编程只读存储器(eprom)、闪速存储器、电可擦除可编程只读存储器(eeprom)、磁卡或光卡)或者适合于存储电子指令的任何其他类型的介质。

虽然已经关于有限数目的实施例描述了本发明,但本领域技术人员将领会到各种修改及根据其的变型。意图在于随附权利要求涵盖如落入该本发明的真实精神和范围内的所有这样的修改和变型。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1