专利名称:动态随机存取内存的缺陷修护及状态显示的方法
技术领域:
本发明涉及一种动态随机存取内存的缺陷修护及状态显示的方法,尤指一种将动态随机存取内存(DRAM)内不良且失效的存储页面(memory page)重新对映(redirect)至预定的备份内存,并显示内存使用状况的各种讯息,使内存在有缺陷的情形下仍能顺利运作的设计。
过去25年,动态随机存取内存(以下简称为DRAM)储存容量的需求已经增加了106倍,这是由于一晶体管一电容器存储单元的导论、沟道电容器及成叠电容器的缩放比例及导论,以及晶体管的缩放比例各项技术的应用,已经大幅缩小DRAM存储单元的大小,允许每一芯片拥有更高的存储单元密度。但不幸的是,伴随着密度的增加,前述最小化特征的制程费用(processing costs)也跟着急速上升。另一个高密度DRAM的缺点系因当密度不断增加,即使是DRAM合格品,使用时也容易发生电子穿凿现象,因而加速其衰减率,且因此降低储存其中的资料完整性,这是要求维持资料高层次完整性的高阶服务器内存的主要致命点。
就DRAM的稳定度而言,其产品生命周期(lifecycle)如
图1所示的澡缸曲线(bathtub curve),大致分为初期不稳定期(infantmortality)、稳定使用期(useful life)及产品老化期(wear out)三个阶段。在初期不稳定期中,因DRAM经过在晶圆(wafer)切割、测试、封装形成,在为避免因制程所产生的缺陷(例如杂质沉积等),使DRAM无法正常的存取,必须要经过各种不同的测试及修复(如雷射或电容等),以期获得可使用的合格品,这些不可避免的测试与修复的费用占生产成本极高的比率,而无法将成本压低取得更佳的竞争力。
经过前述步骤后所得到的合格品,虽可正常的运作但仍具极不稳定性,因此DRAM制造商通常会在初期不稳定期中再进行老化测试(bum-in),利用高温及高压的环境,将DRAM提早进入稳定使用期,使消费者所购买到的DRAM均具有良好的工作稳定度。使用者在使用一段时间后,因DRAM本身的材料及工作环境所施于的电压与温度影响下逐渐老化进入产品老化期,在此阶段中DRAM工作的不稳定度提高,容易造成系统时常死机、执行不稳定,在现阶段而言,当使用者发现系统前述现象时,多采用换新的方式措施,故DRAM遂结束其产品生命。
但事实上,由于DRAM是切割成复数个存储页面(page)的基本储存单位,即DRAM的老化现象是因存储页面老化造成资料无法正常存取所致,目前系统多采用纠错码ECC(error correction code)来检测资料存取错误并修正。纠错码ECC基本上是侦测n bit、修正m bit资料;m≤n。举例来说总线为64位的DRAM,可以利用8位纠错码ECC,即每8位资料纠错码ECC去侦测错误并修正,但资料位附加了8个位的纠错码,但拉长了资料8位长度将使内存成本增加1/8,因此对厂商而言,为达到侦测、修正目的及成本考虑,纠错码ECC多采8位长度较为适当,如此却也因此限定了纠错码ECC2位侦测(detection)、1位修正(correction),一旦单一位错误转变为双位错误,将形成无法修复的硬件错误(hard error)。
为防止单一位错误转变为双位错误,目前纠错码ECC对资料侦测时,系统正常运作将暂时停止并执行一特殊程序,去检验资料是否存在错误,当发现单一位错误时立即予以修复,但发生单一位错误即意味着该DRAM运作不稳定,而使系统的执行呈现出不稳定状态,且发生错误的地址虽经修复却难保下一次不会再发生,并可能因不稳定而转变为双位错误。导致DRAM无法运作而将必须换装。由于纠错码ECC的运作完全是由硬件执行,使用者完全无法得知DRAM的运作状态,在此种情况下,系统必须要时常关机、换装再重新启动,但在大多数的工作环境中系统是不允许被关机,尤其是大企业的内部网络服务器,一旦关机势必造成内部工作的停顿,增加停工时间的成本花费及服务器内存的维护费用。
因此,本发明的主要目的即是提供一种动态随机存取内存的缺陷修护及状态显示的方法,主要是透过一监督程序定时激活测试,在前述DRAM的三个周期中提供实时的测试与存储页面的修复,使DRAM制造商不需要再于初期不稳定期作任何的测试即能出厂贩售,以节省测试及修复的成本费用,且DRAM在系统使用中不会因其中一个存储页面不正常工作而死机,能延长DRAM的产品使用周期,特别是不能关机与发生差错的服务器系统能维持正常存取运作,减少DRAM更换次数、系统的关机频率及保持高度的资料完整性。
依据前述,本发明是在DRAM中预定复数个备份存储页面作为存储页面测试时内存资料的暂存处,将被测试存储页面内存资料复制至此预定的备份存储页面中,再建立一对应缓冲表(TLB)用以指出被测试存储页面与预定的备份存储页面的相对映位置,透过对应缓冲表,被测试存储页面重配置至预定的备份存储页面,同时监督程序亦暂时冻结(block)被测试存储页面的存取动作;当测试发现有缺陷的存储页面,监督程序将持续冻结该被测试存储页面,且任何存取至该被测试存储页面的动作均将依据对应缓冲表而改变至预定的备份存储页面,使资料的存取动作均被指定至备份存储页面,而使DRAM不论有无缺陷发生均能正常动作及保持高度的资料完整性。
本发明的另一目的即是透过CPU驱动一LCD,将诸如测试频率、完整报告、发现错误、内存利用总和及实际内存大小等讯息显示出,使用者能随时掌握及观测DRAM的使用状态。
本发明的另一目的即是在资料复制至备份存储页面时,透过监督程序进行纠错码ECC检验程序,若发生单一位或双位错误时,该检验程序将记录该存储页面是否为不稳定或是不可修复,并日后加强检验以避免单一位转变为双位错误。
以下将对本发明的结构设计与技术原理,作一详细说明,并参阅附图,将对本发明的特征作更进一步的了解。
图面说明图1为DRAM的澡缸曲线图;图2为本发明的内存模块架构示意图3为本发明的运作步骤流程图。
附图标记说明10DRAM11被测试存储页面12备份存储页面20监督程序30定时器40显示组件本发明的详细说明如图2所示,本发明可借助硬件或是软件技术手段实现,该动态随机存取内存DRAM10架构包括有一监督程序20,经常性地检查储存在DRAM内资料的完整性;一定时器30,提供测试周期的频率至监督程序;一显示组件40(在本实施例是采用LCD液晶显示组件、或是直接透过监视器显示),用以显示有关DRAM10的各项讯息。
如图3所示的流程步骤,在每一个周期开始后,监督程序20将先预定一备份的存储页面以作为被测试存储页面11资料的暂存地址(因DRAM10是以存储页面元单位循序储存,因此通常是DRAM10的最后一个存储页面),将被测试存储页面11内存资料复制(copy)至预定的备份存储页面12中,并建立一对应缓冲表(Table ofLook-Aside Buffer,TLB)用以指出被测试存储页面11,与预定的备份存储页面12之相对映位置,透过对应缓冲表,被测试的存储页面11重配置(relocate)至备份存储页面12,所以不会影响系统原有的存取运作,同时监督程序20亦暂时冻结(block)被测试存储页面,开始进行该存储页面的测试。
在本实施例中,监督程序20是一页一页地逐页检查;当没有发现错误,该页面资料将自预定的备份存储页面12回存至被测试存储页面11,并且重新开放其存取动作,及继续下一个存储页面的测试。
而前述的存储页面检查,在本发明中可采用下述方式1.不包含纠错码ECC(error correction code)检查方法主要是透过正常的硬件测试(hardwaretest),对存储页面的写入然后读出的连续动作动作,去测试是否可以正常的存取,倘若不行则表示该存储页面发生错误。
2.包含纠错码ECC检查方法监督程序将资料复制至备份存储页面时将同时进行纠错码ECC检验程序,若发生单一位错误时,该检验程序将记录该存储页面是否为不稳定或是不可修复并加强检验;如果再度发生则将冻结该发生错误的存储页面,以避免单一位转变为双位错误,且任何存取至该存储页面的动作均将依据对应缓冲表而改变至预定的备份存储页面,维持正常的存取运作。
当发现DRAM10被测试存储页面11内存在有缺陷(如前述电子凿穿等情况)、或发生错误时,监督程序20将持续冻结该被测试存储页面11,且任何存取至该存储页面11的动作均将依据对应缓冲表而改变至预定的备份存储页面12,因此原来的备份存储页面12将持续被占用,为进行下一存储页面的测试,监督程序20必须再预定另一个备份存储页面12以便下一个被测试存储页面暂存资料。同时驱动显示组件40(LCD)将诸如测试频率、完整报告、发现错误(如ECC错误次数、可修复数、不可修复数)、内存利用总和及实际内存大小等讯息显示出,以使使用者实时掌握DRAM10的使用状况。
另外,显示组件40(LCD)的显示内容将保持原状直到下一个测试周期开始。
综合上述可归纳下列步骤a.预定一备份存储页面12以作为被测试页面资料11的暂存地址;b.每一个测试周期开始后,被测试存储页面11内存资料复制至前述的备份存储页面12;c.建立一对应缓冲表用以指出被测试存储页面11与预定的备份存储页面12之相对映位置;并透过对应缓冲表将被测试存储页面11重配置至预定的备份存储页面12,使存取动作改变至被备份存储页面;d.开始测试;e.若没有发现错误,将备份存储页面12内存资料回存至被测试存储页面11,并且重新开放其存取动作,及继续下一个存储页面的测试;f.若发现有错误,监督程序20将持续冻结该被测试存储页面11,且任何存取至该存储页面的动作均将依据对应缓冲表而改变至预定的备份存储页面,以维持正常的存取运作;
g.将测试结果或DRAM使用状态透过显示组件显示出。
综上所述,本发明具有下列优势1.DRAM制造商在完成封装后,不需要经过任何的测试,而测试的过程完全在使用者的系统进行,一旦发生错误立即修复,维持系统的正常运作,无需再做无谓的测试、修复成本花费。
2.在服务器不能关机与发生差错的前提下,本发明的测试与缺陷修护,能使DRAM的运作维持正常,且透过LCD显示,维护者能充份掌握DRAM的运作状态,将使停工时间成本花费及服务器内存维护费用降至最低。
3.纠错码ECC检查时,CPU仍正常运作,不会影响到系统的执行效率。
综上所述,本发明所提供的动态随机存取内存的缺陷修护及状态显示的方法,透过监督程序实时对损坏的存储页面进行冻结及实时修补,同时透过显示组件将DRAM之使用状态显示出,使使用者随时掌握DRAM的使用状态,不因错误而能维持正常存取及高度的资料完整性;对于传统内存缺陷需更换整个内存模块的缺点提出有效的解决办法及对策。
以上所述的仅仅是本发明较佳实施例之一而已;凡依本发明权利要求范围所作的等效变化或修饰或撷取部分功能的雷同制作,皆应仍属本发明专利权所涵盖的范围。
权利要求
1.一种动态随机存取内存的缺陷修护及显示方法,其特征在于主要是由一监督程序经常性地检查动态随机存取内存(DRAM)的各个存储页面内存资料完整性的运作状态,并予以实时回复维持正常运作,包括有下列步骤a.预定一备份的存储页面以作为测试页面资料的暂存地址;b.每一个测试周期开始后,被测试存储页面内存资料复制至前述备份存储页面;c.建立一对应缓冲表用以指出被测试存储页面与预定的备份存储页面的相对映位置;并透过对应缓冲表将被测试存储页面重配置至预定的备份存储页面,使存取动作改变至备份存储页面;d,若测试无误,将备份存储页面内存资料回存至被测试存储页面,并且重新开放其存取动作,及继续下一个存储页面的测试;e.若测试发现有错误,监督程序将持续冻结该被测试存储页面,且任何存取至该被测试存储页面的动作均将依据对应缓冲表而改变至预定的备份存储页面;f.显示组件显示测试结果。
2.如权利要求1所述的动态随机存取内存的缺陷修护及显示方法,其特征在于其中该监督程序是一页一页地逐页检查。
3.如权利要求1所述的动态随机存取内存的缺陷修护及显示方法,其特征在于其中该监督程序的测试周期是由一定时器所供应。
4.如权利要求1所述的动态随机存取内存的缺陷修护及显示方法,其特征在于其中显示组件为液晶显示组件(LCD)、监视器等。
5.如权利要求1所述的动态随机存取内存的缺陷修护及显示方法,其特征在于其中该步骤f显示的结果包括测试频率、完整报告、发现错误、内存利用总和及实际内存大小等讯息,以使使用者实时掌握DRAM的使用状况。
6.如权利要求1所述的动态随机存取内存的缺陷修护及显示方法,其特征在于其中该显示组件的显示内容保持原状直到下一个测试周期开始。
7.如权利要求1所述的动态随机存取内存的缺陷修护及显示方法,其特征在于其中该步骤e中被测试存储页面被持续占用,下一个存储页面测试时,监督程序再预定另一个备份存储页面以便被测试存储页面继续暂存资料,同时对应缓冲表并记录发现缺陷的存储页面,及下一个被测试存储页面与预定的备份存储页面的对映关系。
8.如权利要求1所述的动态随机存取内存的缺陷修护及显示方法,其特征在于其中该存储页面检查更包括有不包含错误修正码检查方法,是透过正常的硬件测试,对存储页面的写入然后读出的连续动作动作,去测试是否可以正常的存取,倘若不行则表示该存储页面发生错误。
9.如权利要求1所述的动态随机存取内存的缺陷修护及显示方法,其特征在于其中该存储页面检查更包括有包含错误修正码检查方法,是于前述监督程序将资料复制至备份存储页面时同时进行,若发生单一位错误时,将记录该存储页面为不稳定并予以修复及加强检验;若相同的错误再发生,则将执行步骤e以避免单一位转变为双位错误;若错误消失,则执行步骤d。
全文摘要
本发明有关一种动态随机存取内存的缺陷修护及状态显示的方法,主要是透过一监督程序定时激活测试,当测试发现有缺陷的存储页面,监督程序将持续冻结该被测试存储页面,且任何存取至该存储页面的动作均将依据对应缓冲表而改变至预定的备份存储页面,并驱动LCD将诸如测试频率、完整报告、发现错误、内存利用总和及实际内存大小等讯息显示出,使DRAM不因错误而能维持正常存取及高度的资料完整件。
文档编号G11C7/24GK1329337SQ01118329
公开日2002年1月2日 申请日期2001年5月24日 优先权日2001年5月24日
发明者后健慈, 徐秀莹 申请人:盖内蒂克瓦尔有限公司