IBM p690服务器的可靠性, 可用性, 可服务性(RAS)介绍
IBM 互联网服务器部 吴市建
1.先进的RAS特性和功能
IBM花费了多年的时间来发展主机和关键任务服务器的RAS能力。IBM p690现在能够利用这些知识和经验。
以下的特性提供了UNIX业界领先的RAS:
-
自动首次错误数据捕获和诊断错误隔离能力
-
自治愈内部POWER4处理器组冗余
-
业界第一的PCI总线奇偶错误恢复
-
避免检查中止的不可收集错误处理
-
动态错误恢复
-
错误检查和纠正(ECC)或在主存上的等价保护,所有一、二、和三级缓存和内部处理器组
-
连续和冗余的位操作被使主存具有自治愈功能
-
在主存上具有的Chipkill纠正功能
-
N+1的冗余电源,双电源线,和对电源及风扇的在线维护
-
针对处理器、缓存、内存、I/O和DASD的预计性错误分析
-
基于运行时错误来决定是否分离处理器运行和启动(动态处理器离线和永久处理器离线)
-
缓存和主存的离线技术
-
通过选择高品质的部件最大限度的减少故障
-
针对电源、风扇和I/O子系统的基于首次故障数据捕获技术的并行、运行间检测技术
优秀的质量和可靠性是p690各个方面的内在品质。这些措施被设计成确保产品按要求操作、运行可靠、高效的处理极少发生的错误,并在大多数情况下提供及时的、令人满意的修复。对CPU、内存、I/O、电源和风扇等部件提供了基于内部错误检测器、首次故障数据捕获技术、运行期间内部错误状况分析等主机级的检测能力,消除了对故障再现的需求。
可靠性是高端产品在设计中最重要的因素之一。RAS (Reliability, Availability, 和 Serviceability) 是p690和AIX 5L体系的完整部分。在结构开发的初始阶段,RAS 的革新是极为重要的。它贯穿了设计和产品开发的各个时期,RAS 的设计被回顾、评定、开发、评价、和完善。它还延续到制造和发售过程,期间制造品质被广泛的测量和连续的评价。
2.可靠性 - 避免故障
p690开发的主要设计成就是分析中央电器柜(CEC)中的单点故障,或者是消除,或者是提供了控制的能力来显著减少它们的失效的可能性。控制一个系统最好的方法是在第一次发生故障的地方就将它隔离。
CEC中的组件被设计成能提供“主机” (mainframe) 级别的可靠性。这些组件提供了出众的可靠性级别,忍受了额外的压力测试,超越当今被广泛用于UNIX系统的业界标准的组件。
组件数量的减少也能为避免失效做出贡献,如POWER4芯片内置2颗处理器。另外,整个POWER4芯片组中的内部阵列软错误被内部ECC和恢复技术系统的标志出来。除了在内存子系统中采用了ECC技术之外,通过采用更可靠的内存片与内存板焊接技术,基础内存DIMM技术也在可靠性方面做了重大改进。
如上图所示,处理器被安装在一个多芯片模块上 (Multi-Chip Module, MCM),这个模块被直接连接到p690背板上。这种包装方式被仔细的设计,通过取消单个处理器模块被安装到处理器卡上,处理器卡被安装到背板上的分层包装,提供增强的可靠性级别。另外,MCM在“桂绝缘体”基体上构造高密度的铜导线技术,提供了更快的性能,并降低了温度,提高可靠性。
我们使用术语空气移动设备 (Air Moving Device, ADM) 作为通用的术语来替代风扇或送风机。系统单元中AMD的速度跟随I/O单元中AMD的速度,当一个AMD出现故障时这能增强空气流通,维持合适的冷却级别。
这种包装方式提供电磁兼容 (Electromagnetic Compatibility, EMC) 防护,这能减少因电子噪声诱导发生的故障,并能提供良好的固定以预防松开的电路系统连接而产生的震动或抖动。这种包装特性消除了许多UNIX服务器中因缺少良好的包装而导致的间歇性的错误。
在设计和开发期间,子系统经历了严格的确认和综合的测试过程。在系统制造期间,p690系统经历了彻底的测试以保证产品的高质量。广泛的错误检测和检查线路帮助维护系统中数据的存储和传输的完整性。系统设计方便了识别组件的故障,这些故障或是动态的被纠正,或是在适当的报告后被隔离以便修复。系统总线上的奇偶校验,远程I/O (RIO)总线上循环冗余检测,以及ECC技术在内存中的广泛应用提供了这些能力。
内建自检 (Built-In Self-Test, BIST) 和 上电自检 (Power-On Self-Test) 被设计用来检查处理器、缓冲、和关联的硬件,这些硬件是每次服务器上电后操作系统正常启动所必须的。额外的测试在通电期间也可以被选择,如完全检验系统内存和芯片互联线,以作为额外的可靠性测量。
 |