硅谷杂志:HACMP V5系统可用性管理探究实践 |
| 2012-07-27 13:20 作者:宋 涛 来源:硅谷网 HV: 编辑: 【搜索试试】
|
|
硅谷网7月27日消息 (原文载于《硅谷》杂志)IBM公司的HACMPV5软件是基于AIX平台的,在高可用系统层次实现关键性任务计算环境的工具软件。HACMP应用于RS/6000系列的单处理器机型、对称多处理器机型或SP的节点,可以检测系统故障并快速恢复服务,使最终用户只感受到很小的中断时间。介绍HACMPV5系统的核心技术与应用方法。
IBM公司的HACMP高可用性集群多处理技术是以UNIX为基础的,处理关键人物的计算平台工具,能够应用与系统关键资源的管理。的配置方式有很多种,根据具体系统的配置与应用的复杂情况,HACMP的接管时间范围是30到300秒。HACMP还能够提供有效且经济的防治服务器意外宕机和外部断电的途径,通过多个集群的管理器核心,对集群网络中各个部分的状态进行价差,协同服务器处理机进行监视与连接。当确定某部分出现问题的时候,管理器集群则启动程序完成整体集群的重新配置,确保系统能够在意外发生的情况下继续工作。
1核心技术
HACMP(HighAvailabilityClusterMultiProcessing)有两个主要的组成部分:高可用技术(HA)和群集多处理技术(CMP)。
1.1高可用技术
高可用技术并不是通过将可用性当作一系列重复的物理设备来实现高可用性,它将高可用性看作是一个全系统范围的、共享的资源的集合,这些资源相互协作来保证关键的服务。高可用技术将软件和工业标准的硬件结合起来,在系统、设备或应用发生故障时通过快速恢复关键服务来使宕机时间减至最小。尽管不能立即切换,恢复服务也是很快的,通常在1分钟之内。容错技术和高可用技术的区别在于服务中断的时间。当硬件发生故障时,容错环境没有宕机时间,而高可用环境有很小的宕机时间。但是,在容错环境中,由于软件故障无法被检测,有可能造成系统的严重破坏。而在高可用环境中,软件故障只会造成很小的宕机时间。现在,大多数的公司都愿意忍受一小段的宕机时间,采用高可用技术,而不愿意花费高得多的代价采用只能检测硬件故障的容错技术。另外,在高可用配置中,备份机还可承担其他应用。
1.2群集多处理技术
群集多处理技术是指一组松散耦合的机器,通过网络连接在一起,共享磁盘资源。在群集中,多个服务器协同工作,为用户提供一组服务或资源。将两个或多个服务器组成群集来备份关键应用是一个划算的高可用性解决方案。用户可以使用更多的技术能力,同时确保关键应用在硬件或软件故障后能够快速恢复正常工作。群集多处理技术还为客户提供了灵活的扩展途径。客户可以很容易地在群集中增加处理器以分担不断增加的工作量,还可以对群集中的处理器进行升级。而在容错环境中,则必须同时增加两个处理器,其中一个作为冗余备份,在正常工作时不进行任何处理。
2应用方法
在HACMP群集的网络配置中,主要有两种网络类型:TCP/IP网和非TCP/IP网。非TCP/IP网一般采用RS232串行线连接,专用于心跳侦测,判别硬件故障。TCP/IP网兼有数据通讯和心跳侦测的功能,但它的心跳侦测主要判别TCP/IP软件的故障。之所以采用两种心跳方式,是因为如果只用TCP/IP网络做心跳检测,当出现TCP/IP软件故障时,会使心跳停止,此时主机将错误地认为对方出现硬件失效,从而出现接管错误。采用专用的非TCP/IP网则可以避免这种错误。HACMP支持的TCP/IP网包括:以太网、令牌环、ATM、FDDI、SLIP、FCS、SPSwitch、SOCC、GenericIP:非TCP/IP网支持:RS232串行接口、目标模式SCSI和目标模式SSA,非TCP/IP网的类型在HACMP的网络类型中都要配置成“Serial(串行)”。在一个群集中,HACMP最多可以支持32个TCP/IP连接,每个节点主机最多支持24个TCP/IP网卡。对于两个节点的群集,每个主机上需要两个网卡(Service和Standby)和一个用于对接心跳线的串口;对于两个以上节点的群集,根据配置方式,可能需要多个网卡和串口。每个节点配置两个串口可以支持两个以上节点群集心跳线的连接,将每个串口依次连接成环可以保证每个节点有两个邻居节点。HACMP群集支持SSA和SCSI磁盘子系统。SSA磁盘子系统中的7131和7133系列可以用于RS/6000主机。在SSA7133磁盘子系统发布之后,SCSI磁盘子系统已经很少在HACMP群集中使用。
资源组定义在一个集群中,由于节点本身是一个独立的主机系统,节点间的相互关系其本身并不知道,必须有相应的配置规则说明,即通过定义集群中的资源组来实现。在一个资源组中,指名了节点间的备份关系及顺序,每个节点拥有的资源,如SERVICEIP,APPLICATIONSERVER,VG等。当系统工作时检测到故障,需要进行节点接管时,失效的节点占用的资源将被释放,而由配置规则指定的节点接管这些资源。在HACMP系统上,根据用户需要,提供3类资源组:1)RotatingResource;2)CascadingResource;3)ConcurrentResource。其中CascadingResource是使用最多的一类资源组,它为属于该组中的节点定义了不同的优先级,最高优先级的节点具有在接管故障节点时的优先权。
在HACMP集群中,每个节点通过物理相连的接口,包括网络、心跳线、共享磁盘阵列等定期交换KA(KeepAlive,表明自身活动状态的)数据包,如在规定时间间隔内没有正常交换KA包,则表明系统可能有故障,需调用相应的脚本(Script)程序进一步确定故障并生成规定的事件。在HACMP集群中,KA包的交换频率、故障容忍次数可以在系统配置规则中设定。3.故障节点的接管当集群中的某个节点发生故障时,其他节点根据资源组中的定义规则加以接管。但要注意的是,这个接管只是对数据的接管,而内存中进程的状态会丢失。4.IP地址的互换与接管集群系统中的每个节点主机上至少有两个网络接口即SVC和STY,当提供客户端应用访问的SVC发生故障时,若该节点上的备用网络接口STY可用,则进行IP地址的转换,即将STYY转换成与SVC相同的IP地址,客户并无感觉。这在HACMP中被称为“IPSWAP”。如果某节点主机(服务器)整机故障,则根据集群的节点接管规则,由正常工作节点上的网络接口STY接管故障节点SVC的IP地址,这称为HACMP中的“IPTakeOverss”。
3结束语
16HACMP高可靠性灾备方案HACMP容灾系统在世界范围内广泛应用,具有以下鲜明的特点:简单易用,7×24小时集群应用技术;显著减少停机时间,允许不问断的进行集群升级和系统维护;提供多种数据备份和恢复途径,以满足灾备的需求。
|
|
|
|
【对“硅谷杂志:HACMP V5系统可用性管理探究实践”发布评论】 |
版权及免责声明:
① 本网站部分投稿来源于“网友”,涉及投资、理财、消费等内容,请亲们反复甄别,切勿轻信。本网站部分由赞助商提供的内容属于【广告】性质,仅供阅读,不构成具体实施建议,请谨慎对待。据此操作,风险自担。
② 内容来源注明“硅谷网”及其相关称谓的文字、图片和音视频,版权均属本网站所有,任何媒体、网站或个人需经本网站许可方可复制或转载,并在使用时必须注明来源【硅谷网】或对应来源,违者本网站将依法追究责任。
③ 注明来源为各大报纸、杂志、网站及其他媒体的文章,文章原作者享有著作权,本网站转载其他媒体稿件是为传播更多的信息,并不代表赞同其观点和对其真实性负责,本网站不承担此类稿件侵权行为的连带责任。
④ 本网站不对非自身发布内容的真实性、合法性、准确性作担保。若硅谷网因为自身和转载内容,涉及到侵权、违法等问题,请有关单位或个人速与本网站取得联系(联系电话:01057255600),我们将第一时间核实处理。
|
|
|
|