借助vSphere High Availability解决主机硬件降级问题

日期:2017-2-24作者:Rob Bastiaansen

【TechTarget中国原创】

在全新vSphere 6.5中, Proactive High Availability通过和硬件厂商进行合作,及时排查问题并迁移虚拟机,能够有效防止主机出现硬件降级问题。

除了针对Distributed Resource Scheduler和Fault Tolerance的更新外,vSphere 6.5还包含了全新的Proactive High Availability特性,能够提升用户对于资源管理的综合体验。全新版本的 vSphere High Availability特性需要和 Distributed Resource Scheduler以及硬件厂商的代理客户端协同工作,在问题出现之前将虚拟机迁移到其他主机中。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

作者>更多

Rob Bastiaansen
Rob Bastiaansen

网站编辑

VMware vSphere>更多

  • VMware VIO如何给vSphere添加云功能?

    虽然世界范围内的数据中心都使用vSphere虚拟化他们的工作负载,但是虚拟化已经存在了很久,而且需要管理没来安装、部署虚拟机。近来,越来越多的组织已经转向云来运行他们的工作负载。

  • VMware VIC如何存储并管理容器?

    你可能已经知道vSphere集成容器(以下简称VIC)在vSphere部署中能够像运行虚拟机那样运行容器—但这只是开始。

  • 镜像构建器有助于管理vSphere自动部署镜像

    全新的基于GUI的镜像构建器主要的优势之一是能够展示你拥有哪些软件集,以及在每个镜像里面有哪些软件包。

  • vSphere环境安全最佳实践

    除了VMware vSphere 6.5中包含的全新特性(比如vMotion encryption和ESXi secure boot)之外,还有很多其他最佳实践能够帮助提升hypervisor和单台虚拟机的安全性。

相关推荐

技术手册>更多

  • 虚拟机资源配置指南

    本期《虚拟机资源配置指南》技术手册旨在帮助IT管理员找准虚拟机资源合理分配的界线,并通过正确实施、配置安全性,避免虚拟机蔓延等多方面技巧,最终在充分保证虚拟机性能优化的同时,合理控制运营成本。

  • 超融合产品EVO:RAIL使用指南

    VMware已经建立了一个合作伙伴列表,该列表中的厂商将提供EVO:RAIL的硬件部分。尽管底层的技术相同,但HP、Dell以及合作伙伴列表上的其他厂商提供的产品还是有一些差异。

  • VMware NSX部署指南

    在VMworld 2013上,VMware发布了它的下一代网络虚拟化平台NSX,两年过去了,VMware NSX有了哪些变化?您是否已经部署VMware NSX?

  • vSphere高级技巧

    虽然vSphere 6要等到2015年初才会发布,但是大家对它的热情不减。相信很多企业都已经在使用vSphere,本期技术手册分享一些关于vSphere的高级技巧,例如如何重新设计vSphere让其发挥最大潜力。

TechTarget

最新资源
  • 安全
  • 存储
  • CIO
  • 网络
  • 服务器
  • 数据中心
【TechTarget中国原创】

在全新vSphere 6.5中, Proactive High Availability通过和硬件厂商进行合作,及时排查问题并迁移虚拟机,能够有效防止主机出现硬件降级问题。

除了针对Distributed Resource Scheduler和Fault Tolerance的更新外,vSphere 6.5还包含了全新的Proactive High Availability特性,能够提升用户对于资源管理的综合体验。全新版本的 vSphere High Availability特性需要和 Distributed Resource Scheduler以及硬件厂商的代理客户端协同工作,在问题出现之前将虚拟机迁移到其他主机中。

设想这样的情况,服务器双电源模块中的一个出现故障或者某个CPU风扇停止工作,导致硬件传感器发送报警,虽然这些问题并不会影响系统正常工作,但是服务器的崩溃风险会变得非常高。因此将虚拟机从这些问题“主机”中转移,确保负载运行在集群的健康节点上是最为稳妥的做法。这样管理员就有机会修复硬件问题,重新将主机上线,同时,用户不会察觉到任何服务中断时间。

如何启用全新vSphere High Availability特性

如图A所示,为了启用Proactive HA (High Availability)特性,集群必须已经启用DRS(Distributed Resource Scheduler ),因为DRS能够利用vMotion将运行状态的虚拟机转移到其他主机中。硬件厂商提供的客户端代理——比如戴尔定制的 VMware ESXi 6.5,能够触发硬件报警,也是必要的组成部分。这种定制化镜像——其他厂商也会推出类似镜像——可以提供良好的硬件检查功能。

借助vSphere High Availability解决主机硬件降级问题

图A. 启用Proactive High Availability

之后在 vSphere Availability页面中,管理员必须定义如果出现硬件降级问题,系统需要如何应对。如下面的图B所示, Proactive High Availability提供了两种检查模式。根据硬件错误的严重等级不同,管理员仍然可以使用这台主机,但是必须满足DRS  affinity规则。如果 affinity规则并不存在,并且所有虚拟机都可以运行在其他主机上,那么虚拟机就会被迁移到其他主机上。

借助vSphere High Availability解决主机硬件降级问题

图B.在vSphere Availability配置硬件降级行为

VSphere High Availability并不是唯一具有主动防护特性的工具;DRS也能够在集群实现一些主动保护功能。如果和vROps(vRealize Operations )一起使用,其能够基于之前的测量数据预测虚拟机将会何时出现使用高峰,并且将虚拟机迁移到其他主机中。

这种方式通常需要定义应对行为,DRS应对使用高峰的传统方式。DRS和vROps协同工作的原理非常简单:VROps从虚拟机收集并存储各种指标,之后使用这些指标计算动态阈值。VROps能够通过这种方式发现系统的异常,但是VMware工程师想出另外一种方式,通过记录虚拟机资源使用情况来预测资源消耗方面的重复性峰值。当然,这种方式在数据中心才能够发挥最大作用,虚拟机负载均衡遵循既定方案,办公室的用户每天几乎同一时间段开始工作或者相近的时间去吃午饭。

启用这种特性需要最新版本的vROps,现在为6.4,如图C所示,你可以看到一条到 vCenter Server的连接,也就是使用这种特性的集群。

借助vSphere High Availability解决主机硬件降级问题

图C.配置vRealize Operations 向vCenter发送数据

其他vSphere DRS 全新特性

在配置vROps向vCenter发送数据之后,就可以在集群中启用Predictive DRS了。启用之后,管理员需要坐来下,查看这些系统如何工作。和其他 vSphere High Availability主动响应版本一样,这是一种全新特性,因此其是否能够提升集群中资源的可用性还不得而知。需要说明的是这种特性只能应用在虚拟机数量不超过4000台的集群中。

借助vSphere High Availability解决主机硬件降级问题

图D.  vSphere DRS全新特性

如图D所示, vSphere DRS还包含了其他三种全新特性:VM Distribution、Memory Metric for Load Balancing和CPU Over-Commitment.

VM Distribution允许管理员根据虚拟机数量、而不是资源使用情况来调整集群的虚拟机所在主机位置。管理员可能会遇到这种情况,一大组虚拟机运行在很少几台主机上,而其他主机上只有很少、甚至是没有虚拟机。这种情况会在服务器出现故障之后发生,当故障主机重新上线之后,集群拥有很多资源,DRS没有必要将虚拟机迁移到那台主机中,因此其资源使用率非常低。

只有当没有足够理由证明应该进行迁移时这种情况才会发生。如果虚拟机被平均分配到集群节点,相比于大量虚拟机运行在故障节点上,VM Distribution能够降低服务器故障所产生的影响。这种方式是负载均衡的备选方案,因此只有当资源负载均衡能够正常工作的时候虚拟机才会被平均分配。

最后两项控制资源负载均衡的设定需要和 overcommitment结合使用。 Memory Metric for Load Balancing允许管理员利用已经消耗的内存,而不是活动内存。如果管理员逐台检查虚拟机,就会发现其报告的是被消耗的所有内存。通过这种配置,虚拟机能够基于内存分配、而不是实际消耗的内存实现负载均衡。

CPU overcommitment技术允许管理员配置最大的vCPU to pCPU比例。比如,如果管理员将其设定为200%,那么就每个pCPU就能够支持两个vCPU。管理员能够配置的最大值为500%。这种限制防止集群对CPU资源的过度over-commitment。