十个应对数据中心宕机的措施与方法

来源:51CTO      时间:2017.09.29
[ 字体: 大:26 24 中:22 20 小:18 16 ]
转发至:
 

  虽然数据中心的设计在理论上不会发生故障,但它确实会出现这种情况,因此数据中心运营商将面临非常严峻的情况,特别是托管数据中心。

  根据最近发生的一些事情,表明托管数据中心遭遇停电和业务中断的后果是十分严重的。例如:英国电信公司是全球最大的通讯商和托管数据中心商之一,其运营的数据中心今年遭遇两次宕机事件。据报道,由于故障影响,伦敦及其周边地区的语音和数据流量下降了10%,事故时间长达四小时以上。

  尽管在设计和运行数据中心时努力避免中断或事故,但数据中心托管设施并不能避免这些问题,其短期和长期的意外中断都将是代价高昂的。如果客户选择放弃服务,企业可能会因不符合服务等级协议(SLA)而受到经济处罚,也可能会对企业的品牌造成长期的损害,并对业务收入造成损失。

  从数据中心的角度来看,应该做什么或不应该做什么以防止中断事故的发生,是一个非常简单道理。但是,如果作为数据拥有者,并且其数据中心解决方案存在失误,那么这是一个不同的结论。如果企业客户已经做出战略决定,将其数据放在外部数据中心,并进行了风险分析。但这样就真的做好应对最坏结果的准备好了吗?问题是,如果企业客户发现自己处在这种情况下该怎么办?

  对最坏情况做好准备的最好办法是不断地解决这个可能性。如果失败,组织的努力准备和对流程的认识将为其提供减轻失败的资源和工具。如果企业没有考虑或者没有这样做,那么建议从以下几个方面评自己的情况。

  1. 分散风险

  首先,当企业制定数据中心战略时,应避免将所有数据放在一处,这样做会增加风险因素。同样的道理,也避免将所有关键应用程序放在同一位置。考虑将主要的数据存放在一个位置,并将备份数据存放在另一个位置。然后逐步了解每个场景,并确定任何级别的故障将产生怎么样的影响。每年重复一次这个过程。

  2. 信任但要验证

  企业从服务提供商获得审核记录,更重要的是认真审查。在许多情况下,托管数据中心需要审计是否符合HIPAA,SOX和PCI等规定。然而有时候,这种审查可能是由不完全了解IT或数据中心如何运营的人员来完成。因此,企业需要安排了解数据中心如何可靠运营的专业人士进行审核。这些第三方审核通常比他们自己识别的风险要容易得多,并且可以提供的信息更加丰富。在大多数情况下,与发生中断事故的成本和运营成本相比,通过审查和验证措施减轻风险的成本通常是最小的。

  3. 签署书面协议

  企业需要知道数据中心托管提供商将如何处理中断事故。在与供应商签订合同时,坚持签署书面协议,承认双方同意在什么情况将造成中断。这一点至关重要。事实上,数据拥有者发现有时协议并没有涵盖他们的想法。此外,还要书面上保证供应商在中断期间所提供的服务,并承诺在可接受的时间内恢复。

  4. 备份策略

  企业一定要了解自己的业务面临的风险,并为最坏的情况做好准备。大多数托管数据中心都有一个替代的站点,可以处理基本的灾难恢复,以确保他们的客户对运营几乎没有影响。大多数公司仍在追求在数据中心(托管数据中心,云计算或者内部部署)中部署双活数据库。虽然有些双活部署接近成功,但在尝试使用灾难恢复备份时,其中断却让人痛苦。数据库没有企业期望的那样完整,数据丢失或应用程序在故障转换期间很可能受到影响。

  5. 了解(并记录)流程

  在事故出现的时候,所有各方都进入危机模式。了解(并记录)企业的托管服务提供者如何处理自然灾害和故障组件等事件很重要。那么采取什么步骤和顺序?企业要问的一个重要问题是在发生故障时谁可以访问?事故发生后,其他企业也会访问这个服务器。企业需要准确了解其是否可以访问,访问权限,谁能访问,以及在访问时允许执行的操作。此外,还要知道在修复期间将采取什么额外的安全措施来保护其数据。

  这个过程的重要组成部分是通信协议。开放沟通对于有效管理情况至关重要,并为企业的管理者提供更新信息。企业需要知道谁是主要联系人,联系谁来获取更新,以及更新的频率。另外,定期验证联系人的姓名和电话号码。重要的是,如果呼叫列表中的电话号码作废或联系人员离职,那么这种情况将会更糟。

  6. 保存记录文档

  文档不仅适用于托管数据中心,而且适用于所有与数据中心业务相关的公司。在调查中发现,许多客户没有记录他们的日常运营流程和程序。就算有记录,也没有经常进行更新。文档对于在发生灾难时做好准备至关重要,这其中包括:了解应用程序运行的位置,知道中断哪些受到影响最大,谁需要了解更改等。

  7. 了解失败案例

  在评估过程中,大多数托管数据中心商都会告诉企业,系统是如何安装的,以防止服务中断。他们还给为企业提供满意的客户的推荐和参考。但他们通常不会告诉他们失败的案例。

  因此,组织要了解托管服务商的失败案例,需要询问他们是否在过去一年遇到事故,如果有过事故,要了解事故的细节,如何纠正,以及采取了哪些步骤来防止再次发生事故。企业可以在这些案例中学到很多关于托管数据中心的知识,以及他们如何处理这种情况。处理危机才是考验合作伙伴是否合格的时候。

  8. 了解免责条款

  如果企业对托管服务的合作伙伴失去信心,请务必了解合约中的免责条款,这有助于企业顺利地中止合作。确保合同没有采用模糊的语言描述,避免被不合理的条款所限制。

  9. 了解自己的选项

  大多数托管数据中心的合同期限为几年的时间,在此期间,托管数据中心市场的规模将扩大,新的厂商进入市场。虽然企业可能目前不会寻求采用新的托管数据中心,但应该不断评估其他提供商,或与顾问或经纪人一起审查自己的选择。如果发生失败,企业必须知道移动到新的解决方案的选择。在某些情况下,如果失败是重大的或花费的时间太长,那么后果可能会迫使托管数据中心停止营业,让组织的业务遭受损失。

  10. 成为数据中心行家

  在英国电信公司的失败案例中,其问题的原因是一个断路器发生故障。虽然有人会认为关键设施会避免单点失败,但证据表明并不是这样。如今,组织运营数据业务,就必须成为数据中心的行家。组织不但要熟知数据中心的知识,而且还要了解市场趋势。

  通过询问问题和阅读报告,可以了解数据中心解决方案的各个方面情况。最重要的是,知道潜在的失败点,了解什么情况可能导致中断。人们都希望中断或失败永远不会出现。但是,如果这样做,企业必须为此做好准备好,并指导其团队。最好的建议是在这些故障情况下制定一个计划,并按部就班遵循这个计划。沟通对计划的成功至关重要,因为人们在发生失败可能会不耐烦,但他们必须遵守执行。通过定期检查这些重要领域,将会获得有效地应对中断或失败的知识和经验。