硬盘数据恢复服务 磁盘阵列数据恢复 数据库恢复 文件恢复 技术文档 联系我们
  郑重承诺:恢复不出数据不收费;硬盘数据恢复检测免费;对客户数据的安全负责;数据恢复绝对保密!
 
数据恢复电话:021-52730141
 

金融公司灾难数据恢复案例分析



   VERITAS金融公司提供

   有些金融公司灾难是可以预料的,如洪水、暴风雪和其他自然现象都可以预测,并可做好相应准备,至少做好部分准备。而其他一些灾难则没有预兆。当一场突发的电力火灾难毁坏弗吉尼亚州一家金融公司的数据中心时,职员们根本没有时间采取额外的防范措施。他们必须要有周详的数据恢复计划,才可能使业务存活下去。

   火灾难中,一名系统管理员丧生,数名其他人员受伤,多数因为吸入烟尘而致。火灾难毁坏了90台服务器和与之相连的存储设备、数据和应用软件。建筑本身完全被毁。人员一旦疏散,就无法返回。

   该金融公司的本地区主数据中心就位于被火灾难毁坏的建筑内。有些地区业务在该地区的其他建筑中运营。

   火灾难发生时,建筑内的人员被疏散。数据中心运营负责人直接来到大约一英里半之外的本地备份数据中心,这里正好是地区总部。他到达后,开始不断拨打电话,启动恢复计划。

   在随后的数小时内,大多数数据中心员工聚集到了总部。当时的情况很令人担忧,因为有些员工直到第二天上午,都没有向总部报告,或打电话进来。当员工被重新召集在一起时,这场灾难带来的心理影响就变得清清楚楚。有些人在哭叫,许多天内,很多人行为异常,有一个人完全消失了整整一个星期(当他回来时,受到了大家的欢迎,没有人问他任何问题),其他人则把自己投入到工作中。火灾难后的至少一个星期内,整个环境都非常平静。谈话被压缩到了最少,大家用得最多的是耳语。很多人相互拥抱。管理层请来了一个行业心理学家小组,帮助员工将情绪从火灾难和同事牺牲的种种状态中数据恢复正常。

   灾难恢复计划

   新的灾难恢复计划的初始阶段在火灾难发生前的3个月开始实施。此外,在6个星期前,还进行了一场演练,因此每个人都对自己的角色记忆犹新。遗憾的是,该计划的副本保存在电子邮件文件中,而这些文件在火灾难中丢失了。没有人打印过该计划,包括该计划的作者。在数天后从磁带中恢复电子邮件之前,系统管理员只能凭记忆进行数据恢复。恢复步骤由打往厂商、供应商、客户和用户的电话构成,整个过程都按预定义步骤的“人工脚本”进行。

   恢复计划中包含的所有应用都有服务水平协议,其中包括2小时的应用恢复点目标(RPO),这些都得到了满足。没有丢失45分钟以上的任何电子事务处理,有数种应用根本什么也没有丢失。因为进入该金融公司计算机系统的每个事务处理都记录在纸上,最终没有丢失事务处理数据。

   对于在这种规模的灾难中的所有关键应用,计划中指定的数据恢复时间目标(RTO)为48小时。所有应用都有备份,并在火灾难后48小时内恢复运行。

   应用快速数据恢复的一个主要原因是,数据被异步复制到该金融公司位于内布拉斯加州奥马哈的恢复站点。在弗吉尼亚州备份站点工作的管理员挽救了所有关键数据,并使它们在奥马哈恢复站点重新上线,管理员使用了网络连接和拨号连接两种上网方式。

   非关键应用的数据没有得到复制。在恢复站点,从备份磁带将这些数据恢复到了其他系统(有些是新系统,有些是改用的系统)。

   恢复

   第一批数据恢复的信息服务在火灾难后大约24小时恢复在线。所有应用的恢复用了大约10天时间。恢复计划没有预先确定恢复顺序,信息服务按照特定用户的即时需求进行恢复。发生冲突时,管理层就做出公断,根据业务关键性确定优先顺序。总体来说,用户理解这种情况(需要恢复的服务太多,没有足够的管理员来恢复它们),并能够容忍延迟。

   在最开始的几天,恢复全天候进行,直到第一批信息服务恢复运行为止。所有用户请求都通过负责系统管理的主管汇集,特定要求用户不要直接向管理员反映问题,除非管理员正在解决该用户的问题。

   在恢复期间,系统管理员有决定其工作日程的完全自主权。如果他们觉得需要身体上或情绪上的休整,他们就可以休息。如果他们愿意从下午7点工作到第二天早上7点,或从早上7点工作到第二天早上7点,这也没有什么不好。只要恢复工作进展合理,其他管理员没有怨言,管理层和用户都很满意。

   从几个方面看,该金融公司从灾难中数据恢复都是成功的。恢复计划的作用与预期一致。小组成员知道自己扮演的角色,并像计划中所列的那样发挥自己的作用。该金融公司的备份与恢复、集群和数据复制软件的执行都与预期完全一致。

   正如在这种规模的事件中可以预料的一样,有些事情的进展并非一帆风顺。该金融公司备份数据的编目本身没有妥当备份。在进行了两天时间的读取磁带以重建编目的工作后,一名系统管理员记起某个恢复系统上有一份编目,并找到和恢复了它。尽管有些延迟,但也节省了几天的编目重建时间。

   另一个问题是磁带机的缺乏。利用适当的规划,常常可以对应用的备份窗口进行分段,以最大限度地减少必需的磁带机数量。但是,在这种所有信息服务数据被毁的灾难中,加快数据恢复进程的唯一方法就是使用更多的磁带机同时恢复更多的服务。除非发生灾难,硬件不会得到充分利用,尽管如此,要找到购买硬件的理由也很困难,但第一次灾难就很可能促使这种购买。为了在以后的灾难中加快恢复速度,该金融公司购买了一套带有40个磁带机的自动磁带库。

   该金融公司的许多条码标签经过磨损和撕扯后已经脱落或毁坏。这样,许多备份磁带集就不完整,无法得到恢复。管理员只得从更早的备份磁带集中恢复系统。

   谁也没有想到这场灾难的影响范围会有这么大。该金融公司的管理层一直以为,在灾难发生后的较短时间内就能进入自己的办公大楼。他们虽然预料到了长时间的电网故障和小规模的火灾难,但对于引起数据中心长时间无法访问的灾难却毫无防备。

   可喜的是,该金融公司的信息技术供应商确实乐于提供帮助,提供了现场和电话支持,增加了硬件、软件和许可协议序列号。这似乎也是灾难情况的一种普遍反应。

   灾难过后

   这场火灾难之后,该金融公司重新设计了数据中心的几种运行方式。或许,信息处理中最重大的改变是在备份方面。备份编目进行了远程复制和本地拷贝。另外,对包含备份编目的磁带做了特殊标记,以便识别。最重要的是,该金融公司购买了更多磁带硬件,以提高恢复速度。

   由于火灾难完全毁坏了原来的主数据中心,充当数据恢复站点的总部数据中心就成了永久性主数据中心。该金融公司不打算将主数据中心移到另一个地方。灾难恢复计划已经从双站点(主站点和恢复站点)计划变为三站点计划(用于运营和数据中心的主站点,以及位于远处的组合恢复站点)。

   该金融公司利用这个机会,将其90台服务器上的应用整合到10台新的服务器中,用存储网络将这些服务器连接成一个大型磁盘框架。整合过的服务器做了操作系统升级,可以支持多个运营区域,而系统管理员正在利用这种功能,实施本地集群和故障切换。

   结果是,整个金融公司对系统管理员有了一种新的感激之情。管理人员对恢复工作的迅速反应和有效管理,使信息服务用户对他们更加尊敬。

   吸取的教训

   ·应将备份编目保存在能避免灾难和便于访问的位置。具备恢复备份编目的能力可以减少数天的停机时间。

   ·对于所有灾难恢复任务,都应当指定主要和辅助的管理员。不要以为,在数据恢复过程中,需要关键人员时,就能找到他们中的每个人。

   ·个人对高度紧张局面的反应是难以预料的。在可能的情况下,应当给予工作人员按自己的时间和方式进行数据恢复的余地。

   ·恢复计划应当包含系统和应用的优先次序表,以便最小化信息服务恢复顺序的争论。

   ·应当立即更换被毁坏的磁带,并用其他方式恢复这些磁带上的数据。

   ·企业中的每个人,尤其是灾难恢复团队,应当在可能不会受到灾难威胁的地方(例如办公室和家中)保存有便于访问的当前恢复计划的打印副本。 (E5)


首页 联系我们 技术文档 网站地图 English

联系方式:021-52730141
在线QQ:363695622 E-mail:datarecovery@163.com