首页 > 行业资讯 > 如何运用管理措施+技术手段保证容灾配置一致性

如何运用管理措施+技术手段保证容灾配置一致性

时间:2023-05-18 来源: 浏览:

如何运用管理措施+技术手段保证容灾配置一致性

twt社区 twt企业IT社区
twt企业IT社区

talkwithtrend

talkwithtrend.com社区(即twt社区)官方公众号,持续发布优秀社区原创内容。内容深度服务企业内各方向的架构师、运维主管、开发和运维工程师等IT专业岗位人群,让您时刻和国内企业IT同行保持信息同步。

收录于合集

【摘要】 容灾体系的日常管理工作不到位,就会出现容灾中心的数据和生产中心不一致现象,难以保证在切换时能够正常接管工作,本文从管理措施和技术手段两方面分享了实践经验。

【作者】昼者  某农信资深技术经理

容灾配置同步和数据一致性验证是确保容灾体系发挥成效的前提条件,是确保应用级灾备能否顺利接管和正常运行的关键环节。有研究机构调查数据显示,72%的容灾高可用功能失效是由于配置管理所致,操作系统、数据库、中间件、应用版本及网络权限等配置不同步一直是容灾体系运维管理所面临的重大难题。

从容灾管理实践来看,生产与容灾端配置不同步的主要原因是维护管理期间配置管理不规范。要解决此问题,需从管理措施和技术手段双管齐下,尽量降低配置不同步的风险概率,确保容灾体系可用性。

管理措施

容灾体系的日常管理工作不到位,就会出现容灾中心的数据和生产中心不一致现象,难以保证在切换时能够正常接管工作。因此,在容灾管理中需落实配置管理规范、加强容灾测试演练及培训,才能进一步实现容灾配置的一致性。

  • 建立并严格落实容灾配置管理制度规范

日常管理工作的核心是保证容灾系统的应用、软硬件平台持续可用,可以随时进行应用切换及业务接管,包括数据审查、系统维护、系统监控、软件版本管理、容灾变更管理等内容。

数据审查保证容灾系统在必要的时候能够及时接管生产系统。容灾系统与生产系统的数据须保持一致性、完整性,应在容灾系统中建立起与生产系统的数据同步审查机制,并通过数据核对帮助生产系统发现可能出现的问题,进一步完善和优化生产系统和容灾系统。容灾中心业务组人员通过手工或者程序脚本的方式,定期与生产系统进行数据的核对,根据预定义的指标检查数据的一致性、完整性,及时发现问题、分析原因、编写报告,必要时发起容灾测试流程。

系统维护是为了保证容灾系统接管生产系统时,不会因为IT因素、基础设施问题而发生接管失败,是对生产系统与容灾系统运行的IT基础设施所进行的日常例行检查、维护工作。

系统监控的目的是帮助系统组、业务组成员对生产系统及其容灾系统的运行情况进行监控,对故障进行快速准确定位。

软件版本管理是指在生产系统运行过程中,由于功能完善、增加等原因需要对软件版本进行更新、变换,所以应对生产系统及其容灾系统的软件版本进行管理,保证容灾系统按既定目标顺利接管业务,避免由于版本不一致造成的数据错误、业务接管失败。

容灾变更管理的目的是控制、管理容灾系统中的变更行为,确保容灾变更平稳实施。一般步骤包括:发起、影响及资源评估、接受、执行、变更总结等。

  • 加强容灾测试及演练

稳定的容灾架构是信息系统安全生产的重要保障。开展常态化容灾切换演练及测试,是充分保证容灾机制的有效性,检验灾备流程的可操作性,提高容灾演练的实战能力的前提条件。

  • 容灾演练

容灾系统建设完成后,必须不定期进行容灾演习。根据在演习过程中是否真正进行系统的切换,容灾演习可以分为模拟演习与真实演习。 模拟演习主要是为了检验在发生实际灾难后,参与灾难恢复的相关人员是否能够根据规划好的灾难恢复流程,有序可控地进行灾难恢复工作。 真实演习不仅要检验灾难恢复流程的有效性,而且要验证容灾系统是否能够实现正常的切换和回切。 演习主要步骤包括: 制定演习计划、审批演习计划、演习启动、消息发布、演习切换、验证、演习回切、总结。 演习是灾难恢复计划和容灾配置一致性的最好验证手段。 演习过程中,应详细记录各个重要环节的时间点,用于考核容灾系统和生产系统的各项指标。 演习后应及时总结经验,对发现的问题应及时解决,需要修改或优化的流程要限期进行修改和完善。

  • 容灾测试

如果对容灾系统的数据、功能、性能等方面没有测试验证,难以保证容灾系统可实现数据保护和业务接管。容灾测试是对容灾系统的数据、功能、性能等方面进行验证,保证容灾系统的建设和变更能够实现数据保护和业务接管。测试方式尽可能采用测试脚本,避免人为误操作。测试环境尽可能与生产系统隔离。在不发生系统变更时,最好每月测试一次,否则须即时测试。

  • 容灾培训

如果没有做好培训,难以保证相关人员及时学习到相关的知识和技能并及时更新。通过容灾培训,可确保相关人员及时准确地了解系统结构,熟悉测试、演习、灾难恢复流程,明确自身职责,沟通、协作顺畅,提高工作技能和灾难应对能力。培训计划由执行组与人力资源部门共同制订和执行。培训内容主要包括:容灾基础培训、容灾流程培训、容灾技术培训。遵照灾难恢复计划中的切换和回切流程,在不影响正常生产情况下,严格按照事先制定的培训教材,开通容灾中心全部设施及模拟测试终端。如果把以上六个方面比作一个链条上的六个环节,那么任何一个环节的缺少都可能导致容灾中心形同虚设。俗话说,养兵千日,用兵一时。任何一个细节的忽视,都可能导致容灾中心在关键时刻不能发挥应有的作用,到那时后悔就晚了。投资巨大的容灾系统,在关键时刻起到作用才是值得的。

技术手段

技术手段是对管理措施的重要补充,自动化工具和有效的容灾规划设计可以有效地提高容灾配置管理效率,降低配置不同步风险。

  • 技术工具

容灾体系中各维度产品配置不同步,从本质上说是配置管理问题。因此,可以利用CMDB类工具来对容灾配置进行管理。CMDB工具是ITIL最佳实践工作的基本项目,业界有很多类似工具,如iTop、OneCMDB等开源产品,ManageEngine IT360、BMC Remedy、HP Configuration Management System等商业工具。

在容灾管理工具中,也有部分专业厂商提供了相关工具,如S厂商作为专业容灾厂商,提供了Symantec Disaster Recovery Advisory(DRA)和VirtualBusiness Service(VBS),分别应对容灾管理中的配置检查和容灾演练这二个关键运维节点的需求。DRA可以针对容灾系统进行信息收集和分析,并给出体检报告的工具,DRA能够有效提示HA/DR系统中的配置错误,及时提醒管理员进行修正,显著提高容灾系统的有效性。

由于容灾体系涉及技术众多,配置管理场景广泛,特色各异。因此,容灾运维管理员可以在上述工具的基础上,针对不同场景和需求,编写脚本或开发对应工具,实现容灾配置同步功能,提高容灾配置管理效率。

  • 容灾规划设计

业务在发展、系统在运转,容灾体系是动态的、不断完善的过程,可以通过系统双活架构来检查容灾功能的可用性和配置的一致性。如在容灾规划设计中,对重要系统进行双活架构设计,在容灾端配置5%左右业务流量,通过正常业务流量动态检测操作系统、数据库、中间件及网络配置的一致性,既能够提高业务连续性的RTO和RPO,也可以实时验证容灾体系的可用性。

总结

如何确保生产与容灾端操作系统、数据库、中间件及网络配置的一致性是容灾管理中必须面临的关键问题。从实践经验来看,可以从管理措施和技术手段两方面着手。管理措施方面,可以通过落实配置管理规范、加强容灾测试演练及培训来实现容灾配置的常态化管理;技术手段方面,利用成熟工具、自研工具及双活架构设计来提高容灾配置管理效率。通过管理措施和技术手段相互协调配合,可以有效降低容灾配置的不同步概率,提高容灾体系的可用性。

相关文章  生产和同城存储容灾架构下,同城站点非存储层数据或配置如何与生产站点保持一致性?  点击可阅读

觉得本文有用,请 转发、点赞 或点击“ ”,让更多同行看到

 资料/文章推荐:

  • 容灾架构中的数据复制技术详解

  • 容灾系统中的“脑裂”是怎么回事?| 运维进阶

  • 容灾备份精选130篇

欢迎关注社区  "容灾" 技术主题   ,将会不断更新优质资料、文章。地址:

https://www.talkwithtrend.com/Topic/71

下载 twt 社区客户端 APP

长按识别二维码即可下载

或到应用商店搜索“twt”

长按二维码关注公众号

*本公众号所发布内容仅代表作者观点,不代表社区立场

版权:如无特殊注明,文章转载自网络,侵权请联系cnmhg168#163.com删除!文件均为网友上传,仅供研究和学习使用,务必24小时内删除。
相关推荐