金融机构核心交易系统存储实施如何设计?|《迈向YB数据时代》
金融机构核心交易系统存储实施如何设计?|《迈向YB数据时代》
talkwithtrend
talkwithtrend.com社区(即twt社区)官方公众号,持续发布优秀社区原创内容。内容深度服务企业内各方向的架构师、运维主管、开发和运维工程师等IT专业岗位人群,让您时刻和国内企业IT同行保持信息同步。
各行业关键应用根据自身的特点,对于数据存储要求不尽相同。本议题通过对金融行业的场景应用举例,详细剖析行业应用数据存储特点,并将结合企业级存储产品特性,希望可以提供存储产品选型和实施时的参考意见。
本期为大家带来 《迈向YB数据时代》 2022年秋季刊“最佳实践 ”栏目 中的 议题二 :
金融机构核心交易系统存储实施如何设计?
常东东 某城商行存储工程师:
对于中小城商行而言,核心交易系统存储实施设计应结合系统架构,同时对标同业进行学习,在此基础上还要有稳中求进、勇于创新的精神。
一、引言
核心交易系统作为金融机构日常业务办理的重要信息系统,对于存储系统的安全性、高效性、可靠性及可扩展性等都有较高的要求。随着金融机构业务规模的逐步增长、互联网金融快速发展,在海量存储容量和高性能体验的需求下,需要建设高水平的存储架构来提升业务处理效率,改善客户体验,有效满足互联网背景下大容量、高并发的业务需要。因此希望通过新的存储架构建设来解决各应用系统数据的安全存储与低时延访问问题。
二、核心交易系统存储如何选型
核心交易系统存储选型需要考虑以下几个要素:
1. 存储自身性能
存储自身性能除了考虑时延、IOPS、读写带宽这些指标以外,还要考虑磁盘故障数据重构的时间问题。
2. 系统架构
以银行为例,随着互联网技术的快速发展,交易方式已由原先主要依靠传统柜面方式发展到现阶段手机银行、网上银行和传统柜面并驾齐驱。系统架构也由传统集中式逐渐转变为分布式,存储的选型也由原先单一集中式存储向分布式存储过渡。
3. 容灾支持度
结合系统架构和存储自身性能,存储选型还需要考虑对容灾的支持度,以保证业务连续性。综上所述,存储的选型需要结合系统架构和存储自身性能以及对容灾的支持度等多个维度综合考虑。
三、某城商行核心交易系统存储发展历程
1. 第一阶段
某城商行核心系统始建于2006年,采用小型机P550+集中式存储DS4700的方式搭建部署。
2. 第二阶段
2013年该行完成了新数据中心建设工作,原旧数据中心规划建设为同城灾备中心。新数据中心于2014年投入使用,同城灾备中心于2015年投入使用。核心交易系统硬件设备同步做了升级,采用P740+V7000的方式部署。数据中心两台V7000分别映射LUN给P740,在主机端做Mirror,实现存储的高可用。两中心数据同步方式为灾备V7000异步远程复制数据中心V7000。
3. 第三阶段
该行2015年建设的同城灾备中心,服务器采用冷备份方式运行,存储设备通过磁盘阵列间异步复制技术进行数据备份,且为手动同步的方式,RPO无法满足0~30分钟。两中心切换时,需通过人工干预的方式将关键业务系统切换至同灾备机房,因此会产生短时间的业务中断。根据监管部门要求,结合《商业银行业务连续性监管指引》、《银行业信息系统灾难恢复管理规范》等指导意见,该行现有重要信息系统灾难等级恢复不满足5级,且重要信息系统灾备覆盖率没有达到100%,所以同城容灾升级建设迫在眉睫。为了满足信息系统灾难等级5级这个指标,实现重要信息系统灾备100%覆盖率,该行决定建设同城双活存储,为后续科技建设打好基础。
鉴于核心系统、信贷系统架构老旧的原因,前期通过与同业交流学习,发现重新开发新一代核心系统成本过高。该行根据实际情况,结合现有核心系统架构,经过各项评估之后决定先从底层存储方面整合传统的业务系统数据。此次改造涉及整合3台V7000的数据,将分散的数据进行集中存储。先实现存储双活,为将来两中心应用双活奠定基础。同时完成对关键业务系统的数据本地保护,保障各业务系统的本地高可用。
通过前期与同业交流和市场调研结果反馈,以及该行对国产化设备的探索,决定采用华为OceanStor Dorado 18000系列高端存储。该行采购了三台华为OceanStor 18500F全闪存融合存储(512GB高速缓存、50块1.9TB 固态盘),数据中心两台命名为18500F-A和18500F-B,同城灾备中心一台命名为18500F-C,18500F-A和18500F-C之间通过博科S6520光纤交换机进行组网,两中心通过裸光纤进行数据同步。为了加强本地高可靠性,该行采购了CDP数据保护设备,以18500F-B作为后端存储,为核心等关键业务系统提供数据保护。实现传统架构业务系统数据在同城两数据中心之间实时同步、数据零丢失。
4. 第四阶段
该行于2015年开展了手机银行业务,采用的是第三方托管模式,使用的是上海清算中心一代手机银行统一版本,在个性化定制、新产品线上化、线上宣传、客户体验、客户数据管理与分析等方面约束较大。
2017年该行决定自建手机银行系统,自建的手机银行可为客户提供积极主动、知识丰富的客户服务,通过多渠道为客户提供一致的个性化无缝体验,也可提供满足客户金融需求的个性化服务。
新版手机银行采用基于Zookeeper+Dubbo+Spring的分布式集群服务框架,需要各类服务器资源共30台,每台服务器对资源的需求都很小,使用物理机会造成资源浪费。为了满足系统架构,同时到达节约成本的目的,该行决定将虚拟化技术运用到手机银行系统中,将手机银行的应用部署到虚拟机上,数据库使用两台物理服务器搭建Oracle RAC。该行使用的是华为研发的基于XEN架构的虚拟化平台,使用8台X86服务器搭建集群,通过SAN组网,采用集中式存储S5500作为后端存储为虚拟化平台提供块存储。手机银行系统上线后,系统运行良好,虚拟化平台运行稳定。手机银行虚拟化平台的应用是行对虚拟化技术的一次成功实践,为该行下一步科技转型提供了新思路。
2018年,为适应业务的快速增长,保障各信息系统安全稳定运行,增强市场竞争力,同时为了解决集中式存储设备横向扩展能力差的问题,通过前期调研和需求分析,该行决定引入华为FusionCompute+FusionStorage融合技术,同一台服务器即可以做为存储节点,同时又能为应用提供虚拟化计算资源,能够有效的节省IT投入成本。
此次项目共采用26台服务器进行融合部署,FusionStorage管理采用3副本、3MDC保证产品可靠性。每台服务器两块600G磁盘组成raid1作为本地盘,安装虚拟化底层节点软件。选取node1和node11部署VRM和FSM,在创建FusionCompute管理平台的基础上创建FSM。由于MDC进程建议部署在管理虚拟机所在主机上,所以分别在node1、node11和node21三台服务器上使用第15块磁盘组建MDC集群,其余每台服务器使用14块1.09T本地盘为FusionStorage存储池提供存储空间,1块894G SSD为缓存盘。一共364块SAS盘,26块SSD盘。分布式存储平台部署成功后可以为虚拟化平台提供10TB的内存资源和120TB的存储资源,满足该行未来三年业务发展需要。
四、结语
陈明福 宁夏银行技术经理:
在满足现状的情况下,金融机构核心交易系统存储实施一定要充分考虑到未来3-5年内存储的横向扩展,在扩展时整体框架保持稳定,降低扩展对核心系统的影响。
一、核心存储架构原则
根据银行业核心交易系统的特性,在开展核心存储架构规划设计阶段,需要遵循如下基本原则:
1. 满足业务需求
存储设备主要为满足业务需求服务,必须以满足业务需求为第一目标。
2. 高可靠性
单台设备的每个部件模块都要使用冗余配置,确保设备不会因某一个局部部件模块故障而中断服务,支持多种磁盘组RAID保护级别,包括RAID5、RAID6、RAID10、RAID50、RAID60等,支持针对单点物理硬件故障应用访问无感知的需求,支持双引擎及双控制平面设计;设备一定要选择当前稳定的Firmware软件版本,降低运行风险;一定要通过双台设备主从复制或双活等方式实现本地高可用,避免单台设备故障导致业务服务中断。
3. 性能
一定要充分评估核心系统对存储容量及IOPS资源的实际需求,在设计时将性能作为一个重要因素进行考虑,对于不同的应用场景(如虚拟机应用及物理机数据库)差异化地进行存储资源的分配,以充分利用磁盘阵列的性能,满足业务对性能的要求。
4. 扩展性
在满足现状的情况下,一定要充分考虑到未来3-5年内存储的横向扩展,在扩展时整体框架保持稳定,降低扩展对核心系统的影响。这样随着业务的快速发展,在一段时间内存储架构将保持相对稳定,不会频繁发生变化。
5. 易维护性
规划设计阶段,一定要充分考虑总体架构对未来运维管理的影响性,不同的设计架构可能会造成未来运维管理维护的复杂度及成本差异,总体方案务必要便于投产上线后的运行维护。
二、高可用架构建议
1. 高磁盘组RAID保护级别
存储设备选择较高的磁盘组RAID保护级别,如RAID5、RAID6、RAID60等,避免磁盘故障引发的数据丢失风险。
2. 存储本地高可用
采用“主从复制”或“双活”等方式实现存储设备的本地数据中心内高可用,SAN网络作为数据传输媒介,其可靠性也是存储高可用架构设计的一部分,SAN网络采用传统的双HBA卡、双光纤交换机和双存储控制器模式,组成冗余的SAN网络架构。核心系统建议采用“双活”方式,具体参照如下:
2.1 本地主从复制模式架构
两台“HDS G1000”日立高端存储设备以“TrueCopy本地主从同步复制模式”架构部署,架构如下所示:
图1-2 生产中心存储主从复制
2.2 本地双活模式架构
两台“HDS G1000”日立高端存储设备以“GAD免网关本地双活模式”部署,两台“IBMDS8870”高端存储设备以“SVC虚拟化网关模式部署”,架构如下所示:
图3 左:生产中心基于网关虚拟化的存储本地双活;右:生产中心基于存储阵列的存储本地双活
两台“华为 OceanStor S6800”中端存储设备以“HyperMetro免网关本地双活模式”部署,主要用于存储票据影像、视频及录音等非结构化类数据,架构如下所示:
图4 生产中心基于存储阵列的存储本地双活
3. 存储两地三中心高可用
在存储本地双活高可用保护的基础上,增加两地三中心容灾保护架构,为降低不同数据中心间光纤链路抖动带来的风险,建议采用“生产->同城->异地存储主从复制”及“生产->同城->异地基于数据库主从复制”方式实现存储设备的两地三中心高可用,具体如下图所示:
图5 “生产->同城->异地存储主从复制”
图6 “生产->同城->异地基于数据库主从复制”
三、两地三中心总体布局建议
结合当前技术发展趋势及行业最佳实践情况,建议采用如下总体布局实现两地三中心容灾:
图7 生产中心存储本地双活+生产->同城存储主从复制
1)生产中心部署两台高端全闪存储,部署于不同的物理机柜,以“双活模式”部署,用于生产数据存储。
2)同城中心及异地灾备中心分别独立部署一台高端全闪存储。
3)生产中心存储与同城灾备中心存储采用“异步存储复制技术”实现数据复制容灾保护,满足同城容灾数据的实时传输需求。
4)生产中心采用“基于数据库的异步复制技术”分别向同城灾备中心及异地灾备中心传输数据,实现重要数据的异地灾备数据的实时传输及同城中心二次容灾保护。
5)SAN网络采用生产与容灾分离的方式,生产和同城中心利用一组光纤交换机设备构建中心内部SAN网络,用于数据中心内部主机设备与存储之间的数据传输;同城双数据中心之间利用另外一组光纤交换机设备构建同城双中心容灾SAN网络,用于同城灾备数据传输;异地灾备中心采用内部独立的SAN网络。
曾祥满 某股份制银行存储架构师:
针对新产品的特性,运维人员需持开放态度积极学习,但也要明确自己的判断和主张,为核心系统的持久平稳运行做出最稳妥的选择。
银行金融机构核心账务等重要系统在存储选型时要求满足高吞吐、低时延等特点,当前主流高端全闪存储均能满足这些性能方面的特殊要求。我行目前核心账务系统所用存储是某厂商高端全闪,且在两地三中心架构下实现了存储级别的容灾建设。老的核心环境运行在该厂商上一代产品上,在两代产品进行平滑迁移中,由于涉及三套存储,时间跨度相对较久,我觉得有以下几点认识可供业内同行参考。
一、设备替换规划
1. 生产及灾备替换顺序
设备在升级替换时,高端全闪存储以其成熟度、稳定性、可靠性已逐渐被市场认可。考虑到生产的长期稳定运行,如果不是特殊情况,通常可以考虑先在异地灾备环境中使用存储,验证产品的常用功能特性,同时测试其在容灾方面是否有潜在问题。经过这一阶段运维管理的积累,相信运维人员对产品新特性及可维护性都有了更加深入全面的了解。后续再依次完成同城环境和生产环境的替换。我们当时面临新同城机房升级的迫切需求,就优先考虑在同城环境中替换使用高端全闪存储。由此,我们在日常运维中逐步加深了对产品的认识,这为后续生产环境的替换创造了成熟的条件。
2. 业务层面考虑
从核心系统规划用途上来看,此次应用同数据库在物理机层面实现了分离,并且数据库需要单独搭建交易库和跑批库。交易库以处理全天的业务交易数据请求为主,夜间跑批时承担部分特殊作业。而跑批库日间相对比较空闲,主要在夜间承担跑批任务。两套数据库在业务峰值时IOPS均较高,为了满足跑批的特殊要求及对外交易的时延要求,经过严格评估,我们采购了两套全闪存储分别用于核心交易库和跑批库的构建工作。
二、全闪产品新特性运用
1. 闪存特性
我行所采用全闪存储宣称专为企业最严苛而且关键的工作负载而设计,支持IBM Mainframe大型机、AS400、Unix小型机等平台,它延续了高端存储的先进性和稳定性,可靠性高达99.9999%。同时,该全闪存储从数据写入到闪存介质各个环节都进行了优化设计,最大限度降低坏盘概率,加上阵列本身还有RAID保护,本地数据复制和远程双活/灾备复制等技术,所有这些均可确保整体全闪阵列稳定可靠运行。基于上面的原因,通常厂商建议设备出厂时存储池采用RAID5保护。然而数据安全对企业系统稳定运行至关重要,考虑到首次在核心等重要系统采用全闪存储,我们还是比较谨慎的,决定调整配置采用RAID6技术。一套存储设备运行时间通常在五年以上,而且硬盘数目大,日常更换相对较频繁,现在想想这个调整还是很及时和明智的。
2. 压缩特性
该全闪存储还标配了业界独有的自适应、线内硬件压缩引擎,为客户提供了最高的空间节约能力。目前,业界主流的全闪存储(包括高端和中端),虽然各厂商实现方式不同,但压缩几乎是标准的配置,也是非常成熟的技术。在具体实施中,可以选择在出厂前在存储池配置中开启该特性,而针对具体系统在创建存储组时有选择性地开启或关闭此特性。同样也是基于核心系统稳定运行的特殊要求,我们在存储组创建时并未开启该特性。
三、存储安装
1. 光纤部署
基于存储承载的业务系统和不同操作系统等因素,在SAN网规划时,尽可能充分利用前端口,并对各端口进行合理规范的使用。例如核心应用服务器和数据库服务器可以选择不一样的前端口,AIX操作系统及Linux操作系统避免使用相同的前端口。同时接入SAN设备保证链路交叉冗余,避免单点故障。在复制SAN网的搭建时,也以同样的要求进行实施。
2. LUN划分
在上一代存储产品,厂商提出某特定规格的LUN可以最大发挥磁盘的性能,并将此推广为业界的最佳实践。由于核心数据库较大,过去在实施时运维人员往往面对的是上百个LUN的磁盘组,在一定程度上确实不便于日常运维管理。
新采购的全闪存储在实践中不受限于之前规格的传统理念,考虑到核心数据库的大小,统一采用500G的LUN将更利于管理。同时,新的全闪存储具备100%虚拟分配。由于存储分配给服务器的LUN均为精简设备,所以真正分配给服务器的空间为实际使用的,这样保证了存储资源利用效率的最大化。
3. 多路径软件使用
多路径软件版本需严格匹配服务器操作系统版本,例如在AIX7.1环境下,我们也安装了与之匹配的存储多路径软件版本。在实际使用中,我们渐渐发现此版本具有一些新特性。例如该版本可以自动调用扫盘指令,自动发现存储映射给服务器的LUN设备。基于安全和日常运维等因素,我们决定关闭这个特性,并在厂商的指导下按给定的方案去做好配置检查工作。
四、场景测试
1. 性能测试
针对核心全闪存储,项目组采用类似生产环境的读写模型开展了多轮性能测试。在具体测试时,一方面对比开启存储复制和关闭存储复制两种情形下的TPS,并验证夜间跑批作业执行是否满足相关要求,另一方面跟老环境上一代存储的性能数据做对比分析。考虑行内未来业务增长量,通过测试数据可以评估是否满足未来五年的正常使用,并发现潜在的问题。对于测试期间出现的存储瓶颈问题,在厂商出具性能分析报告的基础上,应从存储架构及IO特性等角度跟项目组做好解释跟沟通,确保形成一套合理可行的方案保证交易和跑批均符合运行要求。
2. 克隆特性运用
夜间跑批时需要在跑批环境三套库之间做磁盘克隆,因此需要考虑各种极端情况,进一步优化克隆脚本,保证脚本可以正常执行。脚本增加日志定向输出功能,将脚本执行结果输出到配置的文件中,便于我们在生产跑批遇到特殊情况据此进行问题排查。我们在上线前脚本测试期间也的确遇到了一些问题,为此我们也要求厂商深入分析,并很快认识到老环境脚本存在的不足,及时进行了优化,有效增强了快照容错能力。
总之,银行金融机构核心账务系统的存储迁移,绝非简单的存储替换,即使在产品选型完成以后,仍然面临以下问题。一是在数据中心维度和业务实际需求层面,对存储的部署和替换升级进行合理规划。二是针对新产品的特性,运维人员需持开放态度积极学习,但也要明确自己的判断和主张,为核心系统的持久平稳运行做出最稳妥的选择。三是在存储安装中,参照前期系统性的规划严格执行,并进行充分的测试,提前发现及解决问题。四是在场景测试中,合理对比测试数据,深入排查遇到的问题,为整个系统的长期平稳运行提供有价值的参考。
金融机构核心交易系统的发展伴随着数据存储技术的演进,存储服务于数据,数据依赖于存储,用好存储,发挥存储的功能特性,需要做好实施规划,实施配置,迁移规划。保证业务的安全稳定持续运行,是业界同仁的深切期盼。
阅读更多《迈向YB数据时代》精彩内容,请识别以下二维码:
《迈向YB数据时代》
数据,作为企业最核心的战略资产,正在由于规模越来越大变成一只令人恐怖的怪兽。在人类数据应用规模即将进入YB时代的当下,如何存好、用好、管好海量数据成为大中型企业普遍面临的巨大挑战。《迈向YB数据时代》,由twt社区和华为存储用户俱乐部联合主办,凝结中国一线用户中应用创新技术专家的具有代表性、前瞻性的技术洞见、实战经验、同行共识,从趋势、架构、实施和运维四大方向,为中国大中型企业应对数据及存储管理中的重大应用挑战提供代表性的参考指南。“乘众人之智,则无不任也;用众人之力,则无不胜也。”让我们一同携手,从容迈向YB数据时代!
《迈向YB数据时代》2022年 秋季刊 以关键应用存储为主题,带领读者回归存储的基本原理,结合敏态和稳态的关键应用,通过群体专家的协同协作,分享实战的心得体会并取得共识,帮助更多的企业用户更好地针对关键应用系统如何选择和使用存储系统,明确各业务场景对存储的关键技术要求,为企业的数据应用创新提供一定的决策参考。
-
2022年秋季刊【架构选型】议题四: 全栈信创技术的存储架构如何设计?
-
2022年秋季刊【最佳实践】议题一: 关键应用存储实施的最佳实践如何落地?
点击 阅读原文 ,到社区原文下与更多同行交流探讨 ↙ ↙ ↙
*本公众号所发布内容仅代表作者观点,不代表社区立场
-
2023年血糖新标准公布,不是3.9-6.1,快来看看你的血糖正常吗? 2023-02-07
-
2023年各省最新电价一览!8省中午执行谷段电价! 2023-01-03
-
GB 55009-2021《燃气工程项目规范》(含条文说明),2022年1月1日起实施 2021-11-07
-
PPT导出高分辨率图片的四种方法 2022-09-22
-
2023年最新!国家电网27家省级电力公司负责人大盘点 2023-03-14
-
全国消防救援总队主官及简历(2023.2) 2023-02-10
-
盘点 l 中国石油大庆油田现任领导班子 2023-02-28
-
我们的前辈!历届全国工程勘察设计大师完整名单! 2022-11-18
-
关于某送变电公司“4·22”人身死亡事故的快报 2022-04-26
