首页 > 行业资讯 > 信创云的存储底座高效运维如何开展?|《迈向YB数据时代》

信创云的存储底座高效运维如何开展?|《迈向YB数据时代》

时间:2023-12-28 来源: 浏览:

信创云的存储底座高效运维如何开展?|《迈向YB数据时代》

原创 twt社区 twt企业IT社区
twt企业IT社区

talkwithtrend

talkwithtrend.com社区(即twt社区)官方公众号,持续发布优秀社区原创内容。内容深度服务企业内各方向的架构师、运维主管、开发和运维工程师等IT专业岗位人群,让您时刻和国内企业IT同行保持信息同步。

信创云的存储底座作为重要的信创基础设施,以国产化的CPU、操作系统为软硬件底座,加上国内自主研发的信创云存储运维平台,其较传统的存储或者云存储运维有较大的差异,产品的使用和运维技能需要快速的学习掌握,各类运维工具相对而言也较为欠缺。在这种情况下,如何快速将信创云融入企业现有运维体系,展开高效运维则变得十分迫切。

本期为大家带来 《迈向YB数据时代》 2023年夏季刊“精细运营 ”栏目 中的 议题一

信创云的存储底座高效运维如何开展?

【栏目主编】邓毓 江西农信运维技术经理: 本议题由某城银商行技术经理哲哲蛙、某农商银行架构师胡海光发表针对议题下关键点的主张,几位专家的主张在某金融行业公司技术经理陈橙、某金融公司架构师刘艳春及我本人等多位专家的复议后,形成了一定的共识,希望可以对同行有一定的参考。

哲哲蛙 某城商银行技术经理

存储作为关键基础设施同样需要实现快速响应能力,存储管理人员在运维过程中,相比过去,新增一项内容就是需要持续学习新产品和技术,研究如何利用它们提高基础资源、存储资源的需求响应速度。

信创云的存储底座作为重要的信创基础设施,其较传统的存储或者云存储运维有了一些改变,存储管理人员需要适应新环境带来的变化,学习掌握信创云存储产品的特性和产品应用,熟悉云管平台、多云管理平台等新的云存储池运维工具,做好信创云存储的监控、明确优化思路,提高信创云存储的稳定性、读写性能,以及敏捷时代下的存储需求响应效率。

一、信创云存储运维新需求

企业的应用系统数据保存在我们的存储上,存储的读写性能、稳定性直接影响应用性能、稳定性,应用需要进行持续优化,提高业务支撑能力,同时,存储也需要进行持续优化,提高对应用性能的支持能力,因此要求存储管理人员在运维过程中,需要持续熟悉新的产品,并研究如何在运维工作中保障存储稳定性、优化性能。

此外随着时代发展,企业信息化建设的节奏越来越快,信息系统敏捷化开发体系得到了广泛应用,企业在提供各项基础资源时,需要具备高效的响应速度,存储作为关键基础设施同样需要实现快速响应能力。存储管理人员在运维过程中,相比过去,新增一项内容就是需要持续学习新产品和技术,研究如何利用它们提高基础资源、存储资源的需求响应速度。

二、信创云存储运维中的稳定性和性能

说起信创云存储的运维,离不开基础监控。信创云存储的监控,如果是由非云原生的外接集中式或分布式存储,主要基于在原有产品的存储监控软件,云内的存储的监控则由云管平台提供。基于云平台的存储监控,主要是提供总体云内存储资源池容量监视视图。

从原理上看,信创云存储相较传统存储,无论是集中式还是分布式存储,存储的监控通常关注存储的硬件和集群指标监控,硬件监控关注存储设备的物理构件有没有出现故障损坏,而性能指标监控是存储服务能力的直观体现,用户可以通过监控指标了解系统的运行状态,数据中心内部的存储使用量和读写速度。我们可以将存储监控分为存储性能监控、存储系统监控及存储设备监控。

存储的硬件监控通常通过存储设备自检能力可以体现,例如机头、磁盘、端口等属于易损件,我们可以通过存储的自带监控界面以及告警灯发现问题。此外也需要关注环境和系统关键温度点监控,对环境温度和系统内的关键温度点都进行了实时监控,会根据各监控点的信息,对风扇进行动态调速,保证系统及各组件工作在正常的温度范围内。当于环境温度增高或者器件异常时,风扇调速无法保证系统或者组件工作在正常范围,存储系统持续高温,容易导致部件损坏。存储性能监控方面,块存储通常监控块的读写速率、IOPS、读写延迟、磁盘使用量等;文件存储通常监控文件系统Inode、读写速度、目录权限等。分布式存储系列通过开放接口与上层云管平台集成,上层云管平台可以通过相关接口对存储系统资源(比如存储集群资源、存储池、卷等)进行监控管理。分布式存储系统监控方面,不同的存储系统有不同的指标,包含集群基本信息监控、性能监控等。集群基本信息监控主要查看包括集群管理服务、状态、节点信息、节点进程信息等。集群性能监控主要查看CPU利用率、内存利用率、带宽、IOPS、时延、磁盘利用率、存储池利用率统计。

存储性能优化工作具有一定的策略性,科学的优化策略才能指导制定更加合理的存储性能优化方案。存储性能优化在规划、维护阶段都需要考虑。

在规划阶段,一个云存储池内可能有多个部分的存储组成,集中式存储、分布式存储、闪存存储、混闪存储均同时存在,需要分析业务系统的需求,并根据不同场景需求评估结果匹配硬件配置,此处不再赘述。

从存储的稳定性来看,集中式存储总体来说稳定性指标都能达到四个9以上,较少出现存储的宕机重启等问题,主要是零部件损坏,按照传统运维要求做好基本的巡检和及时的备件替换基本能保证稳定性。但采用通用服务器的分布式存储架构因为由机架式服务器组成,服务器故障率相对较高,一定要保证服务器的易损备件的储备甚至服务器整机备件的储备,重要环境的分布式存储,还建议进行相对较高冗余副本设计。此外,在进行分布式存储的监控中,需要同时进行分布式存储的监控以及补充结合服务器的IPMI带外管理监控进行服务器部件的监控,能在硬件彻底损坏前发现预告警,及时处理,降低硬件故障带来的影响。针对SSD存储盘组成的存储池,如果采用了pwpd相对较低的SSD硬盘,建议监控SSD使用寿命,避免SSD硬盘寿命集中到期带来的风险。

值得一提的是,当前读优化SSD盘整体价格已经基本和HDD硬盘持平,可以考虑全SSD替换。SSD的读写IOPS和带宽均能高于HDD,但是需要注意SSD的读写寿命,特别是小容量SSD硬盘。信创能力方面,长江存储、记忆科技等国产SSD也已具备量产能力提供Flash颗粒,从过去2021年至今的使用过程中性能和稳定性相对表现不输主流三星、Intel等品牌。此外,FC光纤交换机一直是SAN方案的组网主要方式,长期被Brocade和Cisco垄断,为了解决该领域问题,可以考虑进行存储网络的IP组网替代。目前部分行业如运营商已经在开始应用100GB的IP存储组网替换方案,可能成为趋势,存储运维人员网络运维人员在进行数据中心IP规划时,建议提前做好IP SAN相关规划储备。

运维阶段中的性能优化,首先要从宏观层面分析是否在需求场景上分析存在误差,其次再进行局部的优化如应用优化、调节性能负载、数据缓存优化等。

首先,确认宏观层面的需求场景是否存在误差,例如不建议采用分布式存储作为数据库存储。另外对于一些数据库的类型定位误差,例如运营管理、信贷风险类的数据库,通常是同时具备OLAP和OLTP两类特性的HTAP型数据库,容易出现将其定位为OLAP历史数据较多的库,从而采用混闪存储提供服务,或者采用虚拟机提供服务,后续发现性能瓶颈需要更换为全闪存储。

其次是进行微观层面的局部优化,例如上层应用优化、调节性能负载、数据缓存优化等。上层应用优化手段比较丰富,主要目标是减少上层应用带给存储的IO负载,比如数据传输前启用重复数据删除或数据压缩;优化IO并发,将大量的小IO聚合成大IO;数据库的索引优化、SQL语句优化。调整性能负载主要针对的存储性能热点问题,方案包括优化磁盘分布方式,调整磁盘负载;调整存储网络端口负载;避免过多的流量集中在存储的某几个端口上,相对来说容易出现流量集中的是数据库服务器使用的端口,在进行跑批、备份等操作时,容易出现带宽争用。调整存储端口负载,尽量均衡存储端口的流量。数据缓存是存储系统中非常重要的性能模块,一般缓存都采用内存或闪存等速度更快的存储介质,远远快于一般磁盘。很多存储性能问题都因缓存而起,也经缓存优化而终结。数据缓存分为客户端本地缓存和存储缓存。比如客户端本地缓存对于一些分布式文件系统非常重要,增加缓存大小,可以有效提高缓存命中率;存储的缓存也极为重要,多层级的数据缓存技术可将热点数据存放在更快的存储介质上,降低存储延时。

三、信创云存储运维中的需求响应速度优化

现在信息化开发建设进入高速、敏捷时代,基础资源、存储资源的需求快速响应越来越重要。传统的直接以FC/IP SAN/NFS/CIFS/S3等接口提供各种存储服务,各存储的运维管理通过各自的管理平台进行调用,存储管理人员响应存储需求配置时,需要登录各厂商自有的管理界面进行配置,管理模式相对孤立和分散,响应效率低。

进入信创云服务时代后,通常会在云平台下对接多套存储。在存储上线入网时,将存储空间整体分配给云平台进行统一纳管,融合形成云存储管理池。云存储池具备统一化、集中化的云服务化能力,后期在进行资源分配时,直接在云管平台或者多云平台上进行操作,通过云平台的存储协议去下发调用各存储的接口、自动化分配空间、管理存储空间。在存储资源管理逐渐由传统独立的存储管理转化为云存储池化运维管理中,自动化操作流程能免去重复工作,提高存储分配效率,云存储的管理工具能力,也为实现存储高效响应提供了工具支撑。

通过该模式,企业的存储容量规划也是逐步转为在云管平台视图统一监控容量,分析容量增长和制定扩容计划。

此外,随着自动化工具的发展,很多巡检、简单故障的处理,可以由自动化脚本完成。例如分布式存储节点中的一些进程巡检,异常进程的故障判断和自动恢复等场景,可借助自动化工具减少重复劳动,提高故障处理效率。
胡海光 某农商银行架构师:

随着信创云承载的业务量不断增多,业务重要性不断增强,信创云平台的有效性和稳定性越显重要。信创云存储作为信创云的重要组成部分是信创云数据有效运转的基石底座。

随着信息技术产业的快速发展,技术创新能力大幅提升,产业结构迭代效果显著,同时伴随着国产化、自主化和信创化趋势的不断推进,信创技术和方案逐渐发展成熟和落地实践,推动着整体产业朝着数字化转型和国产自主可控的方向稳步前行。信创已成为我国数据安全和网络安全的基石,也是国家新基建的重要组成部分。就信创云的实现方式而言,存储底座是其平台的重要组成部分,是数字化数据全生命周期管理和使用的必备条件,也是信创云高效和有效运转的重要数据保障。相比于传统存储或云存储而言,信创云存储在运维上存在着一定的差异,产品的使用和运维技能方面也有所欠缺,各类运维工具相对而言也略显不足,因此信创云存储的运维工作显得任重而道远。而运维工作的顺利开展则是需要运维制度和体系去支撑和保障,故将信创云存储融入现有运维体系愈发迫切和重要。基于如上背景本文就信创云存储底座的高效运维情况进行简要说明。

相比于信创云存储的运维体系而言,传统环境存储的运维体系在生产环境多年有效运行积累和迭代下日趋成熟和完善,磨合和形成了一整套成熟稳定高效的运维体系,期间更是积累了一定的生产运维经验,当然也吸取和总结不少的教训。传统存储的运维体系特点主要有如下几个方面:

1、运维制度方面,就传统环境存储的日常运维规范已经积累了明文规定运维流程和运维方法的制度规范,如《存储管理办法》和《数据备份管理办法》等;

2、运维架构方面,专业化维护程度较高,通过设定专门的存储运维岗来负责存储的日常管理和维护;

3、运维范围方面,运维范围主要集中在存储及光纤交换机管理方面,配合系统和数据等岗位开展相应管理和维护;

4、运维技能方面,主要体现在存储及光纤交换机相关的技术技能上,并向上拓展系统相关的操作管理等。

信创云存储运维体系差异主要体现在如下方面:

1、运维对象方面,信创云存储基于国产海光、飞腾、ARM等架构的国产服务器;

2、运维技能方面,信创云近些年才开始部署及生产运行,相比而言时间较短,专业人员较为缺乏,运维技能的更新和积累略显不足;

3、运维工具方面,信创云存储的运维工具需进一步补充和完善。

随着信创云存储产品技术的不断迭代和完善,信创云存储产品的功能和性能逐渐成熟趋于稳定,但仍存在着如下方面的问题:

1、产品的成熟度问题,相比传统环境存储部署在不同行业稳定运行多年,相关的技术积累及排障方面都日趋成熟,而信创云存储相比在产品生态、技术积累和故障定位等方面还有所欠缺;

2、产品耦合度问题,传统环境存储部署较为成熟,针对物理设备有多种耦合和兼容性解决方案,而信创云环境存储对上下游工具链产品技术的耦合度较差;

3、产品的性能表现力问题,传统存储或云存储大都运行重要业务时间较长,对数据的处理和并发能力方面表现尚佳,而信创云存储由于其特殊性和局限性,存在着性能略有不足和客户对其稳定和性能方面的疑虑,导致信创云存储上使用的业务或场景相对较少。但随着企业“上云”步伐加速、政策支持和信创产业逐步发展的加持下,以上出现的问题能有效的弥补和有序的解决。

随着信创云业务“上云”步伐的加速,其上承载的业务量不断增多,业务重要性也越显重要,相应承担的运维工作和责任也越显迫切和重大。因此如何高效地开展信创云存储底座运维是关系着信创云整体运行质量的好坏,关系着企业业务能否稳定和有效运行,更是关系着企业能否在未来发展中取得先机。对于信创云存储的运维工作而言,可以在一定程度上借鉴传统环境存储的运维体系,制定出适合信创云存储的运维体系,主要体现在以下方面:

1、制度先行,信创云存储管理的相关制度需结合到信创云平台管理的整体制度和流程中,很少以组件的形式来制定单独的制度,而对于信创云的管理制度方面虽然有信创的特殊性,但就运维制度而言可以借鉴云平台的相关管理制度;

2、架构明确,对信创云存储运维而言,存储是信创云的组成部分,很少针对信创云存储设置特定的岗位,通常以信创云平台(即云平台)运维方向设置岗位来开展运维工作;

3、范围清晰,相对于传统存储运维岗,信创云存储运维只是其部分,还需掌握信创云平台其它组件(如计算虚拟化、网络虚拟化、安全虚拟化和云管等)的运维管理;

4、技能提升,不仅要熟悉信创云存储侧的相关技能,还需掌握信创云其它组件的相关技能和知识点,以“整云”的视角提升运维人员技能水平从而更好地开展信创云运维工作;

5、人员培养,对于云平台运维人员特别是信创云运维人员进行储备培养,开展人员技能培训,提升人员云运维水平,实行专岗专职专人开展运维的基础,专业的云运维人员更是信创云稳定和高效运行的保障。以上相比于传统存储或云存储,信创云存储作为信创云平台的重要组成部分,有着一定的特殊性,但就信创云和非信创云的整个架构和框架而言也是有所相通和大体相似,更多的是体现在安全性和自主可控性等方面,具体的落地在硬件设备、CPU、操作系统、中间件等方面的区别,在运维方面是可以借鉴企业现有云平台存储的运维体系和方法。

以上就传统存储、云存储和信创云存储对运维而言,都是属于运维的工作职责,而运维事关生产,需认真对待和倾力保障。三者在运维体系方面差别较小,就运维体系的终极目标来看,三者都是管理保障存储的稳定运行。在流程体系方面,三者都需按标准的运维流程来进行操作和管理;在标准体系方面,三者在存储管理方面的相关标准如数据管理大体类似;在技术体系方面,传统存储相差较大,而云存储和信创云存储出自一脉大体相同。基于此三者的运维体系既有差异也有类似,既能借鉴又能迭代。在思想上清晰洞察存储间的差异,知晓其中的联系,在运维上才能更好地管理和维护存储产品。当然信创云也面临着业务改造难度大、硬件资金投入大、系统兼容性差、信创生态选型难、信创专业人才缺乏等问题。但以云作为载体的新型基础设施快速发展成为数字经济发展的重要驱动力,以及企业“上云”步伐的加速,同时在政策支持和信创产业逐步发展的加持下,基于信创云的模式开始升维,深度适配和融入信创生态,向着自主可控和数字化转型的道路不断前行,信创之路未来可期。

结束语

信创云的存储底座作为重要的信创基础设施,其较传统环境存储运维整体差异不大,但有自己的特殊性,可以借鉴企业现有云平台存储的运维体系和方法,制定出适合信创云存储的运维体系,包括运维制度、组织架构、运维范围、运维技能、人员培训等方面。 同时应做好信创云存储的监控、明确优化思路,提高信创云存储的稳定性、性能,以及敏捷时代下的存储需求响应效率。

阅读更多《迈向YB数据时代》精彩内容,请识别以下二维码:

《迈向YB数据时代》

在信创云建设及应用浪潮中,以云平台为代表的基础资源底座成为各大企业的不二之选,传统业务如何迁移到信创云平台,信创云平台中的业务如何安全稳定运行,其中重要一环就是存储的规划与建设。如何建设信创云平台存储以实现业务稳定与创新并举,是金融企业数字化转型过程中要面临的重要挑战。

《迈向YB数据时代》 2023夏季刊 为此提供了深入的洞察和实践建议。本刊内容丰富,从业务需求、技术路线选择、产品选型、关键架构设计等多个角度进行深入探讨,旨在帮助金融企业理性决策,实现信创云趋势下的存储应用及建设的最优化。无论是正在考虑信创云下存储建设的企业,还是已经在信创云环境中运行的企业,都将从本刊中获得宝贵的启示和指导。

【点击图片阅读2023夏季刊】
↓↓↓

【点击图片回顾2023春季刊】
↓↓↓
点击标题阅读往期连载:
  • 2023年夏季刊【最佳实践】议题二: 信创云环境下,企业级国产数据库的数据存储的应用场景下,如何部署集中式存储和分布式存储?

  • 2023年夏季刊【精细运营】议题二: 信创云环境下,云原生技术如何与存储相结合?

*本公众号所发布内容仅代表作者观点,不代表社区立场

版权:如无特殊注明,文章转载自网络,侵权请联系cnmhg168#163.com删除!文件均为网友上传,仅供研究和学习使用,务必24小时内删除。
相关推荐