全面的存储管理给企业带来的价值如何实现?|《迈向YB数据时代》
全面的存储管理给企业带来的价值如何实现?|《迈向YB数据时代》
talkwithtrend
talkwithtrend.com社区(即twt社区)官方公众号,持续发布优秀社区原创内容。内容深度服务企业内各方向的架构师、运维主管、开发和运维工程师等IT专业岗位人群,让您时刻和国内企业IT同行保持信息同步。
企业数字化转型带来企业IT设备越来越丰富,要求运维面向自动化、智能化转型,存储作为数据的载体,如何管理好存储系统,是运维工作的重点。在本议题中,我们将重点探讨全面的存储管理给企业带来的各种价值,包括统一监控、容量管理、故障管理、灾难恢复管理、性能管理等主题内容,让读者了解现在企业IT运维过程中,采用全面的存储管理平台或工具带来的增值效益。
本期为大家带来 《迈向YB数据时代》 2022年秋季刊“精细运营 ”栏目 中的 议题二 :
全面的存储管理给企业带来的价值如何实现?
汪照辉 某证券云原生技术专家:
存储统一管理首先是企业架构向融合架构发展趋势的要求,将有助于满足企业数字化转型的敏捷响应需求。
随着企业数字化转型的深入推进,原本很多无法利用的数据也可以采集获取并产生价值。越来越多的企业将公司焦点放在业务数字化和数据价值实现上,企业的数据量也成级数增长。存储作为数据的载体,是企业数据资源再次利用和流转的起点。不过有调查显示,很多用户的首要问题依然是存储管理的基本问题。存储类型多、成本高、管理复杂、扩展困难。特别企业存储往往随着项目和业务发展而采购,导致一家企业内多种存储孤岛,存储的使用和可观测性不足,业务对存储的需求和拥有的存储不匹配,以及很多人员对众多的存储细节不了解,亟需使存储实现自动化、可观测性;赋能上层平台、系统和人员。如何实现对多种类型存储的统一管理,实现统一的监控能力和可观测性,实现按需扩展、弹性伸缩、动态迁移等能力使用户存储使用和管理中的挑战。如何将众多厂商的众多类型的存储统一管理和融合起来,成为一体,按需分配,是有效支撑企业数字化转型的重要基础。
一、存储统一管理需求
多年前就开始讨论数据爆炸,数据信息成指数化增长,但直到现在对数据的利用都不能说是很好,很多的数据即便采集到,也没有体现出价值,很大一方面就是由于存储架构不合理而数据依然散落在不同的地方,没有真正融合起来,难以有效管理、挖掘这些数据之间的关系和价值。受限于数据存储厂商众多、种类繁多、技术繁杂,难以有效统一管理,难以有效融合应对弹性容量需求,难以有效满足当前云原生业务弹性伸缩需求。云原生架构促进了系统融合趋势的发展,而存储也不断地尝试着资源整合,比如存储资源池、超融合等。存储的统一管理是企业数字化转型敏捷响应、存储资产可视化、存储资源可观测性、存储自动化和智能化赋能的需求。
1. 数字化转型敏捷响应需求
企业在实现数字化转型的过程中,数据成为生产要素和资产。而存储资源的数字化是支撑业务数字化快速响应的基础。传统项目周期往往长达数月甚至数年,基于竖井的系统建设需求也导致随项目需求而定义存储需求,不同项目可能面临着不同的存储需求,从而也导致企业内各种类型的存储众多。虽然通过存储资源池、超融合等技术实现了部分存储能力的共享和敏捷响应,但没有从根本上解决存储资产的全局管理和优化,往往也很难匹配不同业务应用对存储的个性需求,难以敏捷响应数字化业务对不同性能存储的需求。
2. 存储资产全局可视化、可观测性需求
企业内有多少家厂商、多少种类型、多少容量、多少余量的存储资产需要有个全局的了解,甚至哪些存储发生了哪些故障、解决时效、解决方法、运行性能等等需要记录和盘点,这是进行存储资源分析和容量使用趋势预测、容量规划、采购决策等重要依据。而这些数据信息的可视化是对企业整个存储资产全局掌控的基础,是企业数字化转型敏捷响应认知的前提。虽然各种类型的存储都有自己的可视化和监控界面,但企业内各种类型的储存分别管理起来过于复杂,在不同存储管理界面进行切换也浪费很多的时间和精力。存储资产的统一监控可视化使存储运行数据可见,从而可以从全局观测到存储资源的运行状况和历史趋势,使存储自动化和智能化能力实现成为可能。
3. 存储自动化和智能化赋能需求
没有完整的存储运行历史数据,是看不出存储的使用状况、性能状况、故障历史等信息的,比较难以知晓存储运行过程中的性能瓶颈,难以探查可能存在的潜在故障点和故障根因,也就很难实现自动化的存储管理和智能化的存储资源分析,从而也影响到及时、正确、准确的决策,也就比较难谈数字化转型的弹性复用、敏捷响应。而自动化和智能化的手段也可以赋能上层系统和业务应用,减少部门和团队之间的交互,从而提升响应效率。比如说,业务应用可以直接按需选择匹配的存储资源管理平台赋能给容器云平台的存储能力,存储IO高的可以选择高读写性能存储,数据量大级别低的可以选择大容量低成本存储等,也使企业从业务应用层就可以实现自动化的应用按需调度能力、弹性扩展能力,充分利用资源和保障业务分级安全运行。
在向数字化转型过程中,建设一套面向企业全局存储资产的存储统一管理系统,实现存储可视化、可观测性、可操作性是一种可行的解决方案。
二、存储统一管理方案现状及趋势
企业存储统一管理的需求也不是现在才提出来,惠普、DELL、Symantec、NetApp、华为等众多的公司都提供统一存储方案。不过很多公司提供的方案是基于自身的产品进行集成,同时支持不同厂商不同类型的存储产品,只是从存储这一资源角度来考虑,缺乏从企业架构整体方案的思考。
目前统一存储方案大多还是考虑作为一个独立的竖井系统,不过构建了统一的存储架构,支持异构类型和不同性能的存储统一管理,具备设备故障告警及分析能力,具备资源使用监控和容量需求预测能力等。比如某公司的统一的存储管理解决方案可以管理基于开放标准的设备,与设备的厂商、型号等无关。采用模块化设计理念,可以集成到用户现有的IT统一管理平台中,实现一个全面的存储管理架构。
随着容器等云原生技术的应用和云原生架构向融合化发展,分布式存储需要越来越多。对象存储基于其读写速度快,易于共享,扩展性强等优点逐渐成为云原生应用存储的选择。存储作为基础设施资源,实现其分布式复用能力和与应用的自动匹配能力是支撑业务应用敏捷的前提。不过由于企业内外存储资源类型和量依然很多,比如说块存储(本地磁盘、U盘等)、文件存储(NAS)、对象存储(Ceph、GlusterFS)、云存储等,整合这些存储资源提供统一的存储资源服务是数字化转型实现资源统一管理、监控、可视化、可观测性的要求。
三、存储统一管理设计实现思路
企业数字化转型需要整合存储资源,实现存储等基础设施资源能力的向上赋能。从云原生整个架构体系来看,各种类型的存储资源可以通过资源管理平台或云管平台来提供统一的存储服务接口。资源管理平台或云管平台封装存储底层细节,有点类似于统一存储的能力,提供存储的接入、容量管理、事件管理、可视化监控、策略管理、全局视图、分层视图、存储管理API接口等,通过存储统一管理平台,提供全局化、可视化、可观测、可操纵的管理和监控能力。
1. 架构设计
存储统一管理可以借鉴各存储厂商的统一存储方案,在统一的基础设施资源管理平台实现存储的统一管理和管控,并封装异构存储API,可视化展示各种存储的部署、节点、数量、容量、拓扑、事件等,提供全局的可观测性和可操纵性能力。存储统一管理架构设计如图1所示:
图1 存储统一管理架构设计
2. 设备接入
在资源管理平台或多云管理平台中,首先要实现异构存储设备的接入。可以实现网络自动发现存储设备,自动接入能力。可以整合存储磁盘阵列、存储服务器、存储交换机等。由于设备类型众多,可能需要支持多种协议和方法。
3. 统一监控
存储设备和资源的统一监控实时观测到存储设备的运行状况,一目了然当前的存储资产、使用量、部署拓扑、性能状况等。存储等基础设施资源的统一监控也是建立企业级统一监控平台的基础。
4. 容量管理
容量管理可以分别了解到各种存储的容量使用状况、使用率,也可以从不同的视角来查看存储的使用情况,生成多种容量使用和分析报告。存储的统一管理可以实现从业务应用到物理存储的关联。
5. 故障管理
通过日常运行历史数据和历史故障数据的收集所形成的知识库,以及状态的扫描、日志的分析、门禁监控等实现对故障事件的分析和定位,进行关联性和影响性分析,然后实现告警通知。故障分析可以基于知识库的事件压缩,有效识别根源告警;影响性分析可直接分析告警影响的服务器或业务系统;告警通知可以基于已有的告警渠道比如邮件、短信等实现。
6. 性能管理
性能管理包括各种存储的IO分析、存储交换机端口流量分析、性能门限设置和告警分析等,从而查找存储的性能瓶颈并进行优化,使整个链路顺畅而没有阻碍。
四、存储统一管理的价值和意义
存储统一管理首先是企业架构向融合架构发展趋势的要求,将有助于满足企业数字化转型的敏捷响应需求。存储统一管理可以帮助企业更好的了解、控制、计划和管理各种存储资源,利用一个统一的资源管理平台,提供可观测的、支持异构存储资源的系统拓扑图,实现设备之间连接和存储性能、容量和事件监控等能力。通过云原生架构基础设施资源赋能上层应用和运维团队,实现自服务化能力以赋能应用研发运维、业务运营及其他团队,有助于DevOps团队的建设。
1) 存储统一管理可以提供存储资源和资源使用的全局视图,全局了解存储的类型和资源总量、使用量,以图形化的方法清晰展现存储设备中容量的配置情况、分配情况、使用情况、变更情况、容量利用率,容量消耗趋势等,掌握容量的全局,构建全局的、面向存储资源的端到端存储容量、存储使用和存储故障分析能力等;
2) 存储统一管理可以了解存储资源的使用趋势,了解存储的整体运行状况,预测存储容量需求和趋势,准确了解系统对存储资源的使用和利用效率,提升资源管理能力;
3) 存储统一管理可以充分复用异构存储资源,实现自动的资源监控、可见性和可观测性。及时发现设备的问题和性能瓶颈,协助快速定位故障,自动迁移和备份,提高响应能力,提升服务满意度;
4) 存储统一管理增加存储容量利用率,提供存储设备可用性,提升服务能力,避免因存储规划不合理而导致系统上线延迟、故障等问题。
张志强 北汽福田汽车股份有限公司 IT基础设施部高级经理兼信息安全高级经理:
数字化转型在传统制造业掀起的变革不断深化,大数据、人工智能、物联网、云原生等技术在企业内得到广泛使用,带动数据量急剧增长,数据类型多样化,对各种类型的存储需求增加。
一、引言
工业4.0的大背景下,越来越多的传统制造型企业加入到了数字化转型的大军中。随着云计算、物联网、大数据、人工智能、5G等新技术的快速发展,推动了数字技术与业务的深度融合。同时大数据应用的多样化发展,数据已经作为企业业务的驱动器之一,被计入核心资产范畴。
随着企业业务的不断发展,数字化进展的加速,数字经济时代正式被开启。数字化诉求加剧,数据量成倍增长,产生了越来越多的数据,对数据的利用也更加成熟和深入。在敏捷应用和智慧系统的不断上线背景下,传统存储无论在性能、扩展还是管理上都无法满足业务的及时性、敏捷性和稳定性要求。为了更好的适应数字化转型节奏和新技术的应用支持,这就对底层存储的架构、运维技术和运维管理等多个方面提出了越来越高的要求,也是企业IT人员不得不面对的现实问题。
二、传统企业的存储管理现状是什么样的
随着技术的发展和业务形态的变化,企业已经从IT时代步入了DT时代,数据的多样性带动了存储类型的不同。从传统的SAN存储到分布式存储,从硬件盒子到软件定义,可以说是百花齐放。
数据存储系统作为信息化系统的基础设施,构建一套稳定、高效、满足数字化时代业务发展需要的数据存储系统是企业夯实数据底座、挖掘数据价值、释放数据潜能的关键。作为数据存储管理员,在数据时代如何更有效的管理如此海量数据、类型多样的存储将是一个难题。
1. 传统存储的架构方面
目前常见的存储系统主要有5种架构,包括DAS、NAS、SAN、分布式存储和云存储。直连式存储(DAS)是一种通过总线适配器直接将硬盘等存储介质连接到主机上的存储方式;网络连接式存储(NAS)是一种提供文件级别访问的网络存储系统,通常采用网络文件共享协议进行文件存取;存储区域网络(SAN)通过光纤交换机等高速网络设备在服务器和磁盘阵列等存储设备间搭设专门的存储网络,从而提供高性能的存储系统。
数字化时代,产生了海量的数据,导致数据量的爆发式增长,传统的集中式存储(如NAS或SAN)在容量和性能上都无法较好地满足大数据的需求。因此,具有优秀的可扩展能力的分布式存储成为大数据存储的主流架构方式;云存储一般是由云服务商提供的在线存储系统,云存储的服务商负责数据中心的部署、运营和维护等工作,将数据存储打包成为服务的形式提供给客户。
正如所介绍的那样,每种存储架构都各自适应不同的应用场景,并有不同的管理方式,标准也各异。但是在企业数字化转型的大背景下,在敏捷交付、弹性扩容的能力上均有所欠缺。
2. 传统存储的运维技术方面
每种不同的存储架构都需要不同的存储运维技术,每种技术都存在壁垒和局限性,如不能统一纳管所有类型的存储,事件可视化能力差、问题无法快速定位,甚至不具备智能调度能力等。在大数据、物联网的时代,现有的存储技术捉荆见肘,无法应对海量数据激增的情况下,对存储读写性能压力大、可靠性要求高的需求;同时不具备提供海量数据存储的大容量、混合负载、多协议互通的综合能力;不具备在云原生时代背景下,容器应用从无状态走向有状态,高可靠、弹性、共享的外置存储的容器数据基础设施的能力;物联网催生海量数据在边缘产生,现有存储架构不具备数据就近存储与处理的能力,时延和传输更是无法满足要求。
3. 传统存储的运维管理方面
传统存储的运维管理方面,主要是以人工方式为主,但是由于存储人员相对成本较高,导致在有限的人力资源下,数据管理挑战巨大。比如在资源变更方面,传统的存储变更经常出现资源分配不合理,很多自动化操作需要临时编写脚本,脚本的二次校验不严谨,甚至无人校验。所有的存储变更几乎都在晚上,运维人员熬夜成为家常便饭。同时存储方面的变更很难在存储系统内留痕,不可控因素较多。再如运维管理复杂,多种架构的存储类报表很难及时展现,容量管理不统一,突发故障很难快速定位等等。
三、数字化转型下的企业所面临的存储管理的痛点
随着大数据时代的到来,几乎所有的企业都已经沉浸在数据的海洋之中,信息洪流带来海量数据,给企业带来了前所未有的机遇,当然也伴随着各种挑战。一方面,长时间保存历史数据,对其进行比对分析,挖掘深层次的价值。另一方面,企业使用着来自不同厂商的多种类型的系统,没有一个统一的标准化平台,而且即使是同一家厂商不同系列的产品都存在互操作性的问题。再一方面,数据资产的重要性不言而喻,保护数据的安全就变得尤为重要。
1. 传统存储的架构无法满足数字化转型的敏捷需求
数字化转型的背景下,敏捷一词尤为重要,要想适应客户或者外界环境不断变化的需求和影响,就要要求业务时刻保持敏捷。而且要充分意识到敏捷不是目的,而是手段。存储系统作为重要的数字化底座的基础设施之一,其灵活程度直接关系到应用系统的对终端用户的响应程度,在这样的背景下,企业急需打造一个开放易用、弹性扩展、稳定可靠的存储架构。架构要具备开放的接口和标准,可以与周边应用更好的集成联动,具备对多云环境的支持,实现多云间、云上云下业务的兼容性接入。具备自动化、智能化的调度模块,提升存储的运维效率。
2. 传统存储的运维技术无法满足数字化转型的业务快速迭代需求
在数字化转型过程中,越来越多的企业开始尝试DevOps,通过它实现了软件的快速交付,是应用快速迭代的基础。当然此文不再赘述什么是DevOps,但是一定要明确DevOps已成为数字化转型的必经阶段。一个好的存储技术可以与DevOps有机的结合在一起,在持续交付阶段,提供环境支撑、数据支撑、部署支撑等服务能力。开发人员可以更多地参与定义配置,运维团队在开发过程之前提前介入,利用云存储管理工具简化配置的复杂性,就像点亮家里电灯的开关一样,快速提供服务,助力缩短上线周期,且提高服务器状态和配置的可见性。
3. 传统存储的管理方式无法满足云原生时代的存储管理需要
伴随数字化社会的来临,数据的体量不断激增。越来越多的企业业务系统亟待驱动数据引领业务创新,进行数字化转型,在此背景之下,云原生成为企业数字化进程的助推力。
存储系统是企业云原生场景中部署容器面临的最主要的痛点之一,也是基础软件领域的重要一环。总而言之,企业若想将云原生技术落地,需要将企业应用负载从原来的虚拟化平台和云平台迁移到容器平台上。然而面对海量的数据存储,传统存储平台的存储能力根本无法满足此需求。而且传统的存储一般都是通过管理员手动进行优化和管理,不仅效率极低,如果没有周密的规划会耗费大量时间反而做无用功。因此,这里我们所说的重整存储架构的核心原则之一就是利用自动化的方式优化存储,通过软件的自动处理来取代可能耗费大量人工的工作。这样才可以适应云原生时代的自动化、可视化的存储管理要求。
四、数字化转型下的智能化存储管理及未来发展趋势
诸多难题与挑战同时摆在面前时,传统存储的管理方法已经不再奏效甚至有些拖后腿,因此,用户必须利用适当的技术和手段重整存储架构来提高存储效率和管理效率。企业的IT管理者要充分的考虑,面对异构环境下如何最大程度的发挥各类硬件的性能优势,以及来自存储的数据类型和支持的分析负载越来越多元化与应用负载的自适应优化等方面的挑战,如何让管理存储更智能、更优化就成为当下讨论的热点话题。
1. 什么是智能化存储管理
其实不同厂商对智能化存储管理的定义并不相同,在将来智能化存储管理应该是面向数据中心内多存储的数据全生命周期的智能管理平台,具备融合管理、智能运维、开放架构等诸多优势,简化存储管理与运维,提升数据中心运营效率,使存储生命周期自治管理。
智能化存储管理系统是一套成熟且可靠的管理和优化企业传统存储的解决方案,通过软件定义和虚拟化等技术,可以合理化使用存储、可视化存储容量、提升运维人员的管理效率。常见的平台如华为的DME 存储智能管理平台,对容量使用情况进行智能预测、基于策略的可用性或者性能的检查、异构管理及自动告警处理等等。
2. 智能化存储管理的优点
・ 开放架构
以前那种传统封闭的存储架构已经不再适合数字化时代的要求,只有走开放的路线,与用户现有的系统有机的结合,使用户清晰的看到存储资源的分配情况和使用情况。不再过多的依赖经验和手工操作,避免专家经验无法固化导致的突发事件。同时可以结合各种脚本,通过自动化的方式进行调度管理。架构可以与多种主流API进行结合,紧密连接第三方平台或系统,实现业务的自动化变更,提升运维效率。开放不仅是一种思路,更是架构思维的一种体现。基于开放架构的存储系统,更容易适应当下海量数据、人工智能、云原生的发展与支持。
・ 融合管理
智能化存储具备支持多个厂商设备的统一纳管能力,管理员将来可以通过这个平台直接看到数据中心内不同厂商的存储产品,也要支持不同类型的存储的管理,如分布式和集中式。避免维护多个厂商产品的独立界面,屏蔽不同厂商存储管理能力各异,管理复杂度高的问题。
融合管理不是一个新词,在很多的平台和系统中均有提到,将来的智能化存储可以通过虚拟化或者其他的方式,实现不同品牌、类型存储的管理统一,对不同存储内部的性能数据进行监控和支持所有异构资源映射关系的监控 这样有助于企业的存储智能化管理,同时可以大幅度的提升管理效率。
・ 池化管理
智能化存储的智能两字不仅体现在的统一纳管和开放架构上,也体现在智能决策上。智能化存储管理平台可以将存储资源池化,通过对存储现状的评估,利用智能决策链条,将以前烟囱式的架构,通过分析不同能力的存储进行整合,对存储资源进行分层管理,不同的Tier提供不同的能力,上层应用按需使用。同时资源池化可以使存储资源均衡使用,整体资源利用率能得到实质的提升。
・ 快速定位
传统的数据中心运维一般都会面临两个难题,设备多问题定界难、数据分散问题定位难,尤其在存储上更是体现的淋漓尽致。存储出事就没有小事,但是问题定位确很难,日志不仅多,而且复杂。通过智能化的存储管理,从问题告警出发,在告警详情关联出对应的端到端资源拓扑,有问题的设备会进行自动标记,并且可以清楚的看到跟此主机关联的数据链路,快速定界。对此主机关联的数据链路上的设备做进一步的性能分析,快速定位。除了从告警出发定位问题外,智能化管理存储平台还应提供问题全局搜索功能,通过主机、ID、IP等多个维度的对象进行快速检索,查询并汇聚搜索对象的基本信息,资源关系,性能,健康等信息。通过汇集的信息,可以快速定位问题,比如可以看到当前搜索出来的汇聚信息,结合标红的资源关系+性能信息+健康情况就能快速定位问题根因。
・ 智能运维
在进行智能化存储管理之前,存储资源分散,整体把控困难,主要表现为:资产难盘点,数据中心IT类型多,数量大,难以了解整体情况。IT资源难规划,没有整体的盘点作为输入,未来资产的规划无从下手。
利用智能化管理平台进行统一纳管后,可以提供整个数据中心的资产盘点、告警集中查看、预置和自定义大屏以及周期性报表能力,精确支持资源调优及规划。同时提供主动式运维能力,利用智能运维流程,提供问题智能预测和自动闭环能力,同时对数据中心内设备做健康评估,对于性能问题,能够有条件自闭环。同时可以通过智能策略调度与周期健康检查,在性能达到瓶颈后自动变更Tier。
3. 智能化存储管理的未来发展趋势
随着云计算、人工智能、大数据和IOT的快速发展与普及,数据存储已经进入长期向上稳定增长的通道。从终端、边缘端到云端,存储的智能化成为新的发展趋势。特别是在新基建政策提出之后,5G部署加速落地,让闪存市场也迈入加速发展。
目前存储智能化已经在各个企业间有许多场景的实践,但存储智能化整体水平还处于起步阶段,数据量大、数据类型广、可靠性高、展扩性强、安全性高的存储系统实现和管理仍然非常艰巨和复杂。智能化概念的深入应用推动了存储领域的蓬勃发展,存储技术方面的提升加速了新的存储时代的到来。智能存储让数据在整个信息生命周期内有序、高效、自治,存储效用最大化、简化管理、减少人工干预,这应该是存储的大趋势。
五、结束语
珺祎 某国有银行系统架构师:
通过对运维数据进行统一的管理来实现运维系统和工具的大数据整合,缩短问题发现和处置的时间,使运维的工作效率得到提升,提升业务价值,为企业创造更多的价值,实现安全高效有序的可持续发展。
通过对存储全面一体化的管理,同时将存储纳入企业一体化运维管理中,通过对运维数据进行统一的管理来实现运维系统和工具的大数据整合,缩短问题发现和处置的时间,使运维的工作效率得到提升,提升业务价值,为企业创造更多的价值,实现安全高效有序的可持续发展。
李丙洋 某城商银行科技保障部副总经理:
随着数据体量的爆炸式增长,系统复杂度的持续提升,基础架构愈发庞大,面对各类海量数据,存储管理也面临越来越多的新问题,IT运维团队必须主动迎接挑战,积极尝试运用人工智能、机器学习等先进技术,向自动化、智能化方向迈进。
一、引言
近些年来,我国数字经济蓬勃发展,各行各业数字化转型的浪潮,不仅促使数据存储规模呈现飞速增长,也让数据的重要性日渐突显。从应用场景来看,随着自动驾驶、智能制造、智慧城市、工业互联网等新场景大量涌现,这些融合了大数据、云计算、人工智能、物联网等技术的新应用,将会持续产生海量数据,从而推动存储层基础设施建设再上新台阶。政策导向方面,全国一体化大数据中心完成总体布局设计,“东数西算”工程正式全面启动,数据存储在“东数西算”工程中无疑也是重头戏。
从长远趋势看,数字经济将会成为经济增长的新引擎,我们正在迈进数据爆炸式增长的新纪元,存储层的建设深入到千行百业的基础设施层已是大势所趋,如果说数据流转是企业数字化转型的关键底座,那么作为基础设施层保障数据存取的存储能力就是底座中的基石。在这样的大背景下,每个企业的存储设施建设,必须为满足其自身性能和容量要求采用必要措施,同时还要保持拥有足够的灵活性以适应不断快速变化的新需求,这也给存储和数据管理带来前所未有的挑战。
管理的设备越来越多,存储的容量越来越大,出现问题的概率越来越高,俗话说量变引起质变,存储管理不再是曾经那样定期扩几个盘柜或不定期换几块硬盘,主要矛盾的表现形式主要升级为面向全面存储管理的容量管理、监控告警、故障处置等的效率和质量。IT运维团队面对持续不断的技术变革,要从人肉运维迈向智能运维,从脚本和工具到平台及系统,从自动化到智能化。
二、容量管理
根据ITIL中的定义,容量管理主要涵盖性能和容量两方面。其中,性能指信息系统在对外提供服务时的处理效率,容量指信息系统在运行过程中能承载的最大资源总量。容量管理的目标是为确保信息系统在运行过程中,其基础软硬件及配套运行环境的性能和容量可以满足企业当前和未来的业务发展需要。
对于存储设备来说,不管是集中式存储还是分布式存储,磁盘(节点)数量除了关系到容量,同样也直接影响性能。但要对存储设备扩容所需周期通常较长,从需求提出、流程审批、发起采购、到货安装,长则半年,短则也需数周。 如果等到资源耗尽才实施扩容,风险系数实在太高,存储作为基础设施层的关键服务,万一可用容量耗尽,造成服务中断肯定是无法接受,但若长期闲置也着实浪费,特别是当企业快速发展时,IT资源的增长也会是几何倍数,相应的成本投入也必然不小,合理的容量规划至关重要。
过去这块工作主要依赖人工,容量规划工作开展的质量如何,主要取决于运维人员自身能力。随着技术的演进,现如今已经有非常多的企业,尝试引入容量规划算法,结合机器学习实现容量波动检测、趋势预测等功能,取代原本依靠经验进行的容量规划。
波动检测主要是针对容量指标的突然变化进行分析,应用机器学习找出异常点。在数据分析的过程中,针对不同类型的数据可以采用不同的分析算法。如对于周期型指标,可采用基于时间序列分解;对于平衡型指标,可以使用加权平均算法;对于非平衡指标,可以使用基于动态阈值、小波变换等算法进行检测。趋势预测重点关注的则是存储容量长期的趋势变化,可用于对文件系统、数据库表空间等容量指标进行预测,常用算法包括线性回归、LSTM等。
基于机器学习的分析主要应用历史数据,大多数场景下,预测结果都具有较强的辅助决策价值,在有效支撑业务需求的前提下,也能控制好存储资源的成本投入,通过有效的资源管理避免资源过度配置,实现成本与效率之间的平衡。 同时智能化的容量管理可与企业内部的自动化体系相结合,使得管理维护众多不同型号的存储系统更加简单,减少重复性的,依赖人工执行的维护任务,在提高效率的同时也提高了操作的安全性。
但是要特别注意到的是,基于历史数据的容量需求预测,往往难以精确应对突发性事件,如营销活动、异常故障等计划外因素导致的趋势变化,因此并非引入机器学习算法后即可高枕无忧,仍然需要优化内部流程,与业务需求团队和软件开发团队建立沟通协作机制,对大型项目投产或运营活动提前筹备,做好保障预案。
三、存储监控
监控系统的建设是个老生长谈的话题,可用性、可靠性、底层设备状态监控等基础监控保障已经非常成熟,商业银行数据中心对这些指标的采集、分析,并通过配置指标的固定阈值等简单规则进行监控告警的能力都已较为完备。第一,随着系统复杂度的提升,特别是金融机构存储类型众多且品牌各异,IT运维团队管理的设备包括传统的磁带库、NAS、SAN等存储设备,以及本地异构存储、分布式存储、超融合、云端一体等存储架构的引入,都使得对存储层的状态检查和故障诊断成本越来越高;第二,阈值告警规则调整需要大量人工干预的,对容量规划的支持较少,无法根据容量历史的变化情况,结合现状进行智能化的判断预警;第三,很多时候,尽管看起来运行正常,仍能对外提供服务,但其实已处于不健康的状态,若不及时干预处置极有可能会出现运行故障。综合这三方面因素,简单根据指标阈值进行判断,已经难以满足当下保障服务稳定可靠运行的基本要求。
基于此,面向全面存储管理的监控体系仍有较大优化空间。一方面是要实施各类型存储设施的监控整合,构建类似云管平台的存储统一监控,不管是各类异构存储、集中存储或分布式存储方式,要纳入统一监控,并按照不同的存储类型进行分层管理,如对于集中存储与分布式存储,又如全闪存储与SAS存储,灵活实现对盘级、节点级、机柜级等配置不同的监控策略。
另一方面则如俗话所说上医治“未病之病”,检测和识别存储“亚建康”状态。比如通过SMART信息(Self-Monitoring,Analysis andReporting Technology)、I/O时延数据进行存储节点盘面健康状态检测,通过收集各存储节点的进程信息,检测服务亚健康状态,通过节点网络I/O数据分析网络亚健康状态。发现运行过程中存在亚健康状态时,也可通过监控系统快速定位亚健康状态的原因、上报故障。
统一监控不仅接入的设备种类全,而且接入的监控链路广,通过对链路上下游各项监控指标的状态诊断,形成全链路的监控分析,有助于精准地定位故障设备,识别故障原因,实现精准报障,并且在与自动化体系打通后,也可以尝试通过预置策略修复故障或降低故障影响范围(如故障设备隔离、依赖组件服务降级等)。
同时,这套体系又可为检测和识别存储层的亚建康状态提供数据支持,能够在短期内发现设备是否存在可疑的运行状态,并提醒IT运维团队及时干预,从而有效的缩短故障发生概率,提高存储设施层的服务可靠性。
四、故障处置
过去的故障处置更多依靠人工,通过存储系统管理大屏、或巡检时设备指示灯状态等信息,分析判断是否存在设备故障等,软件层面则从RAID级别、LUN读写策略、cache策略、硬盘类型等分析排查可能导致的问题。现如今的系统复杂度相比以往面临更多挑战,IT运维团队除了要管理各种类型的SAN或NAS存储设备,还有日渐增多的分布式存储、对象存储,还有一些使用超融合架构,或者运行于虚拟化、容器化环境等等。在这种现状下,出现故障时的高效与准确定位能力至关重要,如何从纷杂的错误信息中快速找准故障点,故障的处理就与监控系统息息相关,监控系统的故障诊断与通知告警精准性,能够有效地缩短故障排查与处理时间,从而降低故障的影响范围。
数据的安全同样不可忽视,金融行业所保存的数据不仅对于企业来说非常重要,更关键的是硬盘中保存的数据同样可能非常敏感,一个不注意,就可能诱发数据安全事件。例如对于数据中心换盘操作,换下的硬盘如何处理需要关注。 从实践角度来看,数据中心要配备硬盘消磁机,对于换下的SAS/STAT硬盘,一定要消磁后再返厂; 对于SSD/PCI-E这类闪盘,则是要采购厂商的“硬盘不返还”服务; 同时对替换下的故障硬盘也应妥善保管,不要以为硬盘已经“故障”了就随意处置,我们并不知道这类硬盘被“专业团队”拿到之后,能从其中恢复出多少数据出来。 越来越多的网络安全漏洞、各类勒索病毒也给数据存储安全带来新的课题,因此存储管理策略同样要考虑符合安全性与合规性要求,确保企业内部数据资产免受网络犯罪活动的侵害,防范内部威胁和人为错误导致的数据泄露。
故障的响应与处置是项大命题,而且随着系统复杂度的提升,可能遇到的故障场景更是千奇百怪,难以言尽,实事求是的说,系统一定会出问题,因为故障的发生本质上是个概率问题,只要发生的次数足够多,即使分子再小也一定会出现。数字化转型的时代浪潮之下,数据的重要性毋庸置疑,金融行业更是如此,IT运维团队要保障极端情况下,数据都不会丢失。数据的备份与恢复策略是最为常规保障手段,包括联机备份、离线备份、异地备份等,当然存储设施自身也有保障手段,主要是靠冗余、靠副本,在磁阵有RAID冗余,存储节点自身有冗余,还有双活或多活机房同样提供冗余保护,冗余同时也是提高系统可靠性的有效手段。通过冗余策略与备份策略提供最终的兜底方案,保障即便是出现极端情况,RPO也能够满足业务需求,数据不丢失,服务不中断。
五、结语
本议题从四个角度详细阐述了全面的存储管理带来的价值,有以云原生架构体系为思路,构建统一、智能化存储管理系统;也有实施异构存储监控整合,打造多源统一的存储整体监控体系;还有基于预测性算法,构建智能化容量及性能管理模型;最后针对不同业务场景,形成存储级灾难恢复管理体系。以此通过先进的技术和手段,重整存储架构,提高存储效率和管理效率,同时大幅提升运维工作效率,有助于满足企业数字化转型的敏捷响应需求。
阅读更多《迈向YB数据时代》精彩内容,请识别以下二维码:
《迈向YB数据时代》
数据,作为企业最核心的战略资产,正在由于规模越来越大变成一只令人恐怖的怪兽。在人类数据应用规模即将进入YB时代的当下,如何存好、用好、管好海量数据成为大中型企业普遍面临的巨大挑战。《迈向YB数据时代》,由twt社区和华为存储用户俱乐部联合主办,凝结中国一线用户中应用创新技术专家的具有代表性、前瞻性的技术洞见、实战经验、同行共识,从趋势、架构、实施和运维四大方向,为中国大中型企业应对数据及存储管理中的重大应用挑战提供代表性的参考指南。“乘众人之智,则无不任也;用众人之力,则无不胜也。”让我们一同携手,从容迈向YB数据时代!
《迈向YB数据时代》2022年 秋季刊 以关键应用存储为主题,带领读者回归存储的基本原理,结合敏态和稳态的关键应用,通过群体专家的协同协作,分享实战的心得体会并取得共识,帮助更多的企业用户更好地针对关键应用系统如何选择和使用存储系统,明确各业务场景对存储的关键技术要求,为企业的数据应用创新提供一定的决策参考。
-
2022年秋季刊【最佳实践】议题三: 信创环境下存储实施如何进行?
-
2022年秋季刊【精细运维】议题一: 关键应用系统的存储性能如何优化?
点击 阅读原文 ,到社区原文下与更多同行交流探讨 ↙ ↙ ↙
*本公众号所发布内容仅代表作者观点,不代表社区立场
-
2023年血糖新标准公布,不是3.9-6.1,快来看看你的血糖正常吗? 2023-02-07
-
2023年各省最新电价一览!8省中午执行谷段电价! 2023-01-03
-
GB 55009-2021《燃气工程项目规范》(含条文说明),2022年1月1日起实施 2021-11-07
-
PPT导出高分辨率图片的四种方法 2022-09-22
-
2023年最新!国家电网27家省级电力公司负责人大盘点 2023-03-14
-
全国消防救援总队主官及简历(2023.2) 2023-02-10
-
盘点 l 中国石油大庆油田现任领导班子 2023-02-28
-
我们的前辈!历届全国工程勘察设计大师完整名单! 2022-11-18
-
关于某送变电公司“4·22”人身死亡事故的快报 2022-04-26
