深耕企业IT运维条线的从业者,怎样理解运维“智能化”及其演进道路?| 运维趋势
深耕企业IT运维条线的从业者,怎样理解运维“智能化”及其演进道路?| 运维趋势
talkwithtrend
talkwithtrend.com社区(即twt社区)官方公众号,持续发布优秀社区原创内容。内容深度服务企业内各方向的架构师、运维主管、开发和运维工程师等IT专业岗位人群,让您时刻和国内企业IT同行保持信息同步。
【作者】赵海 某金融系统高级主管
一、引言
二、从“手动”到“自动”的发展历史
2.1 企业最初的IT运维模式
讲到企业最初的IT运维模式,那么就得回到企业最初的IT架构。
以银行为例,90年代之前的历史我们暂不讨论,90年代之前的架构大概都是以单机为基础。企业的信息系统各自为政,每一个应用系统都有一套独立的载体(计算、网络、存储),数据和程序同在一个屋檐下,应用和应用相互并不认识。这个时候的运维得靠那些最初接触计算机技术的工程师依靠命令的方式实现这些载体设备的运行维护,他们不仅是一个小群体,而且是凤毛麟角稀缺的小群体,往往都属于那些设备大厂家的工程师。企业自身的电脑科室人员可能仅限于开关机以及程序使用。
2.2 当企业的IT架构从完全的“单机式”走向“载体裂变”
伴随着企业信息化的发展,信息系统逐渐从完全的单机式走向了“载体裂变”。所谓载体裂变,一方面信息系统的载体从纵向上将计算和存储进行了分离,专业的存储设备承载了信息系统的数据存储功能;另外一方面,信息系统将数据处理功能交给了横向的数据库服务器。这个变革的源动力在于企业数据在量级上和安全性上的要求,当然更重要的是局域网技术发展的支撑。这个时候的运维工作已经进行了细分,企业不仅需要专业的服务器存储管理员,还需要专业的数据库管理员。但是这些管理员的运维工作还是建立在各自设备及软件的命令操作模式上,工作方式没有根本性的改变。
2.3 当企业的IT架构走向“数据集中”
还是以银行业为例,当大银行的分支机构各自发展了一段时间后,新的问题出现了。同一家银行内各地区的信息孤岛问题越来越多,但是业务需要走出地域限制。银行有很多应用系统来支撑客户的各类金融业务需求,但是客户是同一个大群体,客户在同一家银行内的横向信息孤岛问题也越来越严重。这两方面的原因是数据走向集中的源动力。当然必要的技术支撑在于广域网技术、数据传输技术等系列支撑工具的突飞猛进式发展。这个时候,企业的运维工作除了在工种上有了进一步的细分之外,工程师的工作模式上也有了变革的可能性。工程师为了解放劳动力,自发的开始用脚本工具来实现远程管理;IT服务商为了开拓新市场,逐步探索集中监控、集中发布、集中管理等自动化运维管理工具。
2.4 当“云计算”出现
三、企业IT运维发展历程分析
四、从“自动化”到“智能化”
2.1 何为“智能化”
所谓企业IT运维智能化,其实业界并没有一个明确的定义和标准。不同的企业不同的人对它的理解可能会有所差异。但是笔者认为智能化运维基本的原则应该包含以下几个方面:
(1)预警变为预防
在半自动化或者自动化阶段,IT运维的预警主要是指通过固定规则分析资源或对象的未来可能趋势,然后根据既定阀值标准来进行事前的预警。通常来讲需要运维人员根据预警情况进行人工分析之后决策后续动作。但是“智能化”阶段之后,部分或者全部的人工分析就应该变为机器分析,分析之后的动作也应该变成部分或者全部的机器行为。
(2)报警变为解决
同样,在传统的运维发展阶段,IT运维当中的报警主要是指监控平台或者工具的实时报警,当捕捉到资源使用、对象状态以及其他相关异常发生时,实时发出警报。运维人员根据实时警报进行及时处理。具体采取的动作主要是根据报警的内容及运维人员的经验积累来决策临时的处理动作。
(3)日志变为知识
所谓的日志是指监控平台、运维工具以及其他相关的系统运行数据。通常来讲,日志是运维人员用来分析问题以及总结经验的依据。“智能化”运维阶段,这种分析能力和经验的积累学习能力应该部分转化为机器的再学习过程。不仅运维人员要进行分析总结,同时需把这些数据作为输入给到智能运维平台。
2.2 数据是实现“智能化” 的 前提条件
前边我们从运维的事前、事中以及事后三个角度分 析了智能化运维应该达到的目标。仔细分析,不难发现每一个目标的实现都离不来数据的利用。如果没有准确的运维数据采集,预防的判断和后续的操作如何着手?如果没有大量的运行数据,那么机器的学习和积累如何进行?如果没有正确的数据关联视图,机器如何识别并判断风险?因此实现智能化运维的前提条件就是运维数据的利用,而运维数据的利用主要解决以下几个问题:
(1) 数据采集
传统运维思维认为只有那些系统以及设备本身的运行数据才是运维数据,那么在智能化运维阶段我们需要把这个概念扩大到应用系统甚至业务层面。对于运维事件本身的分析不再局限于IT环境本身的分析,而是要纵向扩展,扩展到对应用层面的影响分析。对于IT资源的趋势分析不再局限于简单的线性分析而得出结论,而是要扩展到业务扩展以及业务特点的分析上,因为IT资源使用的源头就在于业务。因此在智能化阶段,数据采集的横向广度以及纵向的深度都应该拓展。
传统运维当中对于运行数据的采集主要依赖于统一化监控平台、日志平台、设备自身。在智能化运维阶段,由于数据量级、类型、范围的巨大变化,数据的采集需要区分直接采集和间接采集,间接采集过程需要加入数据加工的逻辑。要实现如此广度和深度的数据采集,相应的标准化建设是需要先行的,在自动化阶段就应该完成的事情,这里就不再阐述。
(2) 数据分析
这里的数据分析不再是孤立的状态判断以及事件追溯,而是需要结合所有数据视图变化而进行的复杂分析。举个例子,“内存不足”这个告警不再是简简单单的服务器资源扩容的事件,而是要分析导致该事件发生的本质原因。究竟是应用并发访问导致的还是SQL执行计划有误导致的?从前是否发生过类似事件,发生的场景条件是否一样,发生的时间是否有规律?除了计算资源需要调整,网络、存储以及其他资源是否需要协同进行调整或者计算来应对该事件的发生?
总结来看,这里的数据分析是需要打通运维数据的纵向格局和横向格局来进行分析。表现出来的异常或变化本身作为线索,应用、网络、计算、数据、存储等各个视图上的变化都会被用来分析整个系统的关联性变化。不仅要分析到事件本身的前因后果,而且还需要分析到目前以及未来应对的整体解决方案。
(3) 数据积累
五、总结
虽然说各行各业的IT运维发展存在很大差异,有的勉强刚刚从手动模式步入半自动模式,有的已经完全实现了自动化,有的甚至已经很早步入智能化的探寻阶段。总体而言,将IT运维推进到自动化和智能化相结合的模式已经是当前以及未来的趋势。企业如何做好自己的运维模式转型需要根据自身的环境特征和现实情况来分析抉择,但是利用好自身的数据来实现自动化智能化运维是大家都要走的路。
原题:企业IT运维从“手动”到“自动”再到“智能”
欢迎点击文末 阅读原文 到社区原文下讨论交流
觉得本文有用,请 转发、点赞 或点击 “赏” ,让更多同行看到
资料/文章推荐:
-
银行业IT服务连续性体系规划与灾备自动化切换经验(来自真实项目案例)
-
企业应用级自动化运维建设思路
-
银行智能运维一体化建设研究与实践
欢迎关注社区 “智能化运维”技术主题 ,将会不断更新优质资料、文章。地址: https://www.talkwithtrend.com/Topic/125353
下载 twt 社区客户端 APP
长按识别二维码即可下载
或到应用商店搜索“twt”
长按二维码关注公众号
*本公众号所发布内容仅代表作者观点,不代表社区立场
-
2023年血糖新标准公布,不是3.9-6.1,快来看看你的血糖正常吗? 2023-02-07
-
2023年各省最新电价一览!8省中午执行谷段电价! 2023-01-03
-
GB 55009-2021《燃气工程项目规范》(含条文说明),2022年1月1日起实施 2021-11-07
-
PPT导出高分辨率图片的四种方法 2022-09-22
-
2023年最新!国家电网27家省级电力公司负责人大盘点 2023-03-14
-
全国消防救援总队主官及简历(2023.2) 2023-02-10
-
盘点 l 中国石油大庆油田现任领导班子 2023-02-28
-
我们的前辈!历届全国工程勘察设计大师完整名单! 2022-11-18
-
关于某送变电公司“4·22”人身死亡事故的快报 2022-04-26