解析云平台存储全方位监控建设
解析云平台存储全方位监控建设
talkwithtrend
talkwithtrend.com社区(即twt社区)官方公众号,持续发布优秀社区原创内容。内容深度服务企业内各方向的架构师、运维主管、开发和运维工程师等IT专业岗位人群,让您时刻和国内企业IT同行保持信息同步。
【作者】 邓毓 江西农信运维技术经理
一、云平台存储全方位监控建设方向
云平台存储全方位监控建设方向应当包括至少以下四个方面:云平台存储基础底座监控、云平台存储产品监控、事件告警平台、多维度图表展示及报表,形成一个完整的云监控服务,其架构如图1所示,下面将一一进行介绍:
图1:云平台存储全方位监控图
1. 云平台存储基础底座监控
如今的云平台存储时代分布式架构得到了广泛应用,云平台存储基础底座通过利用大量标准化机器的存储资源聚合构造一个海量存储池,作为数据存储的基石性系统,其上承载了一系列的云平台存储服务。既有要求高吞吐量,I/O能力随集群规模线性增长的“开放存储”,又有要求低时延的“弹性计算”。作为底层平台核心的云平台存储底座必须二者兼顾,同时具备高吞吐量和低时延。因此其技术架构十分复杂,作为基础底座,完备的监控是必备的。主要包括两大类别,一是存储产品集群监控,包括该存储产品所用底座集群下的存储空间、机器信息和健康信息等,健康信息涉及集群元数据节点和数据节点的整体状态、水位、磁盘、集群日志等信息;二是集群节点监控,包括节点基础监控,如CPU、内存、进程、磁盘、缓存等,以及节点级状态、水位、磁盘、硬件、节点日志等信息。
2. 云平台存储产品监控
云监控针对云平台存储产品的监控,需提供自动、准确且几乎实时地采集基础监控指标和存储产品监控指标数据的功能。能够为用户实时地了解所拥有的存储服务状态以及业务的使用情况,并且能够及时的发现问题、诊断问题和解决问题。云平台存储服务监控通过监控面板支持通过自定义的方式建立丰富多样的图表查看产品的指标数据,并可配置告警,还能通过API拉取指标数据,进行进一步使用和分析。对用户而言,主要关注以下三类服务监控指标数据:
1) 用户计量数据监控:反映用户层面的资源使用状况和计量信息。例如存储产品已用/总空间、吞吐量、流入流出流量或吞吐量、带宽、请求数或IOPS等。
2) 服务性能数据监控:反映用户在使用服务时的体验感信息。主要是请求延时,它是衡量服务性能的重要指标。所以实时的延时信息监控和毛刺状态对用户评估业务需求和服务性能至关重要,而且请求延时包含网络延时和服务器延时两大部分,通过监端到端延时和服务器延时,能够快速帮助用户定位性能问题。
3) 服务水平数据监控:反映存储服务的稳定性以及用户的使用健康状态信息。例如服务可用性、内部错误数、返回错误情况、日志告警等。
3. 事件告警平台
云监控事件告警平台要求能够为用户提供及时、个性化的事件及告警服务,统一适用于云上各类计算、存储和网络的基础底座及云产品监控。
1) 事件服务:提供了事件类型数据上报和查询功能。方便用户将云上的各类重要事件或对云资源(包括云底座和云产品)的操作事件收集到云监控服务,并在事件发生时进行告警。事件服务保存并监控着云资源的关键操作,可通过事件了解到谁在什么时间对系统哪些资源做了什么操作。
2) 告警服务:提供了监控指标、事件的告警功能。用户对云资源的核心监控指标设置告警规则,当监控指标触发用户设置的告警条件时,支持以邮箱、短信、HTTP、HTTPS等方式通知用户,让用户在第一时间得知该云资源发生异常,迅速处理故障,避免因资源问题造成业务损失。另外,云监控告警服务使用消息通知服务向用户通知告警信息。首先,用户需要在消息通知服务界面创建一个主题并为这个主题添加相关的订阅者,然后在添加告警规则的时候,需要开启消息通知服务并选择创建的主题,这样在云资源发生异常时,云监控告警服务可以实时的将告警信息以广播的方式通知这些订阅者。告警规则支持企业项目,当选择了告警规则到某个企业项目时,只有拥有该企业项目权限的用户才可以查看和管理该告警规则。
4.多维度图表展示及报表
云监控需要支持用户通过丰富的多样的个性化图表查看已有的监控数据,并支持自定义报表导出能力。统一适用于云上各类计算、存储和网络的基础底座及云产品监控。
监控面板/大屏:能为用户提供自定义查看监控数据的功能。将用户关注的核心云资源监控指标集中呈现在一张监控面板里,为用户定制一个立体化的监控平台。
1) 用户可以在监控面板详情中便捷地查看和导出各个云资源的监控数据;
2) 用户可以在监控面板订阅重要的指标,个性化地定制不同指标的展现形式与运算规则,并通过列表与图表结合,对指标数据进行排序与对比展示,辅助异常排查与故障分析;
3) 用户可以查看和导出账号下所有云资源的监控数据与绑定的告警信息;
4) 监控面板支持在一个监控项内对不同资源、不同维度的数据进行对比查看和导出,帮助用户实现不同云资源间性能数据对比查看的需求;
5) 监控面板支持结合云资源的健康状态与告警数据,为用户提供了快速定位异常资源的功能,并支持用户结合具体数据与异常信息排查问题;
二、云平台存储全方位监控指标体系建设
云平台存储监控指标体系建设的重要性不言而喻,通过对云平台存储基础底座以及块存储、文件存储和对象存储等三大主要存储产品进行精细化监控,关注这三类云存储服务的可用性、安全性、服务质量等指标,直观展示各类云存储资源配置信息、使用状况、性能状况及健康状况,准确及时的发现云存储系统中的故障和问题所在,以智能多样化的方式进行报警、信息统计,及时响应、掌控以及处理系统突发故障,同时也可以进行问题预测。为了便于读者直观了解云平台存储监控指标体系建设内容,下面以阿里专有云存储基础底座-盘古(表1),以及三大知名公有或专/私有云平台存储产品监控体系为例,列举并对比三大云上存储产品各个方面监控重要指标(表2-表4):
注:盘古Master服务器:盘古文件系统的元数据存储服务器;盘古Chunk Server(简称CS)服务器:盘古文件内容数据存储服务器。
注1:包括各类对象存储操作的请求,如:对象追加(AppendObject)、对象拷贝(CopyObject)、对象删除(DeleteObject)、对象下载(GetObject)、对象存在和权限判断(HeadObject)、对象上传(PutObject)、对象HTML表单上传(PostObject)、对象分块上传(UploadPart)、对象复制分块上传(UploadPartCopy),可以对不同操作建立精确的监控指标。
注2:不同云厂商返回码和含义不同,常见返回错误包括:客户端授权错误、超时错误、网络错误请求、客户端资源不存在错误、服务端错误、用户层级客户端授权错误、用户层级客户端其他错误、客户端超时错误、用户层级客户端超时、用户层级客户端资源不存在错误、用户层级服务端错误等,可以对不同返回错误建立精确的监控指标。
注3:包括用户层级和非用户层级指标情况,未标注则未对此指标进行区分。
注4:包括标准存储、低频存储、归档存储等不同类别对象存储,可以对不同类别建立精确的监控指标。
注5:包括指定回源源站的正常请求、指定返回值和回源源站的正常请求两类。
相关文章 云平台存储如何实施全方位监控? 点击文末阅读原文可读 觉得本文有用,请 转发、点赞 或点击“ 赏 ”,让更多同行看到
资料/文章推荐:
-
私有云平台下的存储架构规划设计
-
企业应该寻求什么样的云平台存储架构?
-
某银行总行数据中心私有云平台2.0建设
-
抛弃?保留?——基于超融合的容器应用入云,延用超融合还是用裸金属替代 | 争议
-
从资源上云到应用上云,云原生下一步会怎样发展?
-
万字干货:全面详解云计算
欢迎关注社区 "云计算" 技术主题 ,将会不断更新优质资料、文章。地址:
https://www.talkwithtrend.com/Channel/77/
下载 twt 社区客户端 APP
长按识别二维码即可下载
或到应用商店搜索“twt”
长按二维码关注公众号
*本公众号所发布内容仅代表作者观点,不代表社区立场
-
2023年血糖新标准公布,不是3.9-6.1,快来看看你的血糖正常吗? 2023-02-07
-
2023年各省最新电价一览!8省中午执行谷段电价! 2023-01-03
-
GB 55009-2021《燃气工程项目规范》(含条文说明),2022年1月1日起实施 2021-11-07
-
PPT导出高分辨率图片的四种方法 2022-09-22
-
2023年最新!国家电网27家省级电力公司负责人大盘点 2023-03-14
-
全国消防救援总队主官及简历(2023.2) 2023-02-10
-
盘点 l 中国石油大庆油田现任领导班子 2023-02-28
-
我们的前辈!历届全国工程勘察设计大师完整名单! 2022-11-18
-
关于某送变电公司“4·22”人身死亡事故的快报 2022-04-26
