Ceph监控新姿势：用Prometheus+Grafana玩转Dashboard原生数据

最新推荐文章于 2026-05-22 05:44:40 发布

原创

最新推荐文章于 2026-05-22 05:44:40 发布 · 462 阅读

标签

#Ceph监控 #Prometheus #Grafana #运维

Ceph监控新维度：从Dashboard界面到Prometheus+Grafana的深度数据洞察

如果你已经部署了Ceph Dashboard，看着那个简洁的Web界面，是不是偶尔会觉得它像一块精美的仪表盘，能告诉你车在跑，却说不清引擎的转速和油路的压力？Dashboard确实提供了集群状态的概览，但对于真正需要深入诊断性能瓶颈、预测容量趋势、构建自动化告警体系的中高级运维和架构师来说，原生界面的数据深度和灵活性往往捉襟见肘。今天，我们不满足于“看得到”，我们要“看得透”、“管得精”。我们将绕过那些“Web页面取不到数据”的尴尬，直接深入到Ceph监控的“数据源”——利用Ceph Manager内置的Prometheus插件，将海量的性能指标导出，并在Grafana中构建一个完全属于你的、可定制、可告警、可预测的监控指挥中心。

这不仅仅是另一个监控教程，而是一次监控视角的升级。我们将从“如何使用”转向“如何驾驭”，重点探讨Grafana看板的实战配置逻辑、基于PromQL的告警规则编写心法，以及如何利用这些原生指标进行性能深度解读和存储容量预测。无论你是想优化集群的IOPS表现，还是需要为业务部门提供精准的容量报告，这篇文章都将提供一套可落地的操作框架和思考路径。

1. 超越Dashboard：启用与验证Prometheus指标端点

Ceph Dashboard本身是一个优秀的“展示层”，但其底层数据引擎——Ceph Manager的prometheus模块，才是真正的宝藏。这个模块会启动一个HTTP服务，以Prometheus标准格式暴露成千上万个关于集群状态、OSD、MON、PG、RBD、RGW等组件的详细指标。我们的第一步，就是激活并连接这个数据源泉。

1.1 启用Prometheus插件与基础配置

在已经运行Ceph Dashboard的集群上，启用Prometheus模块通常只需要一条命令。但稳健的做法是，先确认当前活跃的MGR节点，因为模块将在该节点上提供服务。

# 查看当前活跃的mgr节点
ceph mgr stat

# 启用prometheus模块
ceph mgr module enable prometheus

启用后，模块默认会在活跃MGR节点的9283端口提供服务。你可以通过ceph mgr services命令来验证。

$ ceph mgr services
{
    "dashboard": "https://ceph-node-01:8443/",
    "prometheus": "http://ceph-node-01:9283/"
}

看到prometheus的HTTP端点（注意是HTTP，不是HTTPS）就说明服务已经就绪。此时，你可以直接用curl命令测试数据拉取：

curl http://<active-mgr-host>:9283/metrics

如果返回大量以ceph_为前缀的文本指标数据，那么恭喜，数据管道已经打通。这里有一个关键点：与Dashboard可能因MGR主备切换出现“取不到数据”的情况不同，Prometheus是主动抓取（scrape）模式。只要配置好Prometheus Server定期来这个端点拉取数据，即使后续MGR主节点切换，只要新的主节点prometheus模块正常，监控数据流就不会中断，这从根本上规避了Web界面的监控盲区。

注意：在生产环境中，你可能需要配置防火墙规则，允许Prometheus Server所在主机访问集群内活跃MGR节点的9283端口。安全要求更高的环境，可以考虑通过Ceph的SSL/TLS配置为指标端点启用HTTPS，但这需要额外的证书配置。

1.2 指标初探：理解Ceph Prometheus指标的结构

直接访问/metrics端点得到的数据是未经加工的原始文本。理解其结构是后续一切分析的基础。Ceph的Prometheus指标遵循一定的命名规范，主要分为以下几大类：

集群整体状态：如ceph_cluster_total_used_bytes（集群已用容量）、ceph_cluster_total_bytes（集群总容量）、ceph_health_status（健康状态枚举值）。
OSD（对象存储守护进程）指标：这是最丰富的一类，包括：
- 性能：ceph_osd_op_w_in_bytes（写入吞吐量）、ceph_osd_op_r_out_by

最低0.47元/天解锁文章