19.1.9 典型场景与关键指标

本节聚焦运维平台化落地中的典型场景与关键指标，用于指导能力建设、需求优先级与效果评估，并提供可执行示例、排错与练习。

典型场景#

大规模资产与环境治理：多云/混合云资源统一纳管、生命周期管理、标签体系与成本归集。
标准化交付与快速扩容：一键开通集群与中间件、环境模板化、容量预测与弹性扩缩。
持续交付与变更管理：CI/CD流水线编排、灰度发布、回滚策略与变更审计。
高可用与故障应对：多活/主备架构治理、故障自愈、演练与预案执行。
可观测性与告警治理：指标/日志/追踪统一接入，告警去噪、智能关联与闭环管理。
安全与合规管控：最小权限、操作审计、基线合规与风险暴露管理。

原理草图：平台化场景与关键指标闭环#

关键指标体系#

交付效率#

变更交付周期（Lead Time）
发布频率与成功率
自动化执行覆盖率
变更回滚时长与成功率

稳定性与可用性#

服务可用性（SLA/SLI）
平均故障恢复时间（MTTR）
平均无故障时间（MTBF）
故障自愈比例与演练通过率

资源与成本#

资源利用率（CPU/内存/存储/网络）
弹性伸缩命中率与过度预留率
成本归集准确率与节省率

安全与合规#

高危权限占比与账号合规率
基线合规覆盖率与整改闭环率
审计覆盖率与异常操作发现率

运维质量与体验#

告警有效率与误报率
工单响应与解决时长
平台功能使用覆盖率与满意度

示例：指标采集与计算（Prometheus + 文本导出）#

目标：采集发布成功率、MTTR 并输出为 Prometheus 指标
文件路径：/opt/ops-metrics/ops_metrics.py

# 1) 安装依赖（示例为 Ubuntu）
sudo apt-get update && sudo apt-get install -y python3 python3-pip
pip3 install prometheus_client

# 2) 创建指标脚本
cat >/opt/ops-metrics/ops_metrics.py <<'PY'
#!/usr/bin/env python3
from prometheus_client import start_http_server, Gauge
import time

# 发布成功率、MTTR（分钟）示例
release_success_rate = Gauge('ops_release_success_rate', 'Release success rate')
mttr_minutes = Gauge('ops_mttr_minutes', 'Mean time to recovery in minutes')

def collect():
    # 实际场景应来自流水线/告警平台数据源
    release_success_rate.set(0.98)
    mttr_minutes.set(25)

if __name__ == '__main__':
    start_http_server(9105)
    while True:
        collect()
        time.sleep(30)
PY

chmod +x /opt/ops-metrics/ops_metrics.py

# 3) 启动服务
nohup /opt/ops-metrics/ops_metrics.py >/var/log/ops_metrics.log 2>&1 &

# 4) 验证指标
curl -s http://127.0.0.1:9105/metrics | grep ops_

预期效果：输出 ops_release_success_rate 与 ops_mttr_minutes 指标，供 Prometheus 抓取。

示例：SLA/SLI 查询与计算（PromQL）#

# SLA可用性 = 1 - 5xx占比
1 - (sum(rate(http_requests_total{status=~"5.."}[5m]))
    / sum(rate(http_requests_total[5m])))

# MTTR（基于故障持续时间直方图）
histogram_quantile(0.5, sum(rate(incident_duration_seconds_bucket[1h])) by (le))

示例：标准化交付与扩容（Jenkins + Shell）#

目标：一键开通新环境并记录交付耗时
路径：Jenkins Job -> Shell

#!/bin/bash
set -e

START=$(date +%s)
ENV=$1

# 1) 申请资源（示例调用平台API）
curl -s -X POST "http://ops-api.local/envs" -d "env=${ENV}" >/tmp/env.json

# 2) 部署中间件模板（示例）
ansible-playbook /opt/playbooks/mysql.yaml -e "env=${ENV}"

# 3) 记录交付耗时
END=$(date +%s)
LEAD_TIME=$((END-START))
echo "lead_time_seconds ${LEAD_TIME}" >/tmp/lead_time.prom

# 4) 推送指标（pushgateway示例）
curl -s --data-binary @/tmp/lead_time.prom http://pushgateway.local:9091/metrics/job/leadtime/env/${ENV}

关键命令解释：
- ansible-playbook：执行标准化部署模板
- pushgateway：将单次任务指标推送至监控系统

示例：高可用演练与故障注入（Keepalived/HAProxy）#

# 1) 主节点手动降低优先级触发漂移
sudo sed -i 's/priority 150/priority 90/' /etc/keepalived/keepalived.conf
sudo systemctl reload keepalived

# 2) 观察VIP漂移
ip a | grep -A2 "vip0"

# 3) 演练结束恢复
sudo sed -i 's/priority 90/priority 150/' /etc/keepalived/keepalived.conf
sudo systemctl reload keepalived

预期效果：VIP 从主节点漂移至备节点，记录漂移时间用于 MTTR 评估。

排错清单（关键场景）#

指标未上报：检查服务端口是否监听、Prometheus 抓取配置、网络 ACL。
bash ss -lntp | grep 9105 curl -s http://127.0.0.1:9105/metrics
交付失败率上升：核查流水线步骤耗时、失败阶段、依赖服务状态。
bash grep -n "FAILED" /var/lib/jenkins/jobs/*/builds/*/log | head
告警噪声过高：检查告警规则阈值、抑制与去重策略。
promql sum(rate(alerts_fired_total[5m])) by (alertname)

练习#

为“发布成功率”编写一条 PromQL 并在 Grafana 绘图，计算最近 24h 成功率均值。
设计一个故障演练脚本，记录演练开始到恢复完成的时间并输出为指标。
给“高危权限占比”设计数据采集来源与计算公式，并用文本导出器实现。