19.11.8 成本治理与资源优化平台实践案例

成本治理与资源优化平台实践案例围绕“可度量、可优化、可持续”展开，核心目标是通过统一计量、透明分摊与自动化优化实现资源利用率提升与费用下降。平台以多维度标签体系（业务线/项目/环境/负责人/成本中心）为基础，打通资产、账单、监控与变更数据，形成从“资源申请—使用监控—费用分析—优化执行—效果复盘”的闭环。

原理与架构草图（数据流与执行链路）：

关键能力与落地要点：
- 资源与成本画像：以CMDB与监控数据为源，生成业务—资源—费用关联图谱，支持按应用、集群、命名空间、主机与中间件实例维度追踪成本。
- 成本分摊与预算控制：支持按业务线/项目/环境拆分费用，设置预算阈值与超支预警，提供趋势分析与预测。
- 优化策略库：沉淀CPU/内存过配识别、磁盘与快照清理、Redis/MySQL规格调整、K8s HPA/VPA建议、Kafka/ES/Prometheus存储保留策略等规则。
- 自动化执行与回滚：对接自动化运维平台执行变更，记录变更影响与回滚方案，确保业务稳定性。
- 成本治理指标体系：定义资源利用率、单位业务成本、节省金额、优化覆盖率、回收率等指标，纳入SLA与运维度量。

示例一：成本口径与标签统一（以K8s为主，含命令与预期）

# 1) 给命名空间打成本标签（业务线、项目、环境）
kubectl label ns payment cost_biz=fintech cost_proj=pay cost_env=prod --overwrite

# 2) 给节点打成本中心标签（用于主机成本分摊）
kubectl label node node-1 cost_center=cc1001 --overwrite

# 3) 查看标签
kubectl get ns --show-labels | grep payment
kubectl get node --show-labels | grep cost_center

示例二：成本看板与预警（以Prometheus+Grafana为例）
安装（示例使用kube-prometheus-stack）：

helm repo add prometheus-community https://prometheus-community.github.io/helm-charts
helm repo update
helm install mon prometheus-community/kube-prometheus-stack -n monitoring --create-namespace

PromQL 示例（CPU利用率与成本分摊基础指标）：

# 节点CPU利用率
1 - avg by(instance)(rate(node_cpu_seconds_total{mode="idle"}[5m]))

# 命名空间CPU使用（用于按标签分摊）
sum by(namespace)(rate(container_cpu_usage_seconds_total{image!=""}[5m]))

Grafana 预期效果：看板中按命名空间展示CPU、内存、磁盘趋势，并通过预算阈值告警。

示例三：优化策略执行（过配识别+降配）
过配识别（CPU平均使用率<10% 且持续7天）：

# 示例：从Prometheus导出数据后在本地计算
python3 - <<'PY'
import pandas as pd
df = pd.read_csv("cpu_usage_7d.csv")  # columns: instance, avg_cpu
low = df[df['avg_cpu'] < 0.1]
print("过配实例清单:\n", low.to_string(index=False))
PY

降配执行（示例：K8s Deployment资源调整）：

kubectl -n payment set resources deploy/pay-api \
  --requests=cpu=200m,memory=256Mi \
  --limits=cpu=500m,memory=512Mi

kubectl -n payment rollout status deploy/pay-api

预期效果：资源请求降低，利用率提升；通过SLO与延迟指标验证无性能回退。

示例四：闲置资源回收与低峰自动关停（CronJob + kubeapi）

# /opt/ops/scale-down.yaml
apiVersion: batch/v1
kind: CronJob
metadata:
  name: scale-down-nonprod
  namespace: ops
spec:
  schedule: "0 20 * * *"
  jobTemplate:
    spec:
      template:
        spec:
          serviceAccountName: ops-bot
          containers:
          - name: scaler
            image: bitnami/kubectl:1.27
            command:
            - /bin/sh
            - -c
            - |
              kubectl -n payment scale deploy/pay-api --replicas=0
              kubectl -n payment scale deploy/pay-worker --replicas=0
          restartPolicy: OnFailure

应用并验证：

kubectl apply -f /opt/ops/scale-down.yaml
kubectl -n ops get cronjob scale-down-nonprod

示例五：中间件存储与保留策略（Prometheus保留期）

# /opt/ops/prometheus-values.yaml
prometheus:
  prometheusSpec:
    retention: 15d
    retentionSize: "80GB"

更新：

helm upgrade mon prometheus-community/kube-prometheus-stack \
  -n monitoring -f /opt/ops/prometheus-values.yaml

预期效果：日志与指标存储下降，成本收敛。

排错指南（常见问题与命令）：
- 标签未生效导致分摊失败
bash kubectl get ns --show-labels | grep cost_ kubectl get node --show-labels | grep cost_center
- 成本曲线与实际账单不一致
bash # 对比账单周期与监控周期 date; kubectl -n monitoring get pods # 检查Prometheus数据缺口 curl -s http://prometheus.monitoring:9090/api/v1/status/tsdb | jq .
- 自动化执行失败（权限不足）
bash kubectl -n ops describe sa ops-bot kubectl -n ops describe rolebinding ops-bot

练习（可操作步骤）：
1. 在测试集群创建三个命名空间并打上业务/项目/环境标签，输出标签列表截图。
2. 用PromQL统计各命名空间CPU使用量，绘制趋势图并设置阈值告警。
3. 选取一个低利用率Deployment执行降配，记录变更前后QPS与延迟对比。
4. 实现一个低峰自动关停策略并设置回滚计划，验证次日自动拉起。

实施过程中需重点关注：成本数据的准确性与口径统一、优化策略的安全边界、变更对业务的影响评估、优化效果的持续跟踪，以及组织层面的预算与责任落实。通过平台化手段将成本治理嵌入运维流程，实现资源效率与业务增长的协同。