17.6.7 性能优化与大屏展示方案

性能优化与大屏展示方案的目标是降低Prometheus查询压力、提升Grafana渲染效率与可读性，并保证大屏稳定运行。本节给出原理草图、安装与部署建议、关键配置与命令示例、排错思路与练习。

原理与数据流草图：

一、安装与部署建议（含示例）
1) Grafana独立实例部署，避免与Prometheus争用资源：

# Ubuntu/Debian
sudo apt-get update
sudo apt-get install -y grafana

# 启动并设置开机自启
sudo systemctl enable --now grafana-server
sudo systemctl status grafana-server --no-pager

# 预期效果：服务处于 active (running)

2) 推荐为大屏设置独立访问域名与反向代理缓存：

# /etc/nginx/conf.d/grafana-bigscreen.conf
server {
    listen 80;
    server_name bigscreen.example.com;

    # 反向代理到 Grafana
    location / {
        proxy_pass http://127.0.0.1:3000;
        proxy_set_header Host $host;

        # 缓存公共仪表盘（只读/匿名）
        proxy_cache grafana_cache;
        proxy_cache_valid 200 30s;
        add_header X-Cache-Status $upstream_cache_status;
    }
}

# /etc/nginx/nginx.conf 中 http 段添加缓存区
proxy_cache_path /var/cache/nginx/grafana levels=1:2 keys_zone=grafana_cache:50m inactive=10m max_size=1g;

二、查询与数据源优化（含命令/配置示例）
1) Recording Rules降低面板实时计算负担：

# /etc/prometheus/rules/recording.yml
groups:
- name: node_agg
  interval: 30s
  rules:
  - record: job:node_cpu_util:rate5m
    expr: 1 - avg by (instance) (rate(node_cpu_seconds_total{mode="idle"}[5m]))
  - record: job:node_mem_util:ratio
    expr: 1 - (node_memory_MemAvailable_bytes / node_memory_MemTotal_bytes)

# 预期效果：Grafana直接查询 job:node_cpu_util:rate5m，减少实时聚合开销

2) Prometheus重新加载规则：

# 如果开启了 --web.enable-lifecycle
curl -X POST http://prometheus.example.com:9090/-/reload
# 预期效果：规则加载成功，prometheus_targets中规则生效

3) Grafana面板查询建议（示例）：

# 使用聚合后的指标
job:node_cpu_util:rate5m

三、面板与渲染优化（含实践示例）
1) 大屏单屏8–12核心指标，使用Stat/BarGauge替代折线图：

- 单值指标：CPU、内存、磁盘、可用性 → Stat
- 状态类指标：Kafka/Redis/Nginx 健康 → BarGauge
- 业务指标：QPS、延迟 → Time series

2) Grafana面板减少渲染开销（示例步骤）：

1. Panel -> Visualization -> 关闭 Legend / Tooltip
2. Display -> Min interval 设置为 30s 或 1m
3. Max data points 设置为 500~1000

四、缓存与刷新策略（含配置示例）
1) Grafana全局刷新间隔建议：

普通生产看板：30s–60s
核心大屏：10s–30s
历史趋势：5m–15m

2) grafana.ini关键参数（示例）：

# /etc/grafana/grafana.ini
[dataproxy]
timeout = 30
keep_alive_seconds = 60

[feature_toggles]
enable = publicDashboards

[auth.anonymous]
enabled = true
org_role = Viewer

五、部署与可靠性（含命令）
1) 大屏专用实例资源建议：

CPU 4核+，内存 8GB+，SSD存储

2) 仪表盘JSON版本管理：

# 导出仪表盘
curl -H "Authorization: Bearer <API_TOKEN>" \
  http://grafana.example.com/api/dashboards/uid/xxxx \
  -o dashboards/xxxx.json

# 预期效果：JSON可提交到Git进行版本控制

六、大屏展示规范（可执行清单）
- 指标分层：业务KPI、系统资源、链路可用性、告警状态
- 统一色彩：绿/黄/红对应正常/预警/故障
- 固定分辨率：1920×1080，避免缩放变形
- 轮播展示：多系统/多地域采用定时切换

七、排错与优化检查表（含命令）
1) Grafana慢查询排查：

# Grafana日志路径
tail -f /var/log/grafana/grafana.log

# Prometheus目标健康
curl http://prometheus.example.com:9090/api/v1/targets | jq '.data.activeTargets[] | {job,health,lastError}'

2) Prometheus查询负载高：

# 查看Prometheus自身监控指标
curl http://prometheus.example.com:9090/metrics | grep -E "prometheus_engine_queries|prometheus_tsdb_head_chunks"

3) 大屏页面加载慢：

- 检查是否存在高基数标签（如 pod、container 全量展开）
- 检查面板最小间隔是否过小
- 检查反向代理缓存是否命中（看X-Cache-Status）

八、练习
1) 编写Recording Rules，输出node CPU和内存利用率，并在Grafana中替换面板查询。
2) 将大屏刷新周期设置为30s，验证Prometheus查询QPS是否下降。
3) 搭建Nginx缓存代理，访问大屏并观察X-Cache-Status变化。
4) 导出一份仪表盘JSON并提交到Git，模拟回滚到上一版本。