17.1.7 可视化与生态：Grafana与周边组件

Prometheus自身可视化能力有限，通常通过Grafana完成指标展示与分析。Grafana以数据源方式接入Prometheus，支持多维度仪表盘、变量联动、告警与权限控制，是监控可视化的事实标准。本节强调：数据源配置、查询优化、仪表盘规范、以及与生态组件联动的落地实践。

原理草图（Prometheus + Grafana + 生态组件）：

一、Grafana安装与数据源配置示例（Linux）

# 1) 安装 Grafana（以 Debian/Ubuntu 为例）
sudo apt-get update
sudo apt-get install -y grafana

# 2) 启动服务并设置开机自启
sudo systemctl enable --now grafana-server

# 3) 验证服务状态
systemctl status grafana-server --no-pager
# 预期：Active: active (running)

# 4) 添加 Prometheus 数据源（Grafana v9+ 支持 HTTP API）
GRAFANA_URL="http://127.0.0.1:3000"
ADMIN_USER="admin"
ADMIN_PASS="admin"
PROM_URL="http://127.0.0.1:9090"

curl -s -u ${ADMIN_USER}:${ADMIN_PASS} \
  -H "Content-Type: application/json" \
  -X POST ${GRAFANA_URL}/api/datasources \
  -d '{
    "name": "prometheus",
    "type": "prometheus",
    "url": "'"${PROM_URL}"'",
    "access": "proxy",
    "isDefault": true
  }'
# 预期：{"id":1,"message":"Datasource added","name":"prometheus"}

关键命令解释：
- systemctl enable --now grafana-server：立即启动并设置开机自启。
- POST /api/datasources：通过API创建数据源，access=proxy表示由Grafana后端代理访问Prometheus。

二、仪表盘导入与规范化示例

# 通过 Grafana API 导入 Dashboard（示例：Node Exporter Full）
DASHBOARD_JSON=$(curl -s https://grafana.com/api/dashboards/1860/revisions/31/download)

curl -s -u ${ADMIN_USER}:${ADMIN_PASS} \
  -H "Content-Type: application/json" \
  -X POST ${GRAFANA_URL}/api/dashboards/db \
  -d '{
    "dashboard": '"${DASHBOARD_JSON}"',
    "folderId": 0,
    "overwrite": true
  }'
# 预期：{"status":"success","slug":"node-exporter-full","uid":"..."}

规范建议：
- 仪表盘命名：业务-环境-对象，如 payment-prod-node。
- 变量命名：cluster、instance、job，与Prometheus标签一致。

三、查询优化示例（减少高频与高基数）

# 高开销查询（不推荐）
rate(http_requests_total{job="api"}[1m])

# 优化：加上聚合、降低时间粒度
sum by (instance) (rate(http_requests_total{job="api"}[5m]))

四、与生态组件联动示例
1) Grafana 关联 Loki/Tempo 数据源（示例创建 Loki 数据源）

curl -s -u ${ADMIN_USER}:${ADMIN_PASS} \
  -H "Content-Type: application/json" \
  -X POST ${GRAFANA_URL}/api/datasources \
  -d '{
    "name": "loki",
    "type": "loki",
    "url": "http://127.0.0.1:3100",
    "access": "proxy"
  }'

2) Alertmanager 与 Grafana 分工建议
- Grafana Alerting：轻量、页面级告警。
- Alertmanager：统一路由、抑制、分组、通知（推荐主告警）。

五、常见排错清单与定位命令

# 1) Grafana无法访问Prometheus
curl -s http://127.0.0.1:9090/-/healthy
# 预期：Prometheus is Healthy.

# 2) Grafana服务端口未监听
ss -lntp | grep 3000
# 预期：LISTEN 0 4096 0.0.0.0:3000

# 3) Grafana日志排错
journalctl -u grafana-server -f

# 4) Prometheus查询超时（Grafana报错）
# 检查Prometheus负载
curl -s http://127.0.0.1:9090/api/v1/status/runtimeinfo | jq .

六、练习
1) 安装Grafana并添加Prometheus数据源，验证默认仪表盘能展示CPU与内存指标。
2) 导入“Node Exporter Full”仪表盘，按业务分组创建文件夹并调整变量。
3) 将PromQL查询从1m窗口调整为5m，比较面板渲染速度。
4) 在Grafana中添加Loki数据源，并创建日志与指标同屏的面板。
5) 设置Grafana只读用户权限，验证权限隔离生效。

建设建议：统一指标命名与标签规范，制定仪表盘模板与命名规则，按业务与层级分组管理；对高频查询进行缓存或预聚合，避免Grafana高并发查询影响Prometheus性能；通过权限与组织划分实现多团队共用与隔离。