19.6.8 容量评估、性能优化与成本控制

容量评估、性能优化与成本控制需要贯穿日志全生命周期，形成“预测—执行—回顾”的闭环。本节以常见 ELK/OpenSearch 体系为例，给出容量模型、链路优化、成本分层的可操作方法，配套安装验证、命令解释、排错与练习。

1. 容量评估：建立可量化模型#

核心公式
- 日志原始量：GB/day = 单行平均字节 * 日志行数/天 / 1024^3
- 索引与副本放大：存储量 = 原始量 * (1 + 索引开销比例) * 副本因子
- 热存储容量：热存储 = 日志量/日 * 热保留天数 * 放大系数

示例：估算与输出容量告警阈值

# 1) 统计某目录下日志体积（原始日志量）
du -sh /var/log/app | awk '{print "raw_logs="$1}'

# 2) 统计日志行数与平均行大小（用于行级估算）
LINES=$(wc -l /var/log/app/app.log | awk '{print $1}')
SIZE_BYTES=$(stat -c%s /var/log/app/app.log)
AVG_LINE=$((SIZE_BYTES / LINES))
echo "avg_line_bytes=$AVG_LINE lines=$LINES"

# 3) 估算日增长（假设每秒 500 行）
LOG_PER_SEC=500
AVG_LINE=300
DAY_BYTES=$((LOG_PER_SEC * 86400 * AVG_LINE))
echo "est_day_gb=$(echo "$DAY_BYTES/1024/1024/1024" | bc -l)"

# 4) 计算存储放大（索引+副本），索引开销 30%，副本 1
INDEX_OVERHEAD=1.3
REPLICA=2
DAY_GB=$(echo "$DAY_BYTES/1024/1024/1024" | bc -l)
TOTAL=$(echo "$DAY_GB*$INDEX_OVERHEAD*$REPLICA" | bc -l)
echo "est_storage_day_gb=$TOTAL"

命令解释
- du -sh：快速查看目录体积，适合基线测量。
- stat -c%s：获取文件字节大小，便于计算平均行大小。
- bc -l：浮点计算，避免整数截断。

容量告警阈值示例（Prometheus 规则）

# /etc/prometheus/rules/log_capacity.yml
groups:
  - name: log-capacity
    rules:
      - alert: LogStorageHotHigh
        expr: (node_filesystem_avail_bytes{mountpoint="/data/es"} /
               node_filesystem_size_bytes{mountpoint="/data/es"}) < 0.15
        for: 30m
        labels:
          severity: warning
        annotations:
          summary: "Hot storage low (<15%)"
          description: "Check retention or expand storage."

2. 性能优化：采集—传输—存储—查询#

2.1 采集与传输优化（Filebeat 示例）#

安装与启动

# Debian/Ubuntu
apt-get update && apt-get install -y filebeat
systemctl enable --now filebeat

配置批量与压缩

# /etc/filebeat/filebeat.yml
filebeat.inputs:
  - type: log
    paths:
      - /var/log/app/*.log
    scan_frequency: 5s
    multiline.pattern: '^\['
    multiline.negate: true
    multiline.match: after

output.logstash:
  hosts: ["logstash-1:5044","logstash-2:5044"]
  bulk_max_size: 2048
  compression_level: 3
  worker: 2

参数解释
- bulk_max_size：提升批量发送减少 RTT。
- compression_level：压缩降低带宽开销。
- multiline：避免栈追踪拆分，降低解析错误率。

排错：采集延迟或丢失

# 检查 Filebeat 运行与队列状态
systemctl status filebeat
filebeat test output
filebeat test config -e

# 观察发送延迟与丢包
journalctl -u filebeat -n 200 --no-pager

2.2 存储优化（OpenSearch/ES）#

示例索引模板

curl -X PUT http://os-1:9200/_index_template/logs_template -H 'Content-Type: application/json' -d '
{
  "index_patterns": ["logs-*"],
  "template": {
    "settings": {
      "number_of_shards": 3,
      "number_of_replicas": 1,
      "refresh_interval": "30s"
    },
    "mappings": {
      "dynamic": false,
      "properties": {
        "@timestamp": {"type": "date"},
        "level": {"type": "keyword"},
        "service": {"type": "keyword"},
        "message": {"type": "text"}
      }
    }
  }
}'

参数解释
- refresh_interval=30s：降低刷新频率提升写入吞吐。
- dynamic=false：防止字段爆炸。
- keyword/text：查询与聚合分离，降低高基数字段开销。

排错：写入变慢

# 查看集群写入压力与线程池队列
curl -s http://os-1:9200/_cat/thread_pool/write?v
curl -s http://os-1:9200/_cat/indices/logs-*?v

2.3 查询优化#

示例查询（限制时间范围与字段）

curl -X POST http://os-1:9200/logs-*/_search -H 'Content-Type: application/json' -d '
{
  "size": 0,
  "query": {
    "bool": {
      "filter": [
        {"range": {"@timestamp": {"gte": "now-1h"}}},
        {"term": {"level": "ERROR"}}
      ]
    }
  },
  "aggs": {
    "by_service": {"terms": {"field": "service"}}
  }
}'

解释
- 使用 filter 避免评分开销。
- 限制 now-1h 减少扫描量。
- size:0 只取聚合结果。

3. 成本控制：减量、分层、复用#

3.1 冷热分层与保留策略（ILM 示例）#

# OpenSearch/ES ILM policy
curl -X PUT http://os-1:9200/_ilm/policy/logs_ilm -H 'Content-Type: application/json' -d '
{
  "policy": {
    "phases": {
      "hot":  {"actions": {"rollover": {"max_age": "1d","max_size": "50gb"}}},
      "warm": {"min_age": "7d", "actions": {"forcemerge": {"max_num_segments": 1}}},
      "cold": {"min_age": "30d", "actions": {"freeze": {}}},
      "delete":{"min_age": "90d", "actions": {"delete": {}}}
    }
  }
}'

3.2 字段裁剪与按需索引#

# Logstash filter 示例：裁剪不必要字段
filter {
  mutate {
    remove_field => ["host","agent","ecs","input","log","tags"]
  }
}

3.3 成本可视化示例（按业务拆分）#

# 统计每日按 index 前缀的存储占用
curl -s http://os-1:9200/_cat/indices/logs-*?h=index,store.size | sort -k2 -h

4. 练习与实操#

1) 容量模型练习：给定“每秒 2000 行、平均 350B、索引开销 1.4、副本 2、热保留 7 天”，计算热存储需求，写出结果。
2) 性能优化练习：将 refresh_interval 从 1s 调整为 30s，对比写入 TPS 变化，记录数据。
3) 成本控制练习：为 logs-* 创建 ILM，设置热 7 天、冷 30 天、删除 90 天，验证 rollover 生效。

5. 常见问题与排查清单#

采集延迟：检查 filebeat test output、网络丢包、Logstash 队列。
索引写入慢：查看 _cat/thread_pool/write 队列、磁盘 IO、分片数过多。
查询慢：确认时间范围、避免高基数字段聚合、启用 keyword 字段。

通过容量模型、链路调优与分层策略，实现稳定的日志吞吐与可控的存储成本，同时满足审计与合规保留要求。