19.4.6 回滚与失败补偿机制

回滚与失败补偿机制是自动化运维可靠性的核心保障，应以“可回滚、可补偿、可追溯”为设计目标。平台需在任务编排层明确失败判定、回滚触发条件与补偿策略，并在执行引擎层提供幂等、重试、隔离与状态回收能力。

回滚策略设计
- 原子性变更：将作业拆分为可原子回滚的最小单元，配合检查点（Checkpoint）记录中间状态。
- 前向回滚与后向回滚：前向回滚适用于配置变更与应用发布；后向回滚适用于数据或状态不可逆操作。
- 策略分级：按变更类型设定自动回滚、人工确认回滚、仅告警不回滚三类策略。
- 时间窗口：设定回滚时效与回滚保护期，避免状态未收敛时多次回滚。

失败补偿机制
- 幂等执行：保证同一任务重复执行不会造成副作用，适配网络抖动与调度重试。
- 补偿事务：对不可回滚的操作提供补偿动作，如恢复配置、重建资源、重放任务。
- 分布式一致性：跨系统操作采用最终一致性模型，通过补偿队列与一致性检查任务修复。
- 资源清理：失败后自动清理临时资源、锁与中间产物，避免资源泄漏与死锁。

触发与控制
- 触发条件：基于任务状态、SLA阈值、监控指标、审批结果等多维度触发。
- 并发与隔离：回滚任务与正常任务资源隔离，避免互相竞争导致二次失败。
- 熔断与限流：对连续失败的动作熔断，避免扩大故障影响范围。
- 重试策略：区分立即重试、退避重试与人工介入，避免无意义重试。

数据与状态管理
- 状态机：任务生命周期采用显式状态机，标识成功、失败、回滚中、补偿中等状态。
- 日志与快照：记录变更前快照、参数与执行环境，为回滚提供基础。
- 一致性校验：回滚或补偿完成后执行校验任务，确保系统达到预期状态。

示例1：基于文件快照的配置回滚（Nginx）

# 1) 变更前快照
cp /etc/nginx/nginx.conf /var/backups/nginx.conf.$(date +%F_%H%M%S)

# 2) 应用新配置（示例：开启gzip）
sed -i 's/#gzip  on;/gzip  on;/' /etc/nginx/nginx.conf

# 3) 语法检查与热加载
nginx -t
systemctl reload nginx

# 4) 失败回滚（语法错误或服务不可用时）
# 假设使用最新快照回滚
latest=$(ls -t /var/backups/nginx.conf.* | head -1)
cp "$latest" /etc/nginx/nginx.conf
nginx -t && systemctl reload nginx

# 5) 预期效果：nginx -t 成功，服务恢复

命令解释
- nginx -t：验证配置语法，失败时退出码非 0。
- systemctl reload nginx：无中断重载配置。
- cp /var/backups/...：以时间戳记录快照，便于回滚。

排错要点
- nginx -t 报错：检查括号、分号、模块指令是否正确。
- 重载失败：查看 journalctl -u nginx -xe。

示例2：Kubernetes 发布回滚（部署回滚）

# 1) 查看历史版本
kubectl rollout history deployment/web -n prod

# 2) 发布新镜像
kubectl set image deployment/web web=repo/web:1.2.0 -n prod

# 3) 观察发布状态
kubectl rollout status deployment/web -n prod

# 4) 回滚到上一个版本
kubectl rollout undo deployment/web -n prod

# 5) 预期效果：Pod 回到上一个可用版本

命令解释
- rollout history：查看历史版本与修订号。
- rollout undo：回到上一修订或指定修订。
- rollout status：阻塞等待发布完成。

排错要点
- 回滚后仍异常：检查 kubectl describe pod 与 kubectl logs。
- 拉取镜像失败：确认镜像仓库与镜像标签。

示例3：数据库变更补偿（MySQL 变更+回滚脚本）

-- 1) 变更脚本：新增字段
ALTER TABLE app_user ADD COLUMN nickname VARCHAR(64) DEFAULT '';

-- 2) 回滚脚本：删除字段
ALTER TABLE app_user DROP COLUMN nickname;

执行流程（带检查点）

# 1) 记录检查点
echo "$(date +%F_%T) add nickname" >> /var/log/db_migrate.chk

# 2) 执行变更
mysql -h db01 -uadmin -p'pass' appdb < /opt/migrate/001_add_nickname.sql

# 3) 校验
mysql -h db01 -uadmin -p'pass' -e "DESC app_user\G" appdb | grep nickname

# 4) 失败补偿
mysql -h db01 -uadmin -p'pass' appdb < /opt/migrate/001_add_nickname_rollback.sql

排错要点
- 锁等待：SHOW PROCESSLIST;，必要时评估低峰执行。
- 语法错误：检查 SQL 文件编码与分号。

示例4：任务编排回滚与补偿脚本（通用 Shell）

#!/usr/bin/env bash
# /opt/ops/rollback_demo.sh
set -euo pipefail

checkpoint="/var/lib/ops/checkpoint.state"
log="/var/log/ops/rollback_demo.log"

step1() {
  echo "step1: backup config" | tee -a "$log"
  cp /etc/nginx/nginx.conf /var/backups/nginx.conf.auto
  echo "STEP1_OK" > "$checkpoint"
}

step2() {
  echo "step2: apply config" | tee -a "$log"
  sed -i 's/worker_processes.*/worker_processes 2;/' /etc/nginx/nginx.conf
  nginx -t
  systemctl reload nginx
  echo "STEP2_OK" > "$checkpoint"
}

compensate_step2() {
  echo "compensate: restore config" | tee -a "$log"
  cp /var/backups/nginx.conf.auto /etc/nginx/nginx.conf
  nginx -t && systemctl reload nginx
}

main() {
  step1
  step2
  echo "ALL_OK" > "$checkpoint"
}

trap 'echo "ERROR, start compensation" | tee -a "$log";
  if [ -f "$checkpoint" ] && grep -q "STEP1_OK" "$checkpoint"; then
    compensate_step2
  fi' ERR

main

命令解释
- set -euo pipefail：遇错退出、未定义变量报错、管道错误传递。
- trap ERR：捕获错误执行补偿逻辑。
- checkpoint：记录状态，决定是否补偿。

安装与集成示例（以 Ansible 作为回滚执行器）

# 安装 Ansible
yum install -y epel-release
yum install -y ansible

# 简单回滚 playbook
cat > /opt/ops/rollback_nginx.yml <<'EOF'
- hosts: web
  tasks:
    - name: restore nginx config
      copy:
        src: /var/backups/nginx.conf.safe
        dest: /etc/nginx/nginx.conf
    - name: test and reload
      shell: nginx -t && systemctl reload nginx
EOF

# 执行回滚
ansible-playbook -i /etc/ansible/hosts /opt/ops/rollback_nginx.yml

排错要点
- 无法连接：检查 SSH 免密与 ansible -m ping web。
- 回滚失败：检查 nginx -t 输出与备份文件权限。

常见故障与排查清单
- 回滚无效：检查备份是否完整、时间戳是否正确、回滚脚本是否指向正确版本。
- 补偿重复执行：幂等性不足，需在补偿前判断状态（如文件校验和、数据库标记）。
- 回滚风暴：设置回滚保护期与熔断阈值，避免连续触发。
- 一致性不达标：补偿后执行校验任务（健康检查、比对配置、接口探测）。

练习
1. 将 Nginx 配置改为错误语法，使用快照回滚恢复服务，并记录回滚日志。
2. 在 Kubernetes 中发布一个错误镜像，触发回滚并验证回滚版本号。
3. 为一条 MySQL 变更编写对应回滚脚本，并在测试库中执行与恢复。
4. 将示例 Shell 脚本扩展为三步作业，增加状态机标记与补偿步骤。