11.8.6 线上应急处理与恢复策略

线上应急处理与恢复策略以“快速止损、保障一致性、降低影响、可回滚”为核心。面对选举频繁、写入延迟激增、会话大量断开等情况，应先确认业务影响范围与变更背景，迅速冻结非必要变更并进入应急模式。

原理草图：应急处理链路

应急处理流程与关键命令示例#

1）快速定位与定级
- 目标：确认故障类型（网络分区、磁盘IO、JVM/GC、配置变更）
- 命令示例（单机/集群定位）：

# 1. 查看ZooKeeper进程状态与模式
/opt/zookeeper/bin/zkServer.sh status

# 2. 四字命令确认角色与延迟（需在zoo.cfg启用4lw）
echo ruok | nc 127.0.0.1 2181
echo stat | nc 127.0.0.1 2181
echo mntr | nc 127.0.0.1 2181

# 3. 查看日志与异常堆栈
tail -n 200 /var/log/zookeeper/zookeeper.log
grep -E "Exception|WARN|ERROR|session|timeout|election" /var/log/zookeeper/zookeeper.log

预期效果：明确节点角色（leader/follower/standalone）、是否频繁选举、延迟是否异常。

2）隔离与止损
- 目标：避免抖动节点影响选举稳定性
- 命令示例（临时摘除节点并隔离客户端连接）：

# 1. 停止异常节点服务（隔离）
/opt/zookeeper/bin/zkServer.sh stop

# 2. 防止客户端接入（禁用端口）
iptables -I INPUT -p tcp --dport 2181 -j REJECT

# 3. 在负载均衡层移除异常节点
# 例如：从客户端的serverlist中临时移除

预期效果：异常节点退出集群，避免反复选举与写入阻塞。

3）保活与降载
- 目标：降低写入压力，减少会话抖动
- 示例（客户端限流/退避策略说明+配置片段）：

# 客户端建议参数（示例）
zookeeper.sessionTimeout=30000
zookeeper.connectionTimeout=10000
zookeeper.maxInFlightRequests=1000

# 业务侧限流策略（伪配置）
write_limit_qps=200
retry_backoff_ms=200

解释：会话超时适度调高、限制并发写入、增加退避可减少抖动。

4）恢复与回滚
- 目标：快速恢复一致性，避免跨版本/跨配置混用
- 恢复步骤示例：

# 1. 停止服务
/opt/zookeeper/bin/zkServer.sh stop

# 2. 备份数据目录（dataDir与dataLogDir）
tar -czf /backup/zk_data_$(date +%F).tar.gz /data/zk/data /data/zk/log

# 3. 使用最近快照+事务日志恢复（示例：保留最新快照）
ls -lh /data/zk/data | grep snapshot
ls -lh /data/zk/log | head

# 4. 校验配置一致性（server列表与myid）
cat /opt/zookeeper/conf/zoo.cfg
cat /data/zk/data/myid

# 5. 启动服务并检查状态
/opt/zookeeper/bin/zkServer.sh start
/opt/zookeeper/bin/zkServer.sh status

预期效果：节点恢复，集群形成过半，选举稳定。

典型场景与排错示例#

场景A：频繁重新选举
- 排错步骤与命令：

# 查看选举相关日志
grep -E "LEADING|FOLLOWING|LOOKING|election" /var/log/zookeeper/zookeeper.log

# 检查网络抖动（示例：到其他节点的连通性）
for ip in 10.0.0.11 10.0.0.12 10.0.0.13; do
  ping -c 3 $ip
  nc -zv $ip 2888
  nc -zv $ip 3888
done

# 检查磁盘IO
iostat -x 1 5

处理要点：先隔离不稳定节点；必要时调整 tickTime / initLimit / syncLimit（谨慎变更）。

场景B：写入延迟激增
- 排错步骤与命令：

# 查看事务日志增长速度
du -sh /data/zk/log
ls -lt /data/zk/log | head

# JVM与GC查看
jstat -gcutil $(pgrep -f QuorumPeerMain) 1000 5

处理要点：检查磁盘与GC，必要时限流写入并转移负载。

场景C：会话大量断开
- 排错步骤与命令：

# 查看当前连接数
echo cons | nc 127.0.0.1 2181 | wc -l

# 检查时钟同步
timedatectl status

处理要点：保证NTP同步、网络稳定、sessionTimeout合理。

恢复策略与验证清单#

恢复要点
1. 一致性优先：避免多节点同时强制重启。
2. 数据恢复：优先快照+事务日志；禁止复制其他节点 dataDir 直接替换。
3. 分步上线：逐台加入，观察选举与延迟。

验证命令

# 1. 集群角色分布
for ip in 10.0.0.11 10.0.0.12 10.0.0.13; do
  echo "===$ip==="; echo stat | nc $ip 2181 | grep Mode;
done

# 2. 选举稳定性
for ip in 10.0.0.11 10.0.0.12 10.0.0.13; do
  echo "===$ip==="; echo mntr | nc $ip 2181 | egrep "zk_followers|zk_pending_syncs|zk_avg_latency";
done

练习与演练（可复现）#

练习1：模拟节点抖动并恢复
1. 停止一个 follower：

/opt/zookeeper/bin/zkServer.sh stop

观察 leader 是否稳定：

echo stat | nc 10.0.0.11 2181 | grep Mode

恢复 follower 并验证：

/opt/zookeeper/bin/zkServer.sh start
echo stat | nc 10.0.0.12 2181 | grep Mode

练习2：模拟磁盘IO瓶颈
1. 使用 dd 制造磁盘压力：

dd if=/dev/zero of=/data/zk/log/io_test bs=1M count=5000 oflag=direct

观察延迟变化：

echo mntr | nc 127.0.0.1 2181 | grep zk_avg_latency

清理测试文件：

rm -f /data/zk/log/io_test

通过“定位-隔离-降载-恢复-验证”的闭环流程，并配合可执行演练与清晰的命令验证，可以确保 ZooKeeper 在故障下保持可用并快速恢复。

11.8.6 线上应急处理与恢复策略

应急处理流程与关键命令示例#

典型场景与排错示例#

恢复策略与验证清单#

练习与演练（可复现）#

本页内容