11.8.3 JVM与GC调优要点

ZooKeeper 运行在 JVM 之上，GC 抖动与堆内存配置直接影响吞吐与延迟。本节围绕低停顿与稳定性目标，给出可执行的 JVM 与 GC 调优方法、排错步骤与练习。

1. 原理草图：请求对象在堆中的生命周期与 GC 影响

2. JVM 版本与安装示例（统一版本降低行为差异）
- 生产优先 JDK 8u/11 LTS，示例以 JDK 11 为例。

# 安装 OpenJDK 11（CentOS/RHEL）
sudo yum install -y java-11-openjdk java-11-openjdk-devel

# 验证版本
java -version
# 预期：openjdk version "11.x"

3. JVM 基础参数与完整启动示例
- 堆固定化减少扩容停顿，元空间设上限，线程栈适中。
- 示例适用于 /etc/zookeeper/zoo.cfg 与 /etc/zookeeper/java.env 配置。

# /etc/zookeeper/java.env
export JAVA_HOME=/usr/lib/jvm/java-11-openjdk
export ZOO_LOG_DIR=/data/logs/zookeeper
export JVMFLAGS="
-Xms4g -Xmx4g
-XX:MetaspaceSize=256m -XX:MaxMetaspaceSize=512m
-Xss256k
-XX:+UseG1GC
-XX:MaxGCPauseMillis=200
-XX:InitiatingHeapOccupancyPercent=40
-XX:+HeapDumpOnOutOfMemoryError
-XX:HeapDumpPath=/data/logs/zookeeper/heapdump.hprof
"

# 启动 ZooKeeper
/usr/local/zookeeper/bin/zkServer.sh restart

# 预期：进程启动后 JVM 参数生效
ps -ef | grep zookeeper

4. GC 日志开启与分析示例（可回溯）
- JDK 11+：

# /etc/zookeeper/java.env 增加 GC 日志
export JVMFLAGS="$JVMFLAGS -Xlog:gc*:file=/data/logs/zookeeper/gc.log:time,level,tags"

# 查看日志是否产出
ls -lh /data/logs/zookeeper/gc.log

分析示例（gceasy 需要上传，gcviewer 本地）：

# 采样查看停顿
grep "Pause" /data/logs/zookeeper/gc.log | head -n 5

# 预期：Pause 时间小且无频繁 Full GC

5. 关键命令与解释（实时观测）

# 1) jstat：观察 GC 频率与占用
jstat -gcutil $(pgrep -f zookeeper) 1000 10
# 解释：每秒输出 10 次，新生代/老年代使用率与 GC 次数

# 2) jcmd：查看 JVM 参数与堆摘要
jcmd $(pgrep -f zookeeper) VM.flags
jcmd $(pgrep -f zookeeper) GC.heap_info
# 解释：确认实际生效参数与堆结构

# 3) jmap：手动导出堆用于泄漏分析
jmap -dump:live,format=b,file=/data/logs/zookeeper/heapdump_live.hprof $(pgrep -f zookeeper)
# 解释：只导出存活对象，配合 MAT 分析

6. GC 策略与典型调优参数（含解释）
- G1 是低停顿优先选择，主要关注停顿目标与触发阈值。

# G1 典型参数组合（JDK 11+）
-XX:+UseG1GC
-XX:MaxGCPauseMillis=200          # 目标停顿，越小越频繁
-XX:InitiatingHeapOccupancyPercent=35 # 触发并发标记阈值
-XX:G1NewSizePercent=20           # 新生代占比下限
-XX:G1MaxNewSizePercent=60        # 新生代占比上限

7. 常见故障与排错流程（含命令）
- 症状：频繁 Minor GC
- 排查：新生代过小或请求突增
- 处理：增大堆或提高新生代占比

# 排查请求风暴（连接数与 watch 数）
echo "mntr" | nc 127.0.0.1 2181 | egrep "zk_num_alive_connections|watch_count"
# 解释：连接数与 watch 数异常会造成对象分配抖动

症状：Full GC 激增
排查：内存泄漏/堆太小/连接异常
处理：导出堆 + 客户端限流

# 查看 Full GC 次数
grep "Full" /data/logs/zookeeper/gc.log | wc -l

# 导出堆分析
jmap -dump:live,format=b,file=/data/logs/zookeeper/heapdump_live.hprof $(pgrep -f zookeeper)

症状：长时间 STW
排查：磁盘 I/O 与 CPU 竞争
处理：检查 iowait 与 CPU 抢占

iostat -x 1 5
top -H -p $(pgrep -f zookeeper)
# 解释：iowait 高或线程长期 RUNNING 易触发长停顿

8. ZooKeeper 运行特性相关调优示例
- 限制无效连接、控制 watch 数量，降低堆内常驻对象。

# /etc/zookeeper/zoo.cfg
maxClientCnxns=60
autopurge.snapRetainCount=10
autopurge.purgeInterval=1

# 解释：
# maxClientCnxns 控制单客户端连接数
# autopurge 定期清理快照/日志，降低磁盘压力

9. 练习（可验收的调优任务）
1. 基线采集：运行 5 分钟压力测试，记录 jstat -gcutil 与 gc.log 中 Pause 次数。
2. 调参对比：将 -Xmx 从 2G 调整到 4G，IHOP 从 45 降为 35，比较 P99 延迟变化。
3. 故障复现：模拟 2 倍客户端连接数，观察 watch_count 与 Minor GC 次数变化，并给出调参建议。
4. 报告输出：提交一份包含 jstat、gc.log、heap_info 的对比表格与结论。

10. 调优流程建议（落地步骤）
1. 基线采集（吞吐、延迟、GC 日志、堆占用）。
2. 识别瓶颈（Minor/Full GC 频率、STW 时长）。
3. 逐项调整（堆大小、G1 目标、IHOP）。
4. 回归验证（压力测试 + 线上指标对比）。