15.11.7 数据卷与持久化异常处理

本节聚焦 Docker 数据卷与持久化在生产中的常见异常，覆盖排查思路、恢复手段与预防措施，目标是保障数据一致性与业务连续性。以下内容包含原理草图、可执行命令、排错步骤与练习。

一、原理草图：容器与数据卷解耦

二、常见异常类型与表现
- 数据丢失：容器重建后数据不见、匿名卷被清理
- 挂载失败：权限不足、路径不存在、驱动异常
- 数据不一致：多容器并发写入、应用未正确刷新缓存
- I/O 性能下降：宿主机磁盘瓶颈、存储驱动问题
- 只读文件系统：宿主机磁盘故障或文件系统异常

三、基础检查命令（含解释）

# 1) 查看 Docker 运行信息与存储驱动
docker info | egrep -i "Storage Driver|Docker Root Dir"

# 2) 列出所有卷（含匿名与命名）
docker volume ls

# 3) 查看指定卷的真实路径与配置
docker volume inspect mydata

# 4) 查看容器的挂载点
docker inspect myapp --format '{{json .Mounts}}' | jq

# 5) 进入容器检查挂载路径
docker exec -it myapp sh -c 'df -h /data && ls -al /data'

预期效果：可确认卷类型、实际宿主机路径、容器内挂载状态与磁盘使用情况。

四、典型问题与排查流程（含示例）

1) 容器重建后数据消失
- 原因：使用匿名卷或未挂载持久化目录
- 修复：改用命名卷或绑定挂载

# 正确示例：命名卷
docker volume create mydata
docker run -d --name myapp -v mydata:/data nginx:latest

# 正确示例：绑定挂载
mkdir -p /srv/app/data
docker run -d --name myapp -v /srv/app/data:/data nginx:latest

# 验证：写入文件后重建容器仍保留
docker exec -it myapp sh -c 'echo hello > /data/hello.txt'
docker rm -f myapp
docker run -d --name myapp -v mydata:/data nginx:latest
docker exec -it myapp cat /data/hello.txt

2) 挂载路径不存在或权限不足
- 原因：宿主机目录未创建、属主不匹配
- 修复：预创建目录并匹配容器用户

# 预创建目录并设置权限
mkdir -p /srv/app/data
chown -R 1000:1000 /srv/app/data
chmod -R 755 /srv/app/data

# 容器以指定用户运行
docker run -d --name myapp -u 1000:1000 -v /srv/app/data:/data nginx:latest

3) 只读文件系统
- 原因：宿主机磁盘只读、文件系统异常
- 排查与修复：

# 宿主机检查磁盘是否只读
mount | grep -E " / |/srv/app/data"

# 查看 dmesg 是否有 I/O 错误
dmesg | tail -n 50

# 如发现只读，需在维护窗口修复文件系统
# 例如：对分区执行 fsck（需卸载或在救援模式）
# fsck -f /dev/sdX1

4) I/O 性能下降
- 原因：宿主机磁盘瓶颈、存储驱动异常
- 诊断命令：

# 查看磁盘使用与 inode
df -h
df -i

# 查看磁盘 I/O（需安装 sysstat）
iostat -x 1 3

# 检查 Docker 存储驱动日志
journalctl -u docker --since "1 hour ago" | tail -n 100

5) 多容器并发写导致损坏
- 处理：避免共享写入、使用数据库或分布式锁

# 反例：两个容器同时写同一卷
docker run -d --name writer1 -v mydata:/data busybox sh -c "while true; do echo a >> /data/log; sleep 1; done"
docker run -d --name writer2 -v mydata:/data busybox sh -c "while true; do echo b >> /data/log; sleep 1; done"

# 建议：改用数据库或加锁机制（示意）

五、恢复与应急处置（含可执行步骤）
1) 从备份恢复（推荐）

# 备份卷到宿主机目录
mkdir -p /backup/mydata
docker run --rm -v mydata:/data -v /backup/mydata:/backup busybox \
  sh -c "tar czf /backup/mydata.tar.gz -C /data ."

# 恢复到新卷
docker volume create mydata_new
docker run --rm -v mydata_new:/data -v /backup/mydata:/backup busybox \
  sh -c "tar xzf /backup/mydata.tar.gz -C /data"

2) 临时恢复：挂载旧卷迁移

docker run --rm -v olddata:/old -v newdata:/new busybox \
  sh -c "cp -a /old/. /new/"

3) 降级策略：只读挂载

docker run -d --name myapp -v mydata:/data:ro nginx:latest

六、预防与最佳实践
- 关键数据使用命名卷或绑定挂载，禁止匿名卷承载核心数据
- 数据与容器生命周期解耦，编排文件统一管理卷定义
- 备份与恢复流程可验证：定期演练
- 建立变更审核与操作审计，减少误删风险

七、排错清单（Checklist）
- [ ] 是否确认卷类型与挂载点一致
- [ ] 宿主机路径是否存在、权限是否匹配
- [ ] Docker 存储驱动是否异常
- [ ] 磁盘空间与 inode 是否耗尽
- [ ] 应用是否刷新缓存并正确落盘

八、练习与实验
1) 使用命名卷创建一个容器，写入文件后重建容器验证数据仍在。
2) 手动制造权限不足（chown 为 root），观察容器写入失败并修复。
3) 使用 tar 备份与恢复卷数据，验证恢复后文件完整。
4) 将卷只读挂载，验证应用写入失败并记录日志。

完成本节后，应能够快速定位持久化故障根因，选择合适恢复方案，并通过规范化策略降低数据风险。