15.11.8 安全事件与应急响应

本节围绕容器环境的安全事件识别、处置流程与事后复盘，强调“快速止损、可追溯、可恢复”的原则。常见事件包括镜像被投毒、容器逃逸、未授权访问、敏感配置泄露、挖矿进程入侵等。

一、应急响应流程（原理草图）

二、基础准备与工具安装（示例）
建议预装审计与运行时检测工具，便于事件发生时快速取证。

1) 主机审计（auditd）

# Ubuntu/Debian
sudo apt-get update
sudo apt-get install -y auditd audispd-plugins

# CentOS/RHEL
sudo yum install -y audit
sudo systemctl enable --now auditd

# 查看状态
sudo systemctl status auditd

2) 运行时安全（Falco）

# Ubuntu/Debian
curl -s https://falco.org/repo/falcosecurity-packages.asc | sudo gpg --dearmor -o /usr/share/keyrings/falco.gpg
echo "deb [signed-by=/usr/share/keyrings/falco.gpg] https://download.falco.org/packages/deb stable main" | \
  sudo tee /etc/apt/sources.list.d/falcosecurity.list
sudo apt-get update
sudo apt-get install -y falco

sudo systemctl enable --now falco
sudo systemctl status falco

三、关键排查点与命令（含示例）

1) 容器与镜像来源核查

# 列出镜像与摘要，核对可信仓库
docker images --digests

# 查看镜像元数据与构建信息
docker image inspect nginx:1.25 | jq '.[0].RepoDigests,.[0].Config.Labels'

# 追溯镜像历史层
docker history --no-trunc nginx:1.25

命令说明：
- --digests 显示镜像摘要，用于核验是否被篡改
- docker history 可以发现可疑层（如异常下载脚本）

2) 运行状态与异常进程

# 发现可疑容器与异常启动参数
docker ps -a --no-trunc

# 查看容器内部进程，重点关注挖矿/反弹shell
docker top suspicious_container

# 直接进入容器排查（谨慎）
docker exec -it suspicious_container /bin/sh
ps aux

3) 容器日志与事件

# 拉取容器最近 200 行日志
docker logs --tail 200 suspicious_container

# 过滤最近 1 小时事件
docker events --since 1h | grep -E "kill|die|oom|exec"

4) 网络异常

# 列出网络与网桥
docker network ls
docker network inspect bridge | jq '.[0].Containers'

# 主机侧端口与连接
ss -lntp
ss -antp | grep -E "ESTAB|SYN-SENT"
iptables -L -n

5) 资源异常

docker stats --no-stream
top -o %CPU
iostat -x 1 3

四、标准处置步骤（可执行流程）
以“疑似挖矿容器”为例：

# 1. 隔离容器（先断网再停容器，减少外联）
docker network disconnect bridge suspicious_container

# 2. 停止容器并保留现场
docker stop suspicious_container

# 3. 导出容器文件系统供取证
docker export suspicious_container -o /tmp/suspicious_container.tar

# 4. 保存镜像层与元数据
docker image inspect suspicious_image:tag > /tmp/suspicious_image.json
docker save suspicious_image:tag -o /tmp/suspicious_image.tar

# 5. 备份关键日志
docker logs suspicious_container > /tmp/suspicious_container.log
journalctl -u docker --since "2 hours ago" > /tmp/docker.service.log

预期效果：容器被隔离、停止，文件系统与日志被保全，可用于后续分析与复盘。

五、修复与恢复示例

1) 替换可信镜像并启用摘要校验

# 拉取可信镜像并记录 Digest
docker pull nginx:1.25
docker images --digests | grep nginx

# 使用 Digest 固定发布
DIGEST="sha256:xxxxxxxxxxxxxxxxxxxx"
docker run -d --name nginx-safe nginx@${DIGEST}

2) 禁止特权容器与敏感挂载

# 错误示例（风险高）
# docker run --privileged -v /:/host ...

# 正确示例（最小权限）
docker run -d --name app \
  --read-only \
  --cap-drop ALL \
  --security-opt no-new-privileges \
  -v /data/app:/app/data:ro \
  myrepo/app:1.0

3) 密钥轮换（示例：更新环境变量并重启）

# 生成新密码
NEW_PASS=$(openssl rand -base64 24)

# 更新 Docker secret 或环境变量后重启容器
docker rm -f app
docker run -d --name app -e DB_PASS="${NEW_PASS}" myrepo/app:1.0

六、故障排错清单（快速定位）

镜像异常：docker history 是否出现未知脚本/下载地址
进程异常：docker top 是否存在 xmrig、kdevtmpfsi
外联异常：ss -antp 是否大量连接到非常见端口
资源异常：docker stats CPU 持续高占用
账户异常：last, lastb 是否有异常登录

七、练习与演练（可重复）

1) 练习：模拟异常进程并排查

# 运行一个 CPU 压力容器
docker run -d --name cpu-test alpine:3.19 sh -c "yes > /dev/null"

# 观察资源、定位容器并处理
docker stats --no-stream
docker top cpu-test
docker stop cpu-test

2) 练习：镜像来源核验

docker images --digests
docker image inspect alpine:3.19 | jq '.[0].RepoDigests'

3) 练习：事件复盘模板输出

cat > /tmp/incident_report.md <<'EOF'
# 事件概述
# 影响范围
# 发现与告警
# 处置时间线
# 根因分析
# 修复措施
# 后续改进
EOF

八、事件报告建议结构
- 事件概述、影响范围、检测方式、处置时间线、根因分析、修复措施、后续改进与责任闭环。