19.8.8 安全事件响应与应急预案

安全事件响应与应急预案的目标是在最短时间内发现、遏制、恢复并复盘安全事件，降低业务影响与合规风险。本节给出可执行的流程、角色分工、工具安装、取证命令、应急脚本与演练练习，覆盖主机、容器、网络、应用与中间件等全栈场景。

原理草图：事件响应闭环与平台联动

事件分级与响应目标（可落地指标）
- 分级：P1（重大中断/数据泄露）、P2（关键系统受影响/可控扩散）、P3（局部影响/低风险）、P4（误报/潜在隐患）。
- 目标指标：MTTD、MTTR、影响范围、数据完整性、证据完整性。
- 触发条件：监控告警、日志关联规则、IDS/EDR告警、审计异常、业务指标异常。

组织与职责（RACI）与通讯模板
- 事件指挥：统一协调与决策
- 技术响应：系统/网络/数据库/中间件/容器/安全专家
- 沟通与合规：对内通报、对外披露、法务合规支持
- 取证与审计：证据封存、日志保全、链路追踪

示例：应急沟通模板（含时间线与影响评估）

[事件级别] P2
[发现时间] 2024-xx-xx 10:32
[影响范围] 订单服务读取异常，影响约20%
[初步判断] API网关存在异常请求峰值，疑似爬虫/攻击
[当前动作] 触发限流、隔离可疑IP、保全日志
[下一步] 扩容+排查来源、验证数据完整性

标准响应流程（含可执行命令与脚本）

1) 发现与确认：
- 统一拉取关键日志与告警时间线

# 关键日志时间线（系统/安全/应用）
journalctl --since "2024-01-01 10:00" --until "2024-01-01 12:00" -u sshd
grep -R "error\|failed\|denied" /var/log/ -n | head -n 50

# 业务指标异常（示例：Nginx 5xx）
grep " 5.." /var/log/nginx/access.log | tail -n 20

2) 初步遏制：
- 隔离主机（仅允许跳板机）

# 临时封禁所有外部访问，仅允许跳板机 IP 10.0.0.10
iptables -P INPUT DROP
iptables -A INPUT -s 10.0.0.10 -j ACCEPT
iptables -A INPUT -m conntrack --ctstate ESTABLISHED,RELATED -j ACCEPT

隔离容器（暂停异常容器）

docker ps --format "table {{.ID}}\t{{.Image}}\t{{.Status}}\t{{.Names}}"
docker pause suspicious_container

Kubernetes 快速隔离（禁止流量）

kubectl get pods -n prod -o wide
kubectl label pod suspicious-pod quarantine=true -n prod
# 配合 NetworkPolicy 实现隔离

3) 深入分析：
- 进程与网络连接排查

ps aux --sort=-%cpu | head -n 10
ss -tulpn | head -n 20
lsof -i :3306

可疑文件与持久化排查

find /tmp /var/tmp -type f -mtime -3 -size +1M -ls
crontab -l
grep -R "curl\|wget\|nc" /etc/cron* -n

4) 清理与修复：
- 停止恶意进程并清理

# 假设 PID 12345 为恶意挖矿
kill -9 12345
rm -f /tmp/evil_binary

关键配置修复与密钥轮换示例

# Nginx 限制异常请求（示例）
cat >/etc/nginx/conf.d/limit.conf <<'EOF'
limit_req_zone $binary_remote_addr zone=one:10m rate=10r/s;
server {
  location /api/ {
    limit_req zone=one burst=20 nodelay;
  }
}
EOF
nginx -t && systemctl reload nginx

5) 恢复与验证：
- 数据一致性与服务健康检查

# 应用健康检查
curl -sS http://127.0.0.1:8080/health

# 数据库一致性示例（MySQL）
mysql -h127.0.0.1 -uroot -p -e "CHECK TABLE db.orders;"

6) 复盘与改进：
- 输出 RCA 报告，补充检测规则与基线加固策略
- 更新预案库与演练脚本

取证与证据保全（含哈希校验）

# 1. 打包关键日志
tar czf /root/ir_logs_$(date +%F).tar.gz /var/log /etc/nginx /etc/ssh

# 2. 生成哈希校验，防篡改
sha256sum /root/ir_logs_*.tar.gz > /root/ir_logs_*.sha256

# 3. 网络流量抓包（限制时长与大小）
tcpdump -i eth0 -w /root/ir_traffic.pcap -G 300 -W 1

安装与工具准备（示例）

# Debian/Ubuntu
apt-get update
apt-get install -y tcpdump lsof sysstat auditd

# CentOS/RHEL
yum install -y tcpdump lsof sysstat audit
systemctl enable --now auditd

常见场景处置（含命令示例）

账号泄露

# 冻结账号并强制密码重置
usermod -L compromised_user
passwd compromised_user

# 查看登录来源
last -a | head -n 20

恶意挖矿/后门

# 识别异常 CPU 占用
top -b -n 1 | head -n 20
# 检查挖矿特征端口
ss -tulpn | grep -E "3333|4444|5555"

数据库异常访问

# MySQL 打开临时审计（示例：general_log）
mysql -uroot -p -e "SET GLOBAL general_log = 'ON';"
tail -f /var/lib/mysql/$(hostname).log | head -n 20

容器逃逸疑似

# 查看特权容器
docker ps --format "{{.ID}} {{.Names}}" | while read id name; do
  docker inspect --format '{{.HostConfig.Privileged}}' $id | grep true && echo "$id $name"
done

DDoS/流量攻击

# 临时封禁高频 IP
iptables -A INPUT -s 1.2.3.4 -j DROP
# Nginx 限流生效验证
curl -I http://your.domain/api/

排错与常见问题
- 告警误报：检查告警规则阈值与时间窗口；对比业务指标与日志。
- 隔离导致服务不可用：设置白名单访问或回滚规则。
- 取证文件过大：分段打包与压缩、限制抓包时长。
- 日志缺失：检查日志轮转与审计配置（logrotate/auditd）。

应急预案清单（模板要点）
- 预案库：勒索/挖矿/账号泄露/供应链/DDoS/配置误操作
- 关键资产清单与依赖图：业务、认证、配置中心、消息系统
- 备份与恢复：全量/增量、冷/热备、定期演练
- 通信机制：应急群组、电话链路、备用邮箱与公告模板
- 工具材料：隔离脚本、取证工具、离线镜像与应急账号

与平台化能力联动（示例流程）

sequenceDiagram
participant A as 监控/告警
participant B as 事件平台
participant C as 自动化执行
participant D as 审计/合规
A->>B: 触发P2事件
B->>C: 执行隔离脚本
C->>B: 回传执行结果
B->>D: 保全证据与审计

演练与持续改进（含练习题）
- 演练类型：桌面推演、灰度演练、红蓝对抗
- 频率：季度演练、重大变更后补充演练
- 指标闭环：告警准确率、响应时长、恢复成功率、复发率

练习：
1. 模拟“异常登录”告警，使用 last 与 journalctl 复盘事件时间线，并输出 10 行摘要。
2. 编写一段脚本完成：隔离主机、打包日志、生成哈希、恢复规则（要求可回滚）。
3. 在测试环境启用 Nginx 限流策略，验证 429 响应是否生效。