第1章 Linux基础与系统管理
1.1 Linux发行版与安装规划
1.1.1 主流发行版对比与选型策略
1.1.2 安装介质与硬件/虚拟化环境规划
1.1.3 分区方案与文件系统选择
1.1.4 安装流程与初始配置要点
1.1.5 自动化安装与批量部署(Kickstart/Preseed)
1.2 目录结构与文件权限
1.2.1 Linux目录层级标准与关键路径
1.2.2 文件类型与权限模型
1.2.3 权限与所有权管理命令
1.2.4 特殊权限与默认权限控制
1.2.5 访问控制列表与安全建议
1.3 用户与组管理
1.3.1 用户与组基础概念(UID/GID、主组与附加组)
1.3.2 用户与组管理命令(useradd/usermod/userdel、groupadd/groupmod/groupdel)
1.3.3 账户与密码策略(passwd、chage、登录限制)
1.3.4 权限与特殊位关联(文件权限、umask、ACL 简介)
1.3.5 配置文件与排错(/etc/passwd、/etc/shadow、/etc/group)
1.4 软件包管理与仓库配置
1.4.1 包管理体系概览:RPM/DEB与包元数据
1.4.2 YUM/DNF/APT基础操作与常用参数
1.4.3 仓库配置与镜像源管理
1.4.4 本地仓库与离线安装方案
1.4.5 包签名校验与安全更新策略
1.4.6 依赖冲突处理与版本锁定
1.4.7 批量安装与自动化包管理
1.4.8 软件包查询、审计与回滚策略
1.5 系统服务与启动管理
1.5.1 Systemd与服务单元文件解析
1.5.2 服务管理命令与状态排查
1.5.3 启动流程与运行级别/Target切换
1.5.4 自启动配置与依赖关系管理
1.5.5 应急模式与救援启动流程
1.6 系统日志与审计
1.6.1 日志体系与/var/log结构
1.6.2 rsyslog与systemd-journald配置
1.6.3 日志轮转与保留策略(logrotate)
1.6.4 审计框架auditd与规则编写
1.6.5 常见日志分析与排错流程
1.7 计划任务与时间管理
1.7.1 计划任务概述与应用场景
1.7.2 cron与crontab任务配置
1.7.3 at一次性任务与批处理
1.7.4 systemd定时器使用与对比
1.7.5 时间同步与时区管理
1.7.6 计划任务日志与故障排查
1.7.7 任务安全与权限控制
1.8 常用命令与文本处理
1.8.1 文件与目录操作命令(ls、cp、mv、rm、mkdir、find)
1.8.2 文本查看与处理命令(cat、less、head、tail、grep、awk、sed)
1.8.3 权限与属性相关命令(chmod、chown、chgrp、umask)
1.8.4 归档压缩与解压(tar、gzip、bzip2、zip)
1.8.5 系统与硬件信息查询(uname、df、du、free、top、ps)
1.8.6 网络与连接诊断(ping、traceroute、ss、netstat、curl、wget)
1.8.7 管道与重定向实战(|、>、>>、2>、xargs)
1.9 系统安全基础加固
1.9.1 安全基线与硬化原则
1.9.2 用户与权限最小化配置
1.9.3 认证与访问控制(SSH与sudo)
1.9.4 防火墙与网络边界策略
1.9.5 系统更新与漏洞管理
1.9.6 日志审计与入侵检测
1.9.7 安全加固实战清单与检查项
1.10 系统备份与恢复策略
1.10.1 备份类型与策略选择(全量/增量/差异)
1.10.2 备份工具与实现(tar/rsync/cron)
1.10.3 关键数据与配置清单
1.10.4 恢复流程与演练
1.10.5 备份安全与保留策略
第2章 网络与安全基础
2.1 网络基础与OSI模型
2.1.1 网络基础概念与数据通信要素
2.1.2 OSI七层模型详解
2.1.3 各层典型协议与功能对应
2.1.4 OSI与TCP/IP模型对照
2.1.5 网络设备与OSI层的关系
2.1.6 常见网络拓扑与应用场景
2.1.7 分层模型在运维中的应用与故障定位
2.2 TCP/IP与常用协议
2.2.1 TCP/IP体系结构与分层职责
2.2.2 IP协议与地址规划(IPv4/IPv6、子网划分)
2.2.3 TCP协议(连接管理、可靠性、流控与拥塞控制)
2.2.4 UDP协议与应用场景
2.2.5 常用应用层协议(HTTP/HTTPS、DNS、DHCP、SSH、FTP、SMTP)
2.2.6 ICMP与网络诊断(ping、traceroute原理)
2.2.7 端口与会话管理(四元组、NAT、连接跟踪)
2.3 Linux网络配置与管理
2.3.1 网络接口管理与命名规则
2.3.2 IP地址配置与持久化
2.3.3 网关与路由基础配置
2.3.4 DNS客户端与解析配置
2.3.5 网络连接与链路状态排查
2.3.6 常用网络管理工具与实践
2.3.7 网络配置在不同发行版的差异
2.3.8 网络配置变更与回滚策略
2.4 路由与DNS解析
2.4.1 Linux路由表与静态路由配置
2.4.2 默认网关与多网卡路由策略
2.4.3 DNS解析流程与解析顺序
2.4.4 DNS客户端配置与缓存管理
2.4.5 常见路由与DNS故障排查
2.5 防火墙与访问控制
2.5.1 防火墙概念与策略类型
2.5.2 iptables基本原理与规则结构
2.5.3 firewalld使用与区域管理
2.5.4 访问控制列表与端口放行实践
2.5.5 常见安全场景与排错方法
2.6 SSH与安全加固
2.6.1 SSH工作原理与认证方式
2.6.2 SSH服务配置与常用参数
2.6.3 密钥管理与无密码登录
2.6.4 SSH安全加固与最佳实践
2.6.5 登录审计与访问控制策略
2.6.6 常见SSH故障排查
2.7 基础排错与抓包分析
2.7.1 常见网络故障排查流程与工具集
2.7.2 连通性与路径诊断(ping/tracepath/mtr)
2.7.3 端口与会话排查(ss/netstat/lsof)
2.7.4 DNS与HTTP排错要点
2.7.5 抓包工具与过滤表达式(tcpdump/wireshark)
2.7.6 典型场景抓包分析与结论输出
2.8 常见网络服务与端口管理
2.8.1 常见服务端口速查与用途分类
2.8.2 端口开放策略与最小暴露原则
2.8.3 端口管理工具与配置方法(ss/netstat/lsof)
2.8.4 服务监听与绑定地址管理
2.8.5 端口冲突排查与故障处理
2.8.6 服务端口安全基线与审计建议
第3章 存储与文件系统
3.1 存储基础与Linux存储架构
3.1.1 存储基础概念与术语
3.1.2 Linux存储层次结构与I/O路径
3.1.3 块设备与字符设备
3.1.4 设备命名与持久化机制
3.1.5 存储协议与接口概览(SATA/SAS/NVMe/iSCSI/FC)
3.1.6 存储可靠性与一致性基础(缓存、写回、屏障)
3.2 磁盘与分区管理
3.2.1 磁盘设备识别与命名规则
3.2.2 分区表类型与选择(MBR/GPT)
3.2.3 分区规划原则与容量预估
3.2.4 分区工具使用(fdisk、parted、gdisk)
3.2.5 文件系统创建与格式化(mkfs)
3.2.6 设备信息查看与监控(lsblk、blkid、smartctl)
3.2.7 典型运维场景与故障处理(扩容、迁移、损坏修复)
3.3 文件系统类型与特性
3.3.1 常见文件系统概览(ext4、xfs、btrfs、zfs)
3.3.2 日志型与非日志型文件系统对比
3.3.3 inode与数据块结构及影响
3.3.4 文件系统特性与性能权衡
3.3.5 兼容性与使用场景选择
3.4 LVM逻辑卷管理
3.4.1 LVM基本概念:PV、VG、LV与PE
3.4.2 LVM创建与初始化流程
3.4.3 逻辑卷扩展与缩减
3.4.4 快照与备份恢复
3.4.5 LVM监控、维护与故障排查
3.4.6 LVM最佳实践与常见场景
3.5 RAID原理与实现
3.5.1 RAID核心概念与工作原理
3.5.2 常见RAID级别对比(0/1/5/6/10)
3.5.3 软件RAID与硬件RAID差异
3.5.4 Linux下RAID实现(mdadm)
3.5.5 RAID监控、故障处理与重建
3.5.6 RAID与LVM/文件系统的组合实践
3.6 挂载与自动挂载
3.6.1 挂载概念与挂载点规划
3.6.2 mount/umount常用参数与实践
3.6.3 /etc/fstab配置与启动挂载
3.6.4 UUID与LABEL的使用
3.6.5 自动挂载autofs原理与配置
3.6.6 挂载选项与故障排查
3.7 权限、ACL与配额
3.7.1 Linux权限模型与权限位
3.7.2 特殊权限与目录权限策略
3.7.3 ACL原理与使用
3.7.4 用户与组配额机制
3.7.5 配额配置、管理与监控
3.7.6 权限与配额故障排查与最佳实践
3.8 备份与恢复策略
3.8.1 备份策略与RPO/RTO定义
3.8.2 备份类型:全量/增量/差异
3.8.3 备份工具与实践:tar/rsync/dd
3.8.4 快照与一致性:LVM/Btrfs/ZFS
3.8.5 备份介质与保存周期
3.8.6 恢复流程与演练
3.8.7 备份校验与完整性检测
3.8.8 灾备与异地容灾方案
3.9 网络存储与共享
3.9.1 网络存储概念与协议概览
3.9.2 NFS共享配置与权限控制
3.9.3 SMB/CIFS共享与Samba部署
3.9.4 iSCSI存储原理与部署
3.9.5 分布式存储入门:Ceph与GlusterFS
3.9.6 自动挂载与高可用共享实践
3.9.7 网络存储安全与性能优化
3.9.8 常见故障排查与运维案例
3.10 存储性能与故障排查
3.10.1 存储性能指标与基线建立
3.10.2 I/O瓶颈定位方法
3.10.3 常用性能与诊断工具
3.10.4 文件系统一致性与损坏修复
3.10.5 典型故障场景与应急处理
3.10.6 性能优化与容量规划建议
第4章 进程管理与性能调优
4.1 进程与线程基础
4.1.1 进程与线程概念与区别
4.1.2 进程生命周期与状态转换
4.1.3 进程创建与终止机制
4.1.4 线程模型与实现方式
4.1.5 上下文切换与开销分析
4.1.6 进程间通信(IPC)概览
4.1.7 线程同步与并发基础
4.2 作业控制与信号机制
4.2.1 作业控制基础:前台/后台与会话/作业概念
4.2.2 常用作业控制命令:jobs、bg、fg、nohup、disown
4.2.3 进程组与会话管理:setsid、setpgid、pstree
4.2.4 信号机制概述:信号分类与默认行为
4.2.5 信号发送与处理:kill、pkill、killall、trap
4.2.6 常见信号应用场景:优雅退出、重载配置、超时控制
4.3 进程监控与诊断工具
4.3.1 进程状态与基础命令(ps、top、htop)
4.3.2 实时监控与统计(pidstat、vmstat、iostat、sar)
4.3.3 进程树与依赖分析(pstree、pgrep、pkill)
4.3.4 打开文件与端口检查(lsof、ss)
4.3.5 性能与诊断工具(strace、perf、pmap)
4.3.6 进程异常排查流程与案例
4.4 资源限制与优先级调度
4.4.1 ulimit与资源限制模型
4.4.2 cgroups原理与实践
4.4.3 nice与renice优先级调整
4.4.4 调度策略与实时进程
4.4.5 控制组与systemd资源管理
4.4.6 常见问题与优化案例
4.5 性能指标体系与基线
4.5.1 性能指标体系的范围与分层
4.5.2 关键指标定义与计算方法
4.5.3 基线建立方法与数据采集
4.5.4 基线维护、漂移与异常判定
4.5.5 基线在容量规划与优化中的应用
4.6 CPU性能分析与优化
4.6.1 CPU工作原理与调度机制概览
4.6.2 关键CPU性能指标与解读
4.6.3 常用CPU分析工具与使用方法
4.6.4 性能瓶颈定位流程与案例
4.6.5 优化策略与参数调优
4.6.6 高负载问题排查与恢复方案
4.6.7 基准测试与容量评估
4.7 内存管理与优化
4.7.1 内存管理基础:地址空间、分页与页缓存
4.7.2 内存分配与回收机制:伙伴系统与SLAB/SLUB
4.7.3 内存使用分析工具:free、vmstat、top、pmap
4.7.4 交换分区与Swappiness调优
4.7.5 OOM机制与内存泄漏排查
4.7.6 内存优化实践:大页、缓存回收与参数调优
4.8 磁盘与文件系统性能优化
4.8.1 I/O性能指标与瓶颈识别
4.8.2 磁盘调度与内核I/O栈优化
4.8.3 文件系统选择与挂载参数调优
4.8.4 缓存与缓冲区管理
4.8.5 RAID与LVM性能策略
4.8.6 磁盘监控工具与实战分析
4.8.7 常见问题与优化案例
4.9 网络性能分析与调优
4.9.1 网络性能指标与基线设定
4.9.2 网络诊断与分析工具(ping、traceroute、ss、tcpdump、iftop、nethogs)
4.9.3 TCP/IP栈调优与内核参数(sysctl)
4.9.4 网络吞吐与延迟优化(MTU、拥塞控制、队列)
4.9.5 连接数与端口管理(TIME_WAIT、端口范围、连接跟踪)
4.9.6 服务端与中间件网络优化实践
4.9.7 性能压测与问题定位流程
4.10 故障排查与性能压测方法
4.10.1 故障排查流程与方法论
4.10.2 系统与应用层故障定位工具
4.10.3 性能压测设计与场景构建
4.10.4 压测工具与结果分析
4.10.5 典型故障与性能瓶颈案例
4.10.6 复盘与改进机制
第5章 Shell脚本与自动化
5.1 Shell基础与脚本结构
5.1.1 Shell环境与执行方式
5.1.2 脚本结构与注释规范
5.1.3 变量与引号基础
5.1.4 命令替换与退出状态
5.1.5 脚本权限与可执行性
5.1.6 常用内建命令与帮助体系
5.2 变量、输入输出与参数处理
5.2.1 变量定义与命名规范(局部、全局、环境变量)
5.2.2 变量展开与替换(默认值、截取、替换)
5.2.3 读取输入与用户交互(read、select)
5.2.4 参数传递与位置参数($0-$9、$@、$#、$?)
5.2.5 标准输入输出与重定向(>、>>、<、2>、2>&1)
5.2.6 Here文档与Here字符串
5.2.7 退出码与错误处理基础
5.3 流程控制与函数
5.3.1 条件判断与多分支选择
5.3.2 循环控制与遍历处理
5.3.3 函数定义、参数与返回值
5.3.4 递归与函数作用域
5.3.5 流程控制在运维脚本中的实战应用
5.4 文本处理与管道组合
5.4.1 常用文本处理工具概览(grep/egrep)
5.4.2 流式编辑与过滤(sed)
5.4.3 报表与字段处理(awk)
5.4.4 管道与组合命令设计
5.4.5 典型文本处理实战案例
5.5 日志、错误处理与调试
5.5.1 日志设计与分级规范
5.5.2 错误处理策略与退出码
5.5.3 调试方法与排错工具
5.5.4 日志轮转与持久化实践
5.5.5 生产脚本的可观测性与告警联动
5.6 任务调度与自动化工具
5.6.1 任务调度基础:cron/at/anacron
5.6.2 systemd 定时器与服务管理
5.6.3 分布式与集中式调度工具
5.6.4 自动化运维工具概览与选型
5.6.5 任务可靠性、幂等与告警策略
5.7 脚本安全与最佳实践
5.7.1 脚本权限与最小权限原则
5.7.2 变量与输入安全校验
5.7.3 依赖命令与路径安全
5.7.4 错误处理、退出码与幂等性
5.7.5 日志脱敏与敏感信息保护
5.7.6 代码规范、版本管理与审计
5.8 常用运维脚本案例
5.8.1 日志清理与归档脚本
5.8.2 备份与恢复自动化脚本
5.8.3 服务状态检测与自愈脚本
5.8.4 资源监控与告警触发脚本
5.8.5 批量运维与远程执行脚本
5.8.6 配置巡检与合规性检查脚本
5.8.7 发布与回滚自动化脚本
5.8.8 安全加固与审计采集脚本
第6章 MySQL数据库运维
6.1 MySQL体系结构与版本选型
6.1.1 MySQL逻辑架构与组件职责
6.1.2 存储引擎体系与InnoDB核心机制
6.1.3 版本演进与主流分支对比(Oracle MySQL/Percona/MariaDB)
6.1.4 版本选型原则与业务场景匹配
6.1.5 生命周期、LTS策略与升级路径规划
6.2 安装部署与初始化配置
6.2.1 版本与发行包选择(Community/Enterprise/Percona)
6.2.2 安装前检查与系统依赖准备
6.2.3 安装方式对比:YUM/APT、二进制、源码
6.2.4 初始化与基础配置(my.cnf、数据目录、端口)
6.2.5 启动与服务管理(systemd、开机自启)
6.2.6 初始安全设置(root密码、权限、测试库)
6.2.7 远程访问与防火墙放行
6.2.8 常见安装问题与排错思路
6.3 用户权限与安全加固
6.3.1 用户账户与权限模型基础
6.3.2 账户创建、授权与回收流程
6.3.3 密码策略与认证插件配置
6.3.4 最小权限与角色管理实践
6.3.5 访问控制与网络安全配置
6.3.6 数据加密与安全审计配置
6.3.7 常见安全风险与加固检查清单
6.4 日志体系与审计管理
6.4.1 日志类型与作用概览(error/slow/general/redo/binlog/relay)
6.4.2 错误日志配置与故障定位实践
6.4.3 慢查询日志开启、分析与优化流程
6.4.4 通用日志与审计场景取舍
6.4.5 二进制日志管理与恢复演练
6.4.6 中继日志与复制链路诊断
6.4.7 审计合规:策略、工具与留存规范
6.4.8 日志轮转、归档与磁盘容量规划
6.4.9 日志监控与告警规则设计
6.5 备份恢复与容灾策略
6.5.1 备份策略与RPO/RTO设计
6.5.2 逻辑备份(mysqldump/mysqlpump)与恢复流程
6.5.3 物理备份(Percona XtraBackup)与恢复流程
6.5.4 增量备份与二进制日志恢复(PITR)
6.5.5 备份校验、演练与自动化
6.5.6 容灾架构(本地/异地/多活)与切换流程
6.5.7 备份存储、加密与权限控制
6.6 高可用架构与复制技术
6.6.1 高可用架构演进与选型要点
6.6.2 主从复制原理与配置
6.6.3 半同步与增强半同步复制
6.6.4 GTID复制与故障切换
6.6.5 复制拓扑设计与延迟优化
6.6.6 MGR与InnoDB Cluster概述
6.6.7 读写分离与一致性策略
6.6.8 高可用方案对比与实践案例
6.7 性能优化与参数调优
6.7.1 性能优化方法论与基线评估
6.7.2 关键性能指标与瓶颈识别
6.7.3 查询与索引优化策略
6.7.4 连接与线程参数调优
6.7.5 内存与缓存参数调优
6.7.6 InnoDB参数与IO优化
6.7.7 临时表与排序优化
6.7.8 慢查询治理与SQL审计
6.7.9 典型场景调优与压测验证
6.8 存储引擎与表设计规范
6.8.1 存储引擎选择与对比(InnoDB/MyISAM/Memory)
6.8.2 InnoDB存储结构与工作机制
6.8.3 表结构设计规范与命名约定
6.8.4 字段类型选择与长度规划
6.8.5 索引设计原则与常见模式
6.8.6 分区表与分表策略
6.8.7 字符集与排序规则配置规范
6.8.8 约束与外键使用规范
6.8.9 表维护与统计信息管理
6.9 运维工具与自动化管理
6.9.1 常用运维工具概览与选型
6.9.2 自动化运维流程与任务编排
6.9.3 备份与恢复自动化方案
6.9.4 高可用切换与故障自愈工具
6.9.5 参数配置与版本管理自动化
6.9.6 运维脚本规范与安全管理
6.9.7 运维变更与审计自动化
6.10 监控告警与故障排查
6.10.1 监控指标体系与采集方案
6.10.2 告警策略设计与分级
6.10.3 慢查询与性能瓶颈排查
6.10.4 复制与高可用故障处理
6.10.5 事务与锁等待问题诊断
6.10.6 日志分析与根因定位
6.10.7 应急处置与恢复演练
第7章 Nginx与Web服务
7.1 Nginx架构与核心概念
7.1.1 Nginx架构概览与设计目标
7.1.2 事件驱动与异步非阻塞模型
7.1.3 Master/Worker进程模型与职责
7.1.4 配置分层与指令作用域
7.1.5 模块化体系与常用核心模块
7.1.6 请求处理流程与阶段(phases)
7.1.7 连接与缓存关键概念
7.1.8 Nginx与Web服务器对比与适用场景
7.2 Nginx安装与配置基础
7.2.1 Nginx安装方式与版本选择
7.2.2 源码编译与模块管理
7.2.3 配置文件结构与核心指令
7.2.4 基础虚拟主机与站点配置
7.2.5 启停与平滑重载
7.2.6 日志与权限基础配置
7.2.7 目录规划与运维规范
7.3 反向代理与负载均衡
7.3.1 反向代理原理与应用场景
7.3.2 upstream与负载均衡算法
7.3.3 健康检查与故障切换
7.3.4 连接与超时参数调优
7.3.5 会话保持与灰度发布
7.3.6 访问控制与安全加固
7.3.7 实战配置示例与常见问题
7.4 静态资源与缓存优化
7.4.1 静态资源类型与目录规划
7.4.2 sendfile与高效文件传输
7.4.3 gzip与brotli压缩配置
7.4.4 expires与cache-control缓存策略
7.4.5 open_file_cache与文件句柄缓存
7.4.6 资源版本化与缓存失效
7.4.7 图片与静态资源防盗链
7.4.8 动态与静态分离实践
7.5 HTTPS与安全加固
7.5.1 HTTPS原理与证书体系
7.5.2 证书申请与自动续期实践
7.5.3 Nginx HTTPS配置与性能优化
7.5.4 HSTS、OCSP与安全头配置
7.5.5 TLS版本与加密套件加固
7.5.6 防盗链与访问控制
7.5.7 WAF基础与常见攻击防护
7.5.8 安全审计与合规检查项
7.6 日志管理与监控
7.6.1 Nginx日志类型与格式配置
7.6.2 日志切割与保留策略
7.6.3 日志分析与可视化(goaccess/ELK)
7.6.4 访问与错误日志关键指标
7.6.5 监控方案与告警集成(Prometheus/Exporter)
7.6.6 性能监控与容量规划指标
7.7 常见故障排查与性能调优
7.7.1 典型故障定位流程与日志分析方法
7.7.2 连接与请求异常:超时、502/504与上游故障
7.7.3 性能瓶颈识别:CPU、内存、I/O与网络
7.7.4 配置优化:worker、连接、缓存与压缩
7.7.5 负载均衡与会话保持的稳定性问题
7.7.6 TLS与HTTP/2性能与兼容性排查
7.7.7 反向代理与静态资源缓存命中率优化
7.7.8 观测与压测:指标、火焰图与压力测试方法
7.8 Nginx与Web应用部署实践
7.8.1 典型Web应用架构与Nginx角色
7.8.2 反向代理与多后端部署策略
7.8.3 动静分离与静态资源发布
7.8.4 应用发布流程与零停机切换
7.8.5 配置管理与环境隔离
7.8.6 会话保持与用户状态处理
7.8.7 访问控制与安全防护实践
7.8.8 日志与指标在发布中的应用
7.8.9 常见部署问题与排错流程
7.9 OpenResty与模块化扩展
7.9.1 OpenResty架构与组件概览
7.9.2 LuaJIT与ngx_lua基础
7.9.3 OpenResty安装与编译管理
7.9.4 常用模块与生态库(lua-resty-*, 第三方模块)
7.9.5 动态路由与API网关实践
7.9.6 性能优化与故障排查
7.9.7 安全与限流鉴权实践
7.10 Web服务高可用与自动化运维
7.10.1 高可用架构模式与场景分析
7.10.2 多实例与负载均衡配置实践
7.10.3 健康检查与故障转移机制
7.10.4 配置管理与自动化发布流程
7.10.5 灰度发布与回滚策略
7.10.6 监控告警与容量规划
7.10.7 典型高可用故障演练与复盘
第8章 Redis缓存与高可用
8.1 Redis基础与核心数据结构
8.1.1 Redis简介与应用场景
8.1.2 数据类型总览与适用场景
8.1.3 String类型与常用命令
8.1.4 Hash类型与常用命令
8.1.5 List类型与常用命令
8.1.6 Set类型与常用命令
8.1.7 ZSet类型与常用命令
8.1.8 Bitmap/HyperLogLog/Geo简介
8.1.9 键空间与过期机制基础
8.1.10 基本客户端连接与命令行操作
8.2 安装部署与配置优化
8.2.1 Redis安装方式与版本选择
8.2.2 单机部署步骤与目录规划
8.2.3 核心配置文件参数解读
8.2.4 内存管理与淘汰策略优化
8.2.5 持久化配置与性能权衡
8.2.6 安全加固与访问控制
8.2.7 启动脚本与服务化管理
8.2.8 日志与慢查询配置优化
8.3 持久化机制与数据安全
8.3.1 RDB快照原理与配置参数
8.3.2 AOF日志机制与重写策略
8.3.3 混合持久化与版本兼容
8.3.4 持久化性能影响与优化
8.3.5 数据损坏修复与恢复流程
8.3.6 安全策略与权限控制
8.3.7 备份策略与合规保留
8.4 复制、哨兵与集群高可用
8.4.1 复制机制与读写分离设计
8.4.2 哨兵架构与自动故障切换
8.4.3 Redis Cluster分片与高可用实践
8.5 性能优化与故障排查
8.5.1 性能瓶颈识别与指标分析
8.5.2 内存与持久化优化
8.5.3 命令与慢查询优化
8.5.4 复制、集群与网络故障排查
8.5.5 典型故障场景与恢复流程
8.6 监控、备份与运维实践
8.6.1 监控指标与告警体系设计
8.6.2 日志与慢查询分析
8.6.3 备份策略与恢复演练
8.6.4 运维巡检与容量规划
8.6.5 变更管理与应急预案
第9章 Nacos与服务治理
9.1 Nacos核心概念与架构
9.1.1 Nacos定位与核心能力(配置、注册、治理)
9.1.2 架构组成与关键模块(Naming、Config、Console)
9.1.3 存储与一致性模型(MySQL、Distro、Raft)
9.1.4 模式与部署形态(单机、集群、多集群)
9.1.5 与生态组件的关系与边界(Spring Cloud、Dubbo)
9.2 安装部署与集群搭建
9.2.1 部署模式选择与环境准备
9.2.2 单机部署与快速验证
9.2.3 集群部署架构与节点规划
9.2.4 配置持久化与数据库初始化
9.2.5 启动参数与配置文件详解
9.2.6 负载均衡与高可用接入
9.2.7 集群扩缩容与滚动升级
9.2.8 安装部署常见问题与排查
9.3 配置管理与动态刷新
9.3.1 配置模型与命名空间/分组/数据ID
9.3.2 配置格式与灰度发布
9.3.3 动态刷新原理与客户端监听
9.3.4 配置变更审计与回滚策略
9.3.5 最佳实践与常见问题处理
9.4 服务注册与发现
9.4.1 服务注册与发现概述与工作流程
9.4.2 注册中心数据模型与命名空间/分组/集群
9.4.3 服务实例注册方式与心跳机制
9.4.4 服务发现与订阅推送机制
9.4.5 客户端负载均衡与就近访问策略
9.4.6 服务上下线与实例状态管理
9.4.7 典型问题与排查要点
9.5 健康检查与服务治理策略
9.5.1 健康检查机制:心跳、超时与剔除
9.5.2 服务治理策略:权重、路由与熔断
9.5.3 实例生命周期管理与故障隔离
9.6 权限与安全配置
9.6.1 认证与鉴权机制概览
9.6.2 用户、角色与权限模型
9.6.3 密钥与配置加密管理
9.6.4 多租户隔离与命名空间安全
9.6.5 访问控制策略与最小权限实践
9.6.6 安全审计与操作日志
9.6.7 常见安全风险与加固建议
9.7 客户端集成与多语言支持
9.7.1 Java/Spring生态客户端集成
9.7.2 Go与Python客户端接入
9.7.3 Node.js与PHP客户端接入
9.7.4 配置管理与服务发现SDK通用模式
9.7.5 多语言一致性与兼容性测试
9.7.6 客户端最佳实践与常见问题
9.8 运维监控与故障排查
9.8.1 监控指标体系与采集方式
9.8.2 日志管理与诊断方法
9.8.3 常见故障类型与处理流程
9.8.4 性能瓶颈定位与优化
9.8.5 灾备与恢复演练
9.9 Nacos与Spring Cloud生态
9.9.1 Spring Cloud Alibaba与Nacos定位
9.9.2 Nacos作为配置中心集成
9.9.3 Nacos作为注册中心集成
9.9.4 负载均衡与服务发现协作
9.9.5 灰度发布与动态配置
9.9.6 Sentinel、Gateway协同治理
9.9.7 常见问题与排错要点
9.10 生产实践与最佳实践
9.10.1 生产环境部署架构与容量规划
9.10.2 高可用与容灾设计
9.10.3 配置与服务治理规范
9.10.4 监控指标与告警策略
9.10.5 性能优化与参数调优
9.10.6 升级与版本管理策略
9.10.7 故障演练与应急响应
9.10.8 安全加固与合规要求
9.10.9 典型问题与最佳实践案例
第10章 Kafka消息队列
10.1 Kafka架构与核心概念
10.1.1 Kafka架构组成与角色
10.1.2 主题、分区与副本机制
10.1.3 Broker、Controller与元数据管理
10.1.4 生产者、消费者与消费组
10.1.5 偏移量、日志段与保留策略
10.1.6 ACK机制与ISR一致性
10.1.7 高可用与容错设计要点
10.1.8 关键术语与常见场景映射
10.2 Kafka集群部署与配置
10.2.1 部署架构选择与节点规划
10.2.2 环境准备与依赖配置
10.2.3 Kafka安装与目录规划
10.2.4 核心配置参数与示例
10.2.5 ZooKeeper或KRaft模式配置
10.2.6 集群启动、验证与基准测试
10.2.7 常见部署问题与处理
10.3 主题与分区设计
10.3.1 主题规划与命名规范
10.3.2 分区数量设计与扩缩容策略
10.3.3 分区键选择与数据倾斜控制
10.3.4 多副本与分区分布策略
10.3.5 主题配置参数与保留策略
10.4 生产者与消费者实战
10.4.1 生产者配置与发送模型
10.4.2 消费者组与再平衡机制
10.4.3 消息序列化与分区策略
10.4.4 手动提交与幂等消费
10.4.5 常见异常与重试处理
10.4.6 Java客户端实战示例
10.5 消息可靠性与一致性
10.5.1 消息可靠性模型与投递语义(at-most-once/at-least-once/exactly-once)
10.5.2 生产者可靠性机制(acks、重试、幂等、事务)
10.5.3 消费者一致性与提交策略(offset提交、再均衡影响)
10.5.4 数据一致性保障(ISR、ACK、Leader/Follower复制)
10.5.5 端到端一致性方案与实践(事务、幂等、去重)
10.6 性能优化与容量规划
10.6.1 性能指标与瓶颈定位
10.6.2 分区与副本的容量估算
10.6.3 生产者与消费者参数调优
10.6.4 磁盘与网络I/O优化
10.6.5 集群扩容与资源规划
10.7 监控、运维与故障排查
10.7.1 监控指标体系与关键KPI
10.7.2 监控工具与可视化方案(JMX/Exporter/Prometheus)
10.7.3 日志与审计(Broker/Controller/Client)
10.7.4 常见故障类型与诊断流程
10.7.5 性能瓶颈排查与调优思路
10.7.6 运维变更与升级回滚策略
10.7.7 备份、数据修复与灾备演练
10.7.8 容量预警与健康检查规范
10.8 Kafka安全与权限控制
10.8.1 认证机制与安全配置(SASL/SSL)
10.8.2 ACL权限模型与授权管理
10.8.3 多租户与隔离策略
10.8.4 安全审计与合规实践
10.8.5 密钥与证书生命周期管理
10.8.6 常见安全风险与防护措施
第11章 ZooKeeper协调服务
11.1 ZooKeeper架构与核心概念
11.1.1 ZooKeeper集群角色与组件
11.1.2 一致性模型与ZAB协议概述
11.1.3 数据节点结构与版本机制
11.1.4 Watcher机制与事件模型
11.1.5 会话与心跳机制
11.1.6 读写流程与请求处理链路
11.1.7 配置参数与运行模式
11.2 安装部署与集群搭建
11.2.1 环境与依赖准备
11.2.2 单机版安装与验证
11.2.3 集群规划与节点角色
11.2.4 集群配置与启动
11.2.5 集群状态检查与基础验收
11.2.6 常见部署问题与处理
11.3 数据模型与节点类型
11.3.1 ZooKeeper数据模型概览与层次结构
11.3.2 ZNode类型:持久节点、临时节点、顺序节点
11.3.3 节点属性与元数据:版本号、时间戳与ACL
11.3.4 节点数据大小限制与使用建议
11.3.5 节点监听机制与触发条件
11.4 会话机制与权限控制
11.4.1 会话生命周期与状态转移
11.4.2 SessionTimeout与心跳机制
11.4.3 临时节点与会话绑定关系
11.4.4 ACL模型与权限类型
11.4.5 认证方式与常见配置
11.4.6 权限管理实践与安全建议
11.5 选举、同步与一致性原理
11.5.1 选举触发条件与流程概览
11.5.2 FastLeaderElection机制与角色切换
11.5.3 ZXID与事务日志的同步机制
11.5.4 Zab协议阶段:发现、同步与广播
11.5.5 一致性保证:顺序性、原子性与可见性
11.5.6 读写流程与线性一致性边界
11.5.7 失效检测与脑裂防护要点
11.6 常用命令与运维管理
11.6.1 常用命令行与CLI工具使用
11.6.2 节点数据管理与权限运维
11.6.3 集群状态检查与运维操作
11.6.4 日志与快照管理
11.6.5 备份与恢复流程
11.6.6 日常巡检与故障应急操作
11.7 典型应用场景与实践
11.7.1 配置管理与动态刷新实践
11.7.2 服务发现与注册中心实践
11.7.3 分布式锁与领导选举实践
11.7.4 集群协调与分布式队列实践
11.7.5 典型开源组件集成案例
11.8 性能调优与故障排查
11.8.1 性能瓶颈识别与基准测试方法
11.8.2 参数调优与资源配置策略
11.8.3 JVM与GC调优要点
11.8.4 常见故障类型与排查流程
11.8.5 日志分析与诊断工具使用
11.8.6 线上应急处理与恢复策略
11.9 监控指标与告警配置
11.9.1 监控体系与指标分类
11.9.2 关键指标解读与阈值建议
11.9.3 四字命令与监控脚本
11.9.4 JMX与Prometheus导出方案
11.9.5 告警规则设计与分级
11.9.6 常见告警场景与处置流程
11.9.7 可视化面板与仪表盘配置
11.9.8 监控数据保留与容量规划
11.10 安全加固与最佳实践
11.10.1 安全威胁模型与风险评估
11.10.2 访问控制策略与ACL设计
11.10.3 身份认证与加密通信配置
11.10.4 配置文件与敏感信息保护
11.10.5 运维操作审计与日志留存
11.10.6 集群隔离与网络安全策略
11.10.7 备份恢复与灾备演练规范
11.10.8 安全巡检清单与最佳实践汇总
第12章 Keepalived高可用
12.1 Keepalived原理与架构
12.1.1 Keepalived核心组件与进程模型
12.1.2 VRRP在Keepalived中的实现机制
12.1.3 VIP漂移与主备选举流程
12.1.4 健康检查与故障检测原理
12.1.5 与LVS/负载均衡协同的架构关系
12.1.6 高可用拓扑模式与设计取舍
12.2 VRRP协议与虚拟IP
12.2.1 VRRP协议概述与设计目标
12.2.2 选举机制与优先级/抢占
12.2.3 虚拟IP与虚拟MAC工作原理
12.2.4 状态机与通告报文
12.2.5 典型配置参数与实战要点
12.2.6 常见问题与兼容性注意事项
12.3 安装与基础配置
12.3.1 环境准备与依赖检查
12.3.2 安装方式对比(YUM/源码)
12.3.3 基础配置文件结构与关键参数
12.3.4 启动与自启动管理
12.3.5 基础功能验证与日志检查
12.3.6 常见安装问题与解决思路
12.4 主备切换与健康检查
12.4.1 主备切换机制与状态机
12.4.2 健康检查类型与参数配置
12.4.3 通知脚本与故障处理流程
12.4.4 脑裂检测与防护策略
12.4.5 切换演练与验证方法
12.4.6 常见问题与排错思路
12.5 负载均衡与LVS集成
12.5.1 LVS与Keepalived集成架构
12.5.2 工作模式与转发机制对比(NAT/DR/TUN)
12.5.3 配置要点与示例(virtual_server/real_server)
12.5.4 健康检查与调度算法
12.5.5 常见故障与排障思路
12.6 典型高可用架构与案例
12.6.1 Keepalived + Nginx 高可用Web架构
12.6.2 Keepalived + HAProxy 负载均衡高可用
12.6.3 Keepalived + MySQL 主从高可用
12.6.4 Keepalived + Redis 哨兵高可用
12.6.5 Keepalived 与 Kubernetes/LB 集成案例
12.6.6 典型故障场景与切换流程复盘
12.7 故障排查与运维实践
12.7.1 常见故障类型与症状识别
12.7.2 日志与状态诊断方法
12.7.3 切换失败与脑裂处理
12.7.4 性能与稳定性调优
12.7.5 运维巡检与故障预案
12.8 安全加固与最佳实践
12.8.1 Keepalived进程与配置文件权限控制
12.8.2 VRRP通信安全与认证策略
12.8.3 系统与网络层安全加固要点
12.8.4 高可用切换的审计与日志管理
12.8.5 运维操作与变更管理最佳实践
12.8.6 漏洞应对与版本升级策略
第13章 HAProxy负载均衡
13.1 HAProxy概述与应用场景
13.1.1 HAProxy定位与核心能力
13.1.2 典型应用场景与业务模式
13.1.3 与Nginx、LVS的对比与选型建议
13.1.4 关键特性演进与版本差异概览
13.1.5 行业最佳实践与常见部署形态
13.2 安装部署与版本选择
13.2.1 版本分支与发布节奏(社区版与企业支持)
13.2.2 操作系统与依赖环境要求
13.2.3 安装方式对比(包管理、源码编译、容器)
13.2.4 编译选项与功能模块选择
13.2.5 初始验证与基本配置检查
13.3 核心配置文件结构与语法
13.3.1 全局区(global)关键参数与运行模式
13.3.2 默认区(defaults)与继承机制
13.3.3 前端与后端(frontend/backend)定义与流量模型
13.3.4 监听区(listen)与简化配置
13.3.5 ACL与规则语法(http-request、use_backend)
13.3.6 超时、日志与统计项配置要点
13.4 负载均衡算法与会话保持
13.4.1 负载均衡算法类型与适用场景
13.4.2 算法配置语法与示例
13.4.3 会话保持机制与实现方式
13.4.4 会话保持的超时与失效策略
13.4.5 算法与会话保持的实践选择与注意事项
13.5 健康检查与故障转移
13.5.1 健康检查类型与工作原理
13.5.2 配置指令与参数详解
13.5.3 故障判定与摘除机制
13.5.4 恢复与重加入策略
13.5.5 典型配置示例与验证方法
13.5.6 常见问题与排障思路
13.6 SSL终止与安全加固
13.6.1 SSL终止原理与部署模式
13.6.2 证书管理与自动化更新
13.6.3 TLS版本与密码套件优化
13.6.4 双向认证与客户端证书校验
13.6.5 安全头与访问控制策略
13.6.6 防护与加固实践(限流、黑白名单、抗攻击)
13.7 高可用架构与Keepalived集成
13.7.1 HAProxy+Keepalived高可用架构模式与拓扑
13.7.2 VRRP原理与主备切换流程
13.7.3 Keepalived配置要点(健康检查、权重与优先级)
13.7.4 HAProxy联动脚本与故障判定策略
13.7.5 虚拟IP漂移与客户端访问一致性
13.7.6 故障演练与切换回切验证
13.7.7 常见问题与排障思路
13.8 性能调优与连接管理
13.8.1 性能瓶颈分析与基准测试方法
13.8.2 连接数与并发模型优化(maxconn、nbthread、nbproc)
13.8.3 缓冲区与超时参数调优(tune.bufsize、timeout系列)
13.8.4 后端连接复用与队列管理(http-reuse、maxqueue)
13.8.5 系统层优化与资源限制(ulimit、tcp内核参数)
13.8.6 连接耗尽与防护策略(slowloris、限速与限连接)
13.9 日志、监控与指标导出
13.9.1 日志格式与配置(syslog、rsyslog、JSON)
13.9.2 关键运行指标与统计页面
13.9.3 Prometheus与Exporters集成
13.9.4 日志与指标的告警策略
13.9.5 常见监控故障与排查
13.10 运维实战与常见问题排查
13.10.1 典型架构与发布流程实战
13.10.2 常见故障现象与快速定位
13.10.3 配置误区与最佳实践
13.10.4 性能瓶颈与优化手段
13.10.5 变更回滚与应急预案
13.10.6 运维工具与排障脚本
13.10.7 典型案例复盘与经验总结
第14章 ProxySQL数据库中间件
14.1 ProxySQL概述与应用场景
14.2 架构与核心组件
14.2.1 ProxySQL整体架构与数据流
14.2.2 核心线程与模块分工
14.2.3 管理端口与管理接口
14.2.4 数据库端口与前端连接层
14.2.5 内置配置库与运行时内存模型
14.2.6 监控与统计子系统
14.3 安装部署与基础配置
14.3.1 ProxySQL安装与版本选择
14.3.2 初始化与服务管理
14.3.3 基础配置文件与运行模式
14.3.4 管理端口与数据持久化
14.3.5 首次连接与基础验证
14.4 连接管理与用户权限
14.4.1 连接池与会话生命周期管理
14.4.2 用户认证与权限模型
14.4.3 前端与后端用户映射
14.4.4 连接数限制与超时策略
14.4.5 连接复用与事务一致性处理
14.4.6 多租户与账号隔离实践
14.4.7 连接管理常见问题与排查
14.5 读写分离与路由规则
14.5.1 读写分离原理与适用场景
14.5.2 hostgroup设计与读写规则配置
14.5.3 query_rules匹配与优先级
14.5.4 事务一致性与强制主库策略
14.5.5 规则调试与验证方法
14.6 负载均衡与故障切换
14.6.1 负载均衡策略与算法配置
14.6.2 组内权重与流量分配规则
14.6.3 健康检查与后端状态探测
14.6.4 故障切换机制与自动恢复
14.6.5 读写分离场景下的切换流程
14.6.6 与MHA/Orchestrator的联动
14.6.7 典型配置示例与验证方法
14.6.8 常见故障与切换失败排查
14.7 监控指标与运维管理
14.7.1 监控体系与指标分类
14.7.2 内置统计表与Admin接口
14.7.3 Prometheus集成与指标导出
14.7.4 日志管理与审计分析
14.7.5 运营维护与容量评估
14.7.6 故障定位与告警策略
14.7.7 备份与配置版本管理
14.7.8 运维自动化与巡检脚本
14.8 高可用与扩展实践
14.8.1 高可用架构设计与拓扑选型
14.8.2 ProxySQL集群部署与同步机制
14.8.3 后端MySQL故障检测与自动切换
14.8.4 读写分离与扩展性策略
14.8.5 与Keepalived/HAProxy协同高可用
14.8.6 容量规划与扩缩容实践
14.8.7 灾备与数据一致性保障
14.8.8 高可用场景下的运维流程与演练
14.9 安全加固与性能优化
14.9.1 访问控制与权限最小化策略
14.9.2 TLS/SSL与加密传输配置
14.9.3 审计日志与合规性设置
14.9.4 连接池与线程模型调优
14.9.5 查询路由与规则性能优化
14.9.6 缓存与统计表维护优化
14.9.7 资源限制与系统参数调优
14.9.8 性能基线与压力测试方法
14.9.9 安全加固与性能回归验证
14.10 常见问题与排错技巧
14.10.1 启动失败与配置加载错误
14.10.2 连接异常与认证失败排查
14.10.3 路由与读写分离不生效
14.10.4 性能问题与慢查询定位
14.10.5 复制与故障切换异常处理
14.10.6 监控告警异常与指标缺失
14.10.7 日志与诊断工具使用
14.10.8 升级回滚与兼容性问题
第15章 Docker容器化
15.1 Docker概念与架构
15.1.1 Docker发展背景与核心目标
15.1.2 容器技术与虚拟化对比
15.1.3 Docker核心组件与架构层次
15.1.4 Docker对象模型与生命周期
15.1.5 Docker运行原理与关键流程
15.1.6 典型应用场景与价值边界
15.2 安装与环境配置
15.2.1 系统要求与内核依赖检查
15.2.2 Docker安装方式对比与选择
15.2.3 安装步骤与版本管理
15.2.4 镜像加速与代理配置
15.2.5 存储驱动与数据根目录配置
15.2.6 守护进程参数与日志配置
15.2.7 用户与权限配置(docker组)
15.2.8 安装验证与基础故障排查
15.3 镜像管理
15.3.1 镜像概念与分层原理
15.3.2 镜像拉取与标签管理
15.3.3 镜像查看与元数据分析
15.3.4 镜像导入导出与备份
15.3.5 镜像删除与清理策略
15.3.6 镜像优化与瘦身实践
15.3.7 常见镜像管理故障排查
15.4 容器管理
15.4.1 容器生命周期管理
15.4.2 容器运行参数与常用选项
15.4.3 容器日志与状态查看
15.4.4 容器资源限制与优先级
15.4.5 容器进程与信号处理
15.4.6 容器文件拷贝与交互
15.4.7 容器故障排查与恢复
15.5 数据卷与持久化
15.5.1 数据卷类型与使用场景(volume、bind、tmpfs)
15.5.2 数据卷创建、挂载与生命周期管理
15.5.3 数据卷备份、恢复与迁移
15.5.4 容器持久化最佳实践与常见问题
15.6 网络模型与通信
15.6.1 Docker网络驱动与模型概述
15.6.2 默认网络与自定义网络
15.6.3 容器间通信与服务发现
15.6.4 端口映射与访问控制
15.6.5 宿主机与外部网络通信
15.6.6 多主机网络与Overlay
15.6.7 网络故障排查与调试工具
15.7 Dockerfile与镜像构建
15.7.1 Dockerfile语法与指令详解
15.7.2 镜像分层与构建缓存机制
15.7.3 构建上下文与忽略规则(.dockerignore)
15.7.4 多阶段构建与镜像瘦身
15.7.5 镜像版本管理与标签规范
15.7.6 构建与发布最佳实践与安全加固
15.8 Compose多容器编排
15.8.1 Compose核心概念与适用场景
15.8.2 docker-compose.yml结构与语法规范
15.8.3 服务定义与依赖编排(depends_on、healthcheck)
15.8.4 网络与多服务通信(bridge、external)
15.8.5 数据卷与持久化策略(volumes、bind)
15.8.6 环境变量与配置管理(env_file、configs、secrets)
15.8.7 常用命令与生命周期管理
15.8.8 多环境与扩展文件(override、profiles)
15.8.9 生产部署注意事项与故障排查
15.9 镜像仓库与分发
15.9.1 镜像仓库类型与选型(Docker Hub/私有仓库/云厂商)
15.9.2 私有仓库搭建与配置(Registry/Harbor)
15.9.3 镜像命名规范与版本策略
15.9.4 镜像推送、拉取与访问控制
15.9.5 镜像同步与分发策略
15.9.6 仓库安全与漏洞扫描
15.9.7 镜像缓存与加速配置
15.10 资源限制与安全
15.10.1 容器资源限制原理(cgroups与namespace)
15.10.2 CPU与内存限制配置与验证
15.10.3 磁盘与IO限制策略
15.10.4 容器安全基线(权限、capabilities、seccomp)
15.10.5 镜像与运行时安全加固
15.10.6 资源限制与安全的排障与审计
15.11 运维实践与故障排查
15.11.1 运维标准流程与日常巡检
15.11.2 典型故障场景与排查思路
15.11.3 容器日志与事件诊断
15.11.4 资源瓶颈与性能问题定位
15.11.5 镜像与仓库问题处理
15.11.6 容器网络故障排查
15.11.7 数据卷与持久化异常处理
15.11.8 安全事件与应急响应
15.11.9 备份恢复与灾备演练
15.11.10 生产变更与回滚策略
第16章 Kubernetes容器编排
16.1 Kubernetes核心概念与架构
16.1.1 Kubernetes整体架构与组件职责
16.1.2 控制平面(Control Plane)核心组件
16.1.3 工作节点(Node)核心组件
16.1.4 核心对象模型与资源关系
16.1.5 API设计与声明式管理
16.1.6 集群通信与基本工作流程
16.1.7 高可用架构与故障域设计
16.2 集群安装与基础运维
16.2.1 集群安装方式与工具选择(kubeadm、二进制、托管)
16.2.2 集群初始化与节点加入流程
16.2.3 容器运行时与镜像仓库配置
16.2.4 证书与认证体系基础运维
16.2.5 集群升级、备份与恢复策略
16.2.6 核心组件健康检查与故障处理
16.2.7 常用运维命令与日常巡检清单
16.3 Pod与控制器管理
16.3.1 Pod生命周期与状态管理
16.3.2 Pod规格与常用字段
16.3.3 控制器类型与适用场景
16.3.4 ReplicaSet与Deployment滚动更新
16.3.5 StatefulSet与有状态应用
16.3.6 DaemonSet与节点级服务
16.3.7 Job与CronJob批处理任务
16.3.8 Pod探针与健康检查
16.3.9 HPA/VPA弹性伸缩基础
16.4 服务发现与网络模型
16.4.1 Service资源与服务发现机制
16.4.2 CoreDNS与集群DNS解析
16.4.3 Ingress与七层路由
16.4.4 CNI网络插件与网络模式
16.4.5 网络策略与安全隔离
16.4.6 负载均衡与流量调度
16.4.7 跨集群服务发现与多集群网络
16.5 存储与持久化
16.5.1 Kubernetes存储体系与卷类型概览
16.5.2 PersistentVolume与PersistentVolumeClaim机制
16.5.3 StorageClass与动态供给
16.5.4 StatefulSet与持久化应用
16.5.5 数据备份、恢复与迁移策略
16.5.6 本地存储与网络存储实践
16.6 调度与资源管理
16.6.1 调度流程与调度器架构
16.6.2 节点筛选与亲和性/反亲和性
16.6.3 污点与容忍度
16.6.4 资源请求与限制(QoS)
16.6.5 优先级与抢占
16.6.6 集群容量与资源配额
16.6.7 资源弹性与自动伸缩(HPA/VPA/CA)
16.6.8 调度与资源管理实战排障
16.7 安全与访问控制
16.7.1 RBAC权限模型与角色绑定
16.7.2 ServiceAccount与认证机制
16.7.3 NetworkPolicy网络隔离
16.7.4 Pod安全策略与运行时约束
16.7.5 Secrets与配置安全管理
16.7.6 审计日志与安全审计
16.7.7 安全基线与最佳实践
16.8 可观测性与故障排查
16.8.1 监控指标体系与告警设计
16.8.2 日志采集与集中化分析
16.8.3 分布式追踪与链路分析
16.8.4 事件排查与诊断工具
16.8.5 常见故障场景与处置流程
16.8.6 容量规划与SLO/SLI评估
16.9 生产实践与最佳实践
16.9.1 生产级集群规划与容量评估
16.9.2 高可用与灾备设计
16.9.3 发布策略与回滚机制
16.9.4 资源配额与成本优化
16.9.5 多租户与命名空间治理
16.9.6 镜像与制品管理规范
16.9.7 配置与密钥管理最佳实践
16.9.8 日志、监控与告警体系
16.9.9 故障演练与应急预案
16.9.10 安全基线与合规审计
第17章 Prometheus监控与告警
17.1 Prometheus架构与组件概览
17.1.1 Prometheus总体架构与数据流
17.1.2 核心组件:Prometheus Server与TSDB
17.1.3 采集层:Exporter与Pushgateway
17.1.4 服务发现与抓取机制
17.1.5 查询层:PromQL与HTTP API
17.1.6 告警链路:Alertmanager与通知集成
17.1.7 可视化与生态:Grafana与周边组件
17.2 安装与基础配置
17.2.1 安装方式对比与选型(源码包/二进制/容器)
17.2.2 组件部署与目录结构规划
17.2.3 基础配置文件prometheus.yml详解
17.2.4 启动与运行参数配置
17.2.5 数据存储路径与保留策略
17.2.6 初始目标与自监控配置
17.2.7 常见安装问题与排查
17.3 服务发现与目标管理
17.3.1 服务发现模式概述与适用场景
17.3.2 静态目标配置与文件发现
17.3.3 基于服务注册中心的发现机制
17.3.4 Kubernetes服务发现与标签选择
17.3.5 目标重写与元数据标签管理
17.3.6 目标生命周期管理与告警联动
17.3.7 常见问题排查与最佳实践
17.4 指标采集与Exporter体系
17.4.1 Exporter类型与生态概览
17.4.2 Node Exporter系统指标采集
17.4.3 应用与中间件Exporter实践
17.4.4 自定义Exporter与指标设计规范
17.4.5 Pushgateway与短生命周期任务
17.4.6 Exporter部署、配置与安全
17.4.7 指标命名、标签与采集频率策略
17.4.8 常见采集故障排查与优化
17.5 PromQL查询与数据聚合
17.5.1 PromQL基础语法与数据模型
17.5.2 向量类型与选择器:瞬时/区间/子查询
17.5.3 聚合函数与分组策略
17.5.4 计算与比较操作:算术、逻辑与过滤
17.5.5 常见查询模式与性能优化
17.6 可视化与Grafana集成
17.6.1 Grafana安装与基础配置
17.6.2 Prometheus数据源配置与最佳实践
17.6.3 Dashboard设计原则与常用模板
17.6.4 变量、查询与重复面板实战
17.6.5 告警面板与可视化规范
17.6.6 权限、组织与团队协作
17.6.7 性能优化与大屏展示方案
17.7 告警规则与Alertmanager
17.7.1 告警规则设计原则与分层
17.7.2 Prometheus告警规则语法与模板
17.7.3 Alertmanager架构与告警生命周期
17.7.4 告警路由、分组与抑制策略
17.7.5 多渠道通知与消息格式化
17.7.6 告警维护与静默机制
17.7.7 典型场景告警规则示例与验证
17.8 高可用与长期存储方案
17.8.1 Prometheus高可用架构模式与部署拓扑
17.8.2 双活/多副本采集与去重策略
17.8.3 远端存储方案对比(Thanos/Cortex/VictoriaMetrics)
17.8.4 长期存储与分层存储设计
17.8.5 数据备份、恢复与容灾演练
17.8.6 高可用下的告警一致性与降噪策略
17.8.7 性能与成本权衡的容量估算方法
17.9 性能优化与容量规划
17.9.1 指标基数与TSDB容量估算方法
17.9.2 抓取频率与保留策略优化
17.9.3 远程写入与压缩配置优化
17.9.4 查询性能与规则评估负载控制
17.9.5 资源配额与扩容规划实践
17.10 安全与权限控制
17.10.1 Prometheus安全模型与威胁面
17.10.2 TLS加密与证书管理
17.10.3 基本认证与反向代理接入控制
17.10.4 RBAC与多租户隔离策略
17.10.5 Alertmanager与Webhook安全
17.10.6 最小权限与运维审计实践
17.11 实战案例与运维规范
17.11.1 监控指标体系与SLA/SLO规范
17.11.2 典型业务监控模板与指标基线
17.11.3 告警分级、抑制与值班流程
17.11.4 常见故障场景与处置SOP
17.11.5 监控数据留存、归档与审计
17.11.6 监控平台运维与变更管理
17.11.7 可观测性落地与持续改进机制
第18章 Jenkins与CI/CD
18.1 Jenkins架构与安装部署
18.1.1 Jenkins组件与工作原理
18.1.2 安装方式与系统要求
18.1.3 单机安装与基础配置
18.1.4 插件安装与初始化向导
18.1.5 反向代理与HTTPS接入
18.1.6 服务管理与日志目录规范
18.2 Jenkins权限与安全配置
18.2.1 权限模型与角色设计(RBAC)
18.2.2 用户与组管理(内置用户、LDAP/AD)
18.2.3 认证方式与单点登录(SSO、OAuth)
18.2.4 凭据管理与敏感信息保护
18.2.5 访问控制与授权策略(Matrix、Folder)
18.2.6 安全配置最佳实践(CSRF、Agent安全、更新策略)
18.2.7 审计日志与合规性配置
18.3 Pipeline语法与流水线设计
18.3.1 Pipeline语法基础与Jenkinsfile结构
18.3.2 Declarative与Scripted Pipeline对比与选型
18.3.3 流水线阶段设计与并行/矩阵构建
18.3.4 环境变量、参数化与凭据管理
18.3.5 共享库与可复用流水线模板设计
18.3.6 失败处理、回滚与质量门禁策略
18.4 CI流程:构建、测试与制品管理
18.4.1 CI流程概览与阶段划分
18.4.2 构建策略与依赖管理
18.4.3 自动化测试体系与质量门禁
18.4.4 制品管理与版本控制
18.4.5 流水线示例与实践规范
18.5 CD流程:发布策略与环境管理
18.5.1 发布策略类型:蓝绿、金丝雀、滚动与灰度
18.5.2 环境分层与隔离:开发、测试、预发、生产
18.5.3 版本与配置管理:制品、配置中心与密钥
18.5.4 自动化发布流程设计:审批、变更与回滚
18.5.5 发布风险控制:监控联动与熔断策略
18.5.6 多环境部署实践:参数化与模板化
18.5.7 发布合规与审计:记录、追踪与报表
18.6 插件体系与常用插件实践
18.6.1 插件管理与更新策略
18.6.2 常用构建与Pipeline类插件
18.6.3 版本控制与代码质量插件
18.6.4 制品与依赖管理插件
18.6.5 容器与云原生集成插件
18.6.6 通知与协作插件
18.6.7 安全与合规模块插件
18.7 与Git、Docker、Kubernetes集成
18.7.1 Jenkins与Git集成与触发策略
18.7.2 Jenkins与Docker构建与镜像管理
18.7.3 Jenkins与Kubernetes部署与发布
18.7.4 凭据管理与安全实践
18.7.5 集成故障排查与性能优化
18.8 高可用、备份与性能优化
18.8.1 Jenkins高可用架构方案与部署模式
18.8.2 备份与恢复策略(配置、作业、插件、密钥)
18.8.3 性能瓶颈定位与优化实践
18.8.4 存储与数据目录规划(JENKINS_HOME)
18.8.5 代理节点扩展与资源调度优化
18.8.6 安全与可用性监控告警方案
18.8.7 灾备演练与恢复流程标准化
18.9 常见故障排查与最佳实践
18.9.1 Jenkins服务启动与配置错误排查
18.9.2 构建与流水线失败的定位方法
18.9.3 插件冲突与版本兼容问题
18.9.4 性能瓶颈与资源优化实践
18.9.5 权限与凭据安全最佳实践
18.9.6 备份恢复与灾难演练要点
18.9.7 日志与监控体系建设建议
第19章 运维平台化与最佳实践
19.1 运维平台化整体架构与技术选型
19.1.1 平台化目标与价值定位
19.1.2 总体架构分层与能力域
19.1.3 技术栈选型原则与评估维度
19.1.4 核心组件与集成方式
19.1.5 数据模型与平台基础服务
19.1.6 规模化与高可用设计
19.1.7 安全合规与权限治理
19.1.8 交付模型与演进路线
19.1.9 典型场景与关键指标
19.2 资产管理与资源编排
19.2.1 资产数据模型与标准定义
19.2.2 资产生命周期管理流程
19.2.3 资产采集与发现机制
19.2.4 资源编排架构与核心组件
19.2.5 资源池与容量管理
19.2.6 编排模板与配置管理
19.2.7 自动化交付与变更协同
19.2.8 权限、审计与合规模块
19.2.9 CMDB与现有系统集成
19.2.10 指标体系与资产可视化
19.3 配置管理与标准化
19.3.1 配置管理目标、范围与原则
19.3.2 配置项分类与CMDB字段规范
19.3.3 配置基线、模板与版本管理
19.3.4 变更流程、审批与追溯机制
19.3.5 配置合规检查与漂移检测
19.3.6 标准化命名、标签与资源标识体系
19.3.7 配置管理工具选型与集成(Ansible/SaltStack等)
19.3.8 配置管理在多环境与多集群中的实践
19.4 自动化运维与任务编排
19.4.1 自动化运维体系与平台能力构建
19.4.2 任务编排模型与流程设计
19.4.3 作业模板与参数化执行
19.4.4 任务调度与依赖关系管理
19.4.5 执行引擎与并发控制
19.4.6 回滚与失败补偿机制
19.4.7 自动化变更与审批联动
19.4.8 自动化巡检与自愈策略
19.4.9 任务编排的审计与可追溯性
19.4.10 典型场景:批量发布、扩容与灾备演练
19.5 监控告警与可观测性体系
19.5.1 监控与可观测性总体架构
19.5.2 指标、日志、链路三大数据模型
19.5.3 告警体系设计与降噪策略
19.5.4 可观测性平台选型与集成
19.5.5 监控数据治理与容量规划
19.5.6 应急响应与故障演练流程
19.5.7 典型场景与落地实践
19.6 日志管理与审计
19.6.1 日志平台架构与技术选型
19.6.2 日志采集与传输链路设计
19.6.3 日志解析、规范化与索引
19.6.4 日志存储与冷热分层策略
19.6.5 查询、检索与可视化分析
19.6.6 审计策略、合规与留存策略
19.6.7 日志安全、脱敏与访问控制
19.6.8 容量评估、性能优化与成本控制
19.7 发布管理与变更控制
19.7.1 发布流程体系与阶段划分
19.7.2 版本管理策略与分支模型
19.7.3 变更评审与审批机制
19.7.4 发布窗口与风险控制
19.7.5 灰度发布与回滚策略
19.7.6 发布自动化与流水线集成
19.7.7 变更记录、审计与合规
19.7.8 发布度量与持续改进
19.8 安全与权限体系
19.8.1 安全架构与威胁模型
19.8.2 账号生命周期与最小权限原则
19.8.3 认证与单点登录(SSO)设计
19.8.4 授权模型(RBAC/ABAC)与策略管理
19.8.5 密钥、证书与敏感信息管理
19.8.6 主机与容器安全基线
19.8.7 操作审计与合规要求
19.8.8 安全事件响应与应急预案
19.8.9 安全测试与持续加固流程
19.9 备份与灾备策略
19.9.1 备份策略设计与分级(全量/增量/差异)
19.9.2 备份介质、存储与保留策略
19.9.3 备份一致性与应用停机窗口管理
19.9.4 灾备架构模式与RPO/RTO规划
19.9.5 跨机房/多云容灾与演练流程
19.9.6 备份与灾备的自动化与合规审计
19.10 运维度量、SLA与成本治理
19.10.1 运维度量指标体系与口径定义
19.10.2 SLA设计、分级与评估方法
19.10.3 成本模型、分摊与优化策略
19.10.4 容量规划与资源利用率治理
19.10.5 业务价值与运维效能评估
19.10.6 报表与可视化治理实践
19.11 典型平台实践与落地案例
19.11.1 一体化运维平台落地路线与实施步骤
19.11.2 CMDB与自动化运维联动案例
19.11.3 监控告警平台建设与SLO治理案例
19.11.4 日志与审计平台实践案例
19.11.5 发布平台与变更治理实践案例
19.11.6 安全与权限平台整合实践案例
19.11.7 备份与灾备平台化实践案例
19.11.8 成本治理与资源优化平台实践案例
19.11.9 多云与混合云运维平台实践案例
19.11.10 平台化推广与组织协同落地经验
19.12 运维流程与组织协同
19.12.1 运维流程体系与规范化建设
19.12.2 组织角色分工与职责矩阵
19.12.3 需求、变更与发布协同机制
19.12.4 事件、问题与应急响应流程
19.12.5 服务台与工单体系设计
19.12.6 跨团队沟通与知识共享机制
19.12.7 合规审计与流程闭环
19.12.8 流程度量与持续改进方法
19.12 运维流程与组织协同
19.12.1 运维流程体系与规范化建设
19.12.2 组织角色分工与职责矩阵
19.12.3 需求、变更与发布协同机制
19.12.4 事件、问题与应急响应流程
19.12.5 服务台与工单体系设计
19.12.6 跨团队沟通与知识共享机制
19.12.7 合规审计与流程闭环
19.12.8 流程度量与持续改进方法