一线运维工程师出品 · 所有案例来自真实生产环境
每个案例都来自真实的生产环境,不是 Demo
Jenkins 打包成功但页面没变。Agent 自动排查:源站文件已更新 → CloudFront 缓存已清 → 发现 CSS 从另一个 CDN (cdn-x.example.com) 加载 → 定位到真正的缓存源 → 清理 → 30 秒解决。
批量扫描 30 个测试 项目,发现 60+ 个 API Key 权限过宽(40~55 个 API 全开)。自动精简到 3 个核心 API + 绑定包名 SHA-1,100% 成功率,零业务影响。
测试环境和生产共用 EC2,存在风险。Agent 自动完成:新建独立 EC2 → 配置 ALB → 部署 CloudFront + WAF 白名单 → DNS 切换 → 10 项验证全部通过。
EC2 默认没有磁盘和内存指标。Agent 通过 .ebextensions 自动安装 CloudWatch Agent,按 ASG 维度配告警,新实例自动生效,告警推送到钉钉。
扫描所有 workflow 文件,识别使用 @master/@main 的不安全引用,自动查询 commit SHA 并生成 Pin SHA 修复方案。防止 tj-actions 类供应链攻击。
移动端 API Key 通过公开代码仓库泄露。Agent 自动评估影响范围 → 轮换 Key → 加固限制(包名+SHA-1+API 精简)→ 多维验证 → 生成报告。
分布式低频撞库,243 个 IP 轮换规避封禁。Agent 分析 WAF 日志 → 识别 UA 特征 → 建立风险评分模型 → 按国家差异化阈值 → 自动封禁 + 3 小时自动解封。
OAuth 回调参数被 SQL 注入规则误判,VPN 用户被 IP 信誉规则误杀。Agent 部署实时检测 → 区分真实攻击和正常用户 → 疑似误拦截秒级告警。
默认 WAF 拦截返回 HTML 403 页面,暴露 WAF 存在。Agent 批量扫描 4 个账号 3 个区域 30+ 条规则,全部改为静默 403 空 body 响应。
Redis 集群性能缓慢下降。Agent 部署 Lambda 定时扫描 → SCAN 遍历 → MEMORY USAGE 检查 → 超阈值自动告警 → 生成 Top 20 大 Key 报告。
批量部署 CloudTrail 审计日志(S3 Object Lock 90 天防篡改)+ GuardDuty 威胁检测 + EventBridge 安全事件规则 + Lambda 告警推送。
10 个并行 Lambda 每 10 分钟扫描所有成员公开仓库 → 正则匹配 AWS/GCP/阿里云密钥 → 发现即秒级告警 → 同时监控组织成员和仓库变更。
单点告警只能发现突变。Agent 部署周度趋势报告:自动发现高负载集群 → 对比本周 vs 上周 → 覆盖 Redis/RDS/S3 → 每周自动推送。
给龙虾写了一个 Redis 巡检 Skill,批量查询 CloudWatch API,跟 7 天前基线对比自动发现异常。从每天 20 分钟手动巡检到 7 秒自动出报告。
15 年运维老兵,从性能调优、安全加固到成本治理,踩过的坑够写一本书。
2026 年初,开始用 AI Agent 处理重复性运维工作。
ClawNOC 就是这些实践的产物。