🦞 AI 运维值班员

给你的龙虾装上运维技能

一线运维工程师出品 · 所有案例来自真实生产环境

查看案例 GitHub

真实运维案例

每个案例都来自真实的生产环境，不是 Demo

🌐

CDN

周五晚上 11 点，研发说"页面没更新"

Jenkins 打包成功但页面没变。Agent 自动排查：源站文件已更新 → CloudFront 缓存已清 → 发现 CSS 从另一个 CDN (cdn-x.example.com) 加载 → 定位到真正的缓存源 → 清理 → 30 秒解决。

原来需要 30 分钟排查，现在 30 秒

🔒

安全

安全审计发现 60+ 个 API Key 在裸奔

批量扫描 30 个测试项目，发现 60+ 个 API Key 权限过宽（40~55 个 API 全开）。自动精简到 3 个核心 API + 绑定包名 SHA-1，100% 成功率，零业务影响。

人工需要 2 天，Agent 2 小时

🏗️

部署

测试环境和生产混在一起，迟早出事

测试环境和生产共用 EC2，存在风险。Agent 自动完成：新建独立 EC2 → 配置 ALB → 部署 CloudFront + WAF 白名单 → DNS 切换 → 10 项验证全部通过。

测试与生产彻底隔离，零停机

📊

监控

凌晨 3 点磁盘满了，没人知道

EC2 默认没有磁盘和内存指标。Agent 通过 .ebextensions 自动安装 CloudWatch Agent，按 ASG 维度配告警，新实例自动生效，告警推送到钉钉。

月成本 -10，覆盖所有环境

⚙️

CI/CD

tj-actions 被投毒后，我们连夜扫了所有仓库

扫描所有 workflow 文件，识别使用 @master/@main 的不安全引用，自动查询 commit SHA 并生成 Pin SHA 修复方案。防止 tj-actions 类供应链攻击。

一次扫描，持续安全

🔑

安全

API Key 出现在公开仓库里了

移动端 API Key 通过公开代码仓库泄露。Agent 自动评估影响范围 → 轮换 Key → 加固限制（包名+SHA-1+API 精简）→ 多维验证 → 生成报告。

从发现到修复，全程自动化

🛡️

安全

凌晨收到告警，243 个 IP 在撞库

分布式低频撞库，243 个 IP 轮换规避封禁。Agent 分析 WAF 日志 → 识别 UA 特征 → 建立风险评分模型 → 按国家差异化阈值 → 自动封禁 + 3 小时自动解封。

从人工逐条封 IP 到全自动攻防

🔍

安全

用户从 TikTok 点进来，被 WAF 拦了

OAuth 回调参数被 SQL 注入规则误判，VPN 用户被 IP 信誉规则误杀。Agent 部署实时检测 → 区分真实攻击和正常用户 → 疑似误拦截秒级告警。

攻击照拦，正常用户不误伤

🔇

安全

攻击者一看 403 页面，就知道有 WAF

默认 WAF 拦截返回 HTML 403 页面，暴露 WAF 存在。Agent 批量扫描 4 个账号 3 个区域 30+ 条规则，全部改为静默 403 空 body 响应。

30+ 条规则批量优化，零信息泄露

🔴

监控

Redis 越来越慢，但没人知道为什么

Redis 集群性能缓慢下降。Agent 部署 Lambda 定时扫描 → SCAN 遍历 → MEMORY USAGE 检查 → 超阈值自动告警 → 生成 Top 20 大 Key 报告。

定时体检，大 Key 无处藏身

🏢

安全

7 个 AWS 账号，安全监控全是空白

批量部署 CloudTrail 审计日志（S3 Object Lock 90 天防篡改）+ GuardDuty 威胁检测 + EventBridge 安全事件规则 + Lambda 告警推送。

7 个账号，从裸奔到全副武装

🔑

安全

49 个开发者，谁的公开仓库藏着密钥？

10 个并行 Lambda 每 10 分钟扫描所有成员公开仓库 → 正则匹配 AWS/GCP/阿里云密钥 → 发现即秒级告警 → 同时监控组织成员和仓库变更。

10 并行扫描，每 10 分钟全覆盖

📈

监控

Redis 内存每周涨 2%，三个月后就炸了

单点告警只能发现突变。Agent 部署周度趋势报告：自动发现高负载集群 → 对比本周 vs 上周 → 覆盖 Redis/RDS/S3 → 每周自动推送。

温水煮青蛙？每周给你泼冷水

🦞

巡检

飞书里打两个字，7 秒查完 24 个 Redis 集群

给龙虾写了一个 Redis 巡检 Skill，批量查询 CloudWatch API，跟 7 天前基线对比自动发现异常。从每天 20 分钟手动巡检到 7 秒自动出报告。

20 分钟 → 7 秒，还带异常检测

关于 ClawNOC

15 年运维老兵，从性能调优、安全加固到成本治理，踩过的坑够写一本书。

2026 年初，开始用 AI Agent 处理重复性运维工作。
ClawNOC 就是这些实践的产物。