基于 OpenClaw 生态 ↗

🦞 AI 运维值班员

给你的龙虾装上运维技能
 

一线运维工程师出品 · 所有案例来自真实生产环境

真实运维案例

每个案例都来自真实的生产环境,不是 Demo

🌐
CDN

周五晚上 11 点,研发说"页面没更新"

Jenkins 打包成功但页面没变。Agent 自动排查:源站文件已更新 → CloudFront 缓存已清 → 发现 CSS 从另一个 CDN (cdn-x.example.com) 加载 → 定位到真正的缓存源 → 清理 → 30 秒解决。

原来需要 30 分钟排查,现在 30 秒
🔒
安全

安全审计发现 60+ 个 API Key 在裸奔

批量扫描 30 个测试 项目,发现 60+ 个 API Key 权限过宽(40~55 个 API 全开)。自动精简到 3 个核心 API + 绑定包名 SHA-1,100% 成功率,零业务影响。

人工需要 2 天,Agent 2 小时
🏗️
部署

测试环境和生产混在一起,迟早出事

测试环境和生产共用 EC2,存在风险。Agent 自动完成:新建独立 EC2 → 配置 ALB → 部署 CloudFront + WAF 白名单 → DNS 切换 → 10 项验证全部通过。

测试与生产彻底隔离,零停机
📊
监控

凌晨 3 点磁盘满了,没人知道

EC2 默认没有磁盘和内存指标。Agent 通过 .ebextensions 自动安装 CloudWatch Agent,按 ASG 维度配告警,新实例自动生效,告警推送到钉钉。

月成本 -10,覆盖所有环境
⚙️
CI/CD

tj-actions 被投毒后,我们连夜扫了所有仓库

扫描所有 workflow 文件,识别使用 @master/@main 的不安全引用,自动查询 commit SHA 并生成 Pin SHA 修复方案。防止 tj-actions 类供应链攻击。

一次扫描,持续安全
🔑
安全

API Key 出现在公开仓库里了

移动端 API Key 通过公开代码仓库泄露。Agent 自动评估影响范围 → 轮换 Key → 加固限制(包名+SHA-1+API 精简)→ 多维验证 → 生成报告。

从发现到修复,全程自动化
🛡️
安全

凌晨收到告警,243 个 IP 在撞库

分布式低频撞库,243 个 IP 轮换规避封禁。Agent 分析 WAF 日志 → 识别 UA 特征 → 建立风险评分模型 → 按国家差异化阈值 → 自动封禁 + 3 小时自动解封。

从人工逐条封 IP 到全自动攻防
🔍
安全

用户从 TikTok 点进来,被 WAF 拦了

OAuth 回调参数被 SQL 注入规则误判,VPN 用户被 IP 信誉规则误杀。Agent 部署实时检测 → 区分真实攻击和正常用户 → 疑似误拦截秒级告警。

攻击照拦,正常用户不误伤
🔇
安全

攻击者一看 403 页面,就知道有 WAF

默认 WAF 拦截返回 HTML 403 页面,暴露 WAF 存在。Agent 批量扫描 4 个账号 3 个区域 30+ 条规则,全部改为静默 403 空 body 响应。

30+ 条规则批量优化,零信息泄露
🔴
监控

Redis 越来越慢,但没人知道为什么

Redis 集群性能缓慢下降。Agent 部署 Lambda 定时扫描 → SCAN 遍历 → MEMORY USAGE 检查 → 超阈值自动告警 → 生成 Top 20 大 Key 报告。

定时体检,大 Key 无处藏身
🏢
安全

7 个 AWS 账号,安全监控全是空白

批量部署 CloudTrail 审计日志(S3 Object Lock 90 天防篡改)+ GuardDuty 威胁检测 + EventBridge 安全事件规则 + Lambda 告警推送。

7 个账号,从裸奔到全副武装
🔑
安全

49 个开发者,谁的公开仓库藏着密钥?

10 个并行 Lambda 每 10 分钟扫描所有成员公开仓库 → 正则匹配 AWS/GCP/阿里云密钥 → 发现即秒级告警 → 同时监控组织成员和仓库变更。

10 并行扫描,每 10 分钟全覆盖
📈
监控

Redis 内存每周涨 2%,三个月后就炸了

单点告警只能发现突变。Agent 部署周度趋势报告:自动发现高负载集群 → 对比本周 vs 上周 → 覆盖 Redis/RDS/S3 → 每周自动推送。

温水煮青蛙?每周给你泼冷水
🦞
巡检

飞书里打两个字,7 秒查完 24 个 Redis 集群

给龙虾写了一个 Redis 巡检 Skill,批量查询 CloudWatch API,跟 7 天前基线对比自动发现异常。从每天 20 分钟手动巡检到 7 秒自动出报告。

20 分钟 → 7 秒,还带异常检测

关于 ClawNOC

15 年运维老兵,从性能调优、安全加固到成本治理,踩过的坑够写一本书。

2026 年初,开始用 AI Agent 处理重复性运维工作。
ClawNOC 就是这些实践的产物。