项目刚启动那周,我们和客户值班团队一起看了三天告警。屏幕上数据很多,但真正能指导动作的信息很少:资产关系不全、责任人不准、依赖链断裂。
这就是很多自动化项目卡住的真实起点。不是工具不够多,而是底座数据不够准。
第一步不是上自动化,而是先把数据做准
我们先把 CMDB 与基础台账当成工程重点,连续做了三件事:
- 多源汇聚:把 Excel、历史系统和人工台账统一入库;
- 动态校验:持续核对下线、迁移、扩容、人岗变化;
- 组织对齐:把告警责任和组织身份系统打通。
这一步做完后,很多“莫名其妙”的故障都能解释了。客户基础数据准确率从 70%-80% 提升到接近可用上限,后续监控和发布治理才有了可靠前提。
一个不太讨喜但很关键的结论
自动化不会自动消灭混乱。错误数据进系统,系统只会更快放大错误。
所以我们一直坚持“先做准,再做快”:
- 先减少模板错装、目标错选、误通知;
- 再提升自动化覆盖率和执行速度。
结果不是“看起来更先进”,而是“故障成本更低”
底座稳定后,客户最先感知到三件事:
- 排障路径明显缩短;
- 跨团队沟通成本下降;
- 运维动作开始可追溯、可审计。
这就是可观测底座的价值。它不抢镜头,但决定后面每一步是否稳。