运维监控管理系统 产品功能规划书
文档版本:V1.0
编制日期:2026-04-17
产品定位:面向企业级市场的运维监控管理平台(基于 Zabbix 7.0 二次开发)
目标场景:政企投标 / 大客户交付 / 私有化部署
一、产品概述
1.1 背景与定位
当前政企运维市场存在以下痛点:
– 监控工具(Zabbix/Prometheus)功能分散,缺乏统一管理界面
– CMDB、工单、告警系统相互割裂,数据不互通
– 二次开发难度高,项目交付依赖大量定制
– 运维自动化能力不足,响应效率低
本产品以 Zabbix 7.0 为核心监控引擎,整合 CMDB、告警收敛、工单管理、自动化运维、SLA 管理等模块,打造一站式运维监控管理平台,降低交付成本,具备直接投标竞争能力。
1.2 核心优势
| 优势项 |
说明 |
| 开箱即用 |
基于 Zabbix 7.0 原生能力,最大化利用已有功能,减少 60%+ 定制开发量 |
| 完整闭环 |
监控→告警→工单→处理→复盘,全链路闭环 |
| 敏捷交付 |
Docker Compose 一键部署,1天内可完成 POC 环境交付 |
| 国产适配 |
支持银河麒麟、统信 UOS、华为欧拉等国产操作系统;支持国产数据库(达梦/人大金仓) |
| 合规达标 |
等保 2.0 / 密评 兼容设计,满足政企合规要求 |
| 投标支撑 |
功能清单完整覆盖,文档齐备,可支撑 500 节点以下规模投标 |
二、功能矩阵总览
┌─────────────────────────────────────────────────────────────────────┐
│ 运维监控管理系统 │
├──────────────┬──────────────┬──────────────┬──────────────────────┤
│ 监控引擎层 │ 数据管理层 │ 运维管理层 │ 展示层 │
│ (Zabbix) │ (CMDB等) │ (工单/流程) │ (大屏/报表) │
└──────────────┴──────────────┴──────────────┴──────────────────────┘
| 分类 |
功能模块 |
Zabbix原生 |
二次开发 |
MVP优先 |
| 监控引擎 |
指标采集 |
✅ |
|
|
| 监控引擎 |
告警触发 |
✅ |
|
|
| 监控引擎 |
自动发现(LLD) |
✅ |
|
|
| 监控引擎 |
分布式采集 |
✅ |
|
|
| 监控引擎 |
网络拓扑监控 |
✅ |
|
|
| 监控引擎 |
Web 监控 |
✅ |
|
|
| 数据管理 |
资产清单(Inventory) |
✅ |
|
✅ |
| 数据管理 |
CMDB 配置管理 |
❌ |
✅ |
✅ |
| 数据管理 |
IP 地址管理(IPAM) |
❌ |
✅ |
|
| 数据管理 |
机房机柜视图 |
❌ |
✅ |
|
| 告警管理 |
告警收敛(依赖+抑制) |
✅ |
|
✅ |
| 告警管理 |
告警聚合(多触发器合并) |
⚠️ |
✅ |
✅ |
| 告警管理 |
告警升级机制 |
⚠️ |
✅ |
✅ |
| 告警管理 |
告警值班表 |
❌ |
✅ |
|
| 告警管理 |
告警统计分析 |
⚠️ |
✅ |
✅ |
| 工单管理 |
工单创建与分派 |
❌ |
✅ |
✅ |
| 工单管理 |
工单审批流程 |
❌ |
✅ |
|
| 工单管理 |
故障评级(P0-P4) |
❌ |
✅ |
✅ |
| 工单管理 |
故障复盘(RCA) |
❌ |
✅ |
|
| 运维自动化 |
批量脚本执行 |
❌ |
✅ |
|
| 运维自动化 |
告警自动修复 |
❌ |
✅ |
|
| 运维自动化 |
一键巡检 |
❌ |
✅ |
|
| SLA 管理 |
服务级别定义 |
✅ |
|
✅ |
| SLA 管理 |
可用性计算 |
✅ |
|
✅ |
| SLA 管理 |
SLA 报告生成 |
⚠️ |
✅ |
✅ |
| 知识库 |
故障案例沉淀 |
❌ |
✅ |
|
| 知识库 |
SOP 标准手册 |
❌ |
✅ |
|
| 知识库 |
告警知识关联 |
❌ |
✅ |
|
| 变更管理 |
变更申请与审批 |
❌ |
✅ |
|
| 变更管理 |
变更风险评估 |
❌ |
✅ |
|
| 日志管理 |
日志收集与检索 |
❌ |
✅ |
|
| 日志管理 |
日志告警 |
❌ |
✅ |
|
| 系统管理 |
用户权限(RBAC) |
✅ |
|
✅ |
| 系统管理 |
操作审计日志 |
⚠️ |
✅ |
✅ |
| 系统管理 |
LDAP/AD 单点登录 |
✅ |
|
✅ |
| 系统管理 |
集群管理 |
❌ |
✅ |
|
| 展示层 |
监控大屏 |
⚠️ |
✅ |
✅ |
| 展示层 |
运维报表 |
⚠️ |
✅ |
✅ |
| 展示层 |
移动端小程序 |
❌ |
✅ |
|
图例:✅ 完全支持 ⚠️ 部分支持/需配置 ❌ 不支持
三、Zabbix 原生功能(直接可用)
以下功能基于 Zabbix 7.0 Enterprise 版本的原生能力,无需额外开发,投标文件中可作为产品能力直接引用。
3.1 监控采集引擎
| 功能 |
能力描述 |
投标表述 |
| Agent 监控 |
Zabbix Agent(主动/被动)、Agent 2(支持插件扩展) |
支持 Linux/Windows/Unix 全平台,资源占用 < 3% |
| SNMP 监控 |
SNMP v1/v2c/v3,支持 Traps 和 Polling |
兼容所有主流网络设备厂商(华为/华三/思科/锐捷) |
| IPMI 监控 |
硬件物理服务器 BMC 远程管理 |
支持 IPMI 2.0,监控服务器硬件状态(温度/风扇/电源) |
| JMX 监控 |
支持 Java 应用(JVM/中间件) |
内置 Zabbix Java Gateway |
| HTTP 监控 |
RestAPI / Web 页面可用性监控 |
支持登录态保持、JSON 响应校验 |
| SSH/LDAP 监控 |
通过 SSH 执行命令采集数据 |
支持无 Agent 场景 |
| Prometheus 集成 |
接入 Prometheus Exporter 数据 |
支持 200+ 社区 Exporter |
| 流计算架构 |
TimescaleDB 时序引擎,支持千万级指标 |
单 Server 支持 30000+ NPS |
3.2 告警与事件
| 功能 |
能力描述 |
投标表述 |
| 触发器引擎 |
任意表达式组合(and/or/优先级/时间) |
支持复杂业务逻辑告警 |
| 依赖触发器 |
触发器层级依赖关系(父→子) |
核心能力:根因告警自动抑制衍生告警 |
| 事件抑制 |
手动标记已知问题,抑制重复告警 |
支持维护窗口自动抑制 |
| 告警恢复 |
Trigger 恢复后自动发送恢复通知 |
支持恢复消息通知 |
| 多媒介告警 |
Email / SMS / Slack / 企业微信 / 钉钉 / 自定义脚本 |
支持任意告警通道 |
| 告警升级(Escalation) |
告警未确认时按时间逐级升级 |
内置 6 级升级链 |
| 宏变量 |
支持 {HOST.IP} / {ITEM.LASTVALUE} 等 200+ 变量 |
告警内容灵活定制 |
| 示警事件 |
Problem → Acknowledged → Updated 全流程 |
操作有记录可追溯 |
3.3 自动发现(LLD)
| 功能 |
能力描述 |
投标表述 |
| 网络发现 |
按 IP 段扫描,自动发现 Agent/SNMP 设备 |
支持定时自动发现 |
| Zabbix Agent 自动注册 |
新增主机自动上报并加入监控 |
支持自动注册动作(远程命令/脚本) |
| LLD 监控项原型 |
动态发现磁盘/网卡/进程/容器等 |
支持 JSON 输出格式 |
| LLD 过滤器 |
按正则/宏变量过滤发现结果 |
灵活筛选目标 |
| 原型预处理 |
发现时自动执行数据转换 |
降低数据处理复杂度 |
3.4 资产清单(Inventory)
| 功能 |
能力描述 |
投标表述 |
| 主机资产字段 |
17 个标准字段 + 无限自定义字段 |
可作为轻量级 CMDB 使用 |
| 自动填充 |
监控项值自动写入资产字段 |
减少人工录入 |
| 资产视图 |
列表/详情/拓扑视图 |
支持导出 Excel |
3.5 服务级别管理(SLM)
| 功能 |
能力描述 |
投标表述 |
| 服务树 |
定义业务服务层级结构 |
支持多级业务拓扑 |
| SLA 定义 |
为每个服务定义可用性/响应时间/错误率目标 |
支持 99.99% 等精确目标 |
| SLA 计算 |
基于监控数据实时计算 SLA 达标率 |
自动生成 SLA 报告 |
| 服务可用性仪表盘 |
服务健康状态实时展示 |
支持大屏展示 |
3.6 权限与认证
| 功能 |
能力描述 |
投标表述 |
| 用户组 |
多级用户组 + 主机组权限矩阵 |
精细化权限控制 |
| 角色(Role) |
Admin / Super Admin / User / Guest |
支持自定义角色 |
| LDAP 集成 |
支持 LDAP / Active Directory 对接 |
支持 SSO 单点登录 |
| JWT Token |
API 认证令牌 |
支持第三方系统集成 |
3.7 分布式监控
| 功能 |
能力描述 |
投标表述 |
| Zabbix Proxy |
边缘节点代理采集,降低网络依赖 |
支持 10000+ 分布式节点 |
| 被动/主动 Proxy |
主动模式减少 Server 压力 |
支持离线缓存,断网不断监控 |
| 节点监控 |
Zabbix Server / Proxy 状态互监控 |
高可用架构支持 |
3.8 报表与 API
| 功能 |
能力描述 |
投标表述 |
| 内置报表 |
告警统计/资源趋势/最繁忙主机 |
标准运维报表 |
| Schedule Report |
定时生成 PDF/Excel 报表并邮件发送 |
支持周期性自动推送 |
| REST API |
全功能 API(CRUD + 告警操作) |
开放 500+ API 接口 |
| Webhooks |
告警事件触发外部系统调用 |
原生集成 20+ 外部工具 |
四、二次开发功能(需要外购/自研)
4.1 MVP 版本(核心交付能力)
目标:交付一个可用、完整闭环、能投标的最小产品集
交付规模:支持 500 节点以下政企项目
开发周期:预计 6-8 周(含前后端开发)
【M1】CMDB 配置管理数据库
功能清单:
| 功能 |
描述 |
优先级 |
| 资产录入 |
支持手动录入、批量导入(Excel/CSV) |
P0 |
| Zabbix 同步 |
调用 Zabbix API 自动同步主机为资产记录 |
P0 |
| 资产分类 |
服务器/网络/存储/软件/云资源五大类 |
P0 |
| 资产属性 |
hostname/IP/SN/厂商/型号/采购日期/保修期/责任人 |
P0 |
| 资产标签 |
支持多维度标签(业务/环境/部门) |
P1 |
| 资产查询 |
全文搜索 + 高级筛选 |
P1 |
| 资产变更记录 |
记录每次变更的内容、时间、操作人 |
P1 |
| 资产导出 |
支持 Excel 导出 |
P2 |
| 资产照片 |
上传设备实物照片/机柜照片 |
P2 |
数据模型:
资产表(asset)
├── id(主键)
├── asset_name(资产名称)
├── asset_type(类型:服务器/网络/存储/软件/云资源)
├── sn(序列号)
├── vendor(厂商)
├── model(型号)
├── purchase_date(采购日期)
├── warranty_expire(保修到期)
├── idc(机房)
├── cabinet(机柜)
├── cabinet_position(机柜位置)
├── business_id(关联业务系统)
├── department_id(归属部门)
├── owner_id(责任人)
├── tags(标签,JSON格式)
├── status(状态:在用/维修/退役)
├── zabbix_hostid(关联Zabbix主机ID)
├── ip_address(管理IP)
├── created_at / updated_at
└── memo(备注)
业务系统表(business)
├── id
├── business_name(业务名称)
├── business_level(SLA等级:关键/重要/一般)
├── description
└── owner_department
资产变更记录表(asset_changelog)
├── id
├── asset_id
├── change_type(create/update/delete)
├── change_field(字段名)
├── old_value
├── new_value
├── operator_id
└── operated_at
与 Zabbix 联动:
定时任务(每小时):
Zabbix API → 获取新增主机列表 → 对比CMDB → 无记录则自动创建资产
【M2】告警聚合与收敛平台
功能清单:
| 功能 |
描述 |
优先级 |
| 告警收集 |
从 Zabbix API 实时拉取告警 |
P0 |
| 告警去重 |
相同 host+trigger 的告警合并为1条 |
P0 |
| 告警聚合 |
按业务系统/主机分组聚合 |
P0 |
| 根因分析 |
基于触发器依赖关系识别根因 |
P0 |
| 告警标记 |
标记告警状态(活跃/已确认/已解决/已抑制) |
P0 |
| 告警升级 |
超时未确认则升级(升级给组长/经理) |
P1 |
| 告警指派 |
手动指派告警处理人 |
P1 |
| 告警统计 |
告警数量/趋势/TOP排名 |
P0 |
| 告警备注 |
处理过程中添加备注信息 |
P1 |
| 微信/短信通知 |
通过 Webhook 发送告警通知 |
P0 |
告警收敛规则配置:
收敛规则示例:
rule_1:
name: "主机不可达收敛"
type: "by_host" # 按主机聚合
suppress_by: "trigger_dep" # 依赖触发器抑制
max_wait: 300 # 最大等待5分钟
rule_2:
name: "业务系统告警聚合"
type: "by_business" # 按业务系统聚合
tags_match: "business:*" # 按标签匹配
aggregation: "count+summary" # 数量+摘要
与 Zabbix 联动:
Zabbix Trigger 触发
↓
告警Webhook → 推送到告警收敛平台
↓
收敛引擎处理(去重/聚合/抑制)
↓
发送最终告警(邮件/企微/短信)
↓
可选择创建工单
【M3】轻量级工单系统
功能清单:
| 功能 |
描述 |
优先级 |
| 工单创建 |
从告警自动创建 / 手动创建 |
P0 |
| 工单模板 |
预设故障处理模板(磁盘满/服务挂/网络丢包) |
P1 |
| 工单分派 |
按资产归属/业务系统自动分派 |
P0 |
| 处理记录 |
记录处理过程(时间线展示) |
P0 |
| 状态流转 |
待处理 → 处理中 → 待验证 → 已关闭 |
P0 |
| 故障评级 |
P0(紧急)/ P1(严重)/ P2(一般)/ P3(低) |
P0 |
| 附件上传 |
支持截图/日志/配置文件上传 |
P1 |
| 满意度评价 |
处理完成后由上报人评价 |
P2 |
| 关联告警 |
工单与告警记录关联 |
P0 |
| 关联资产 |
工单与 CMDB 资产关联 |
P0 |
工单流程:
┌────────┐ ┌────────┐ ┌────────┐ ┌────────┐ ┌────────┐
│ 待处理 │───→│ 处理中 │───→│待验证 │───→│ 已关闭 │───→│ 归档 │
└────────┘ └────────┘ └────────┘ └────────┘ └────────┘
│ │ │
│ ▼ ▼
│ ┌────────┐ ┌────────┐
└────────→│ 已挂起 │←───┤ 驳回 │
└────────┘ └────────┘
与 Zabbix 联动:
告警触发 → 收敛后发送通知
↓
用户点击"创建工单"
↓
自动填充:告警信息 + 关联资产(来自CMDB)+ 当前处理人
↓
工单处理 → 完成后 → 自动关闭关联告警
【M4】监控大屏(可视化驾驶舱)
功能清单:
| 功能 |
描述 |
优先级 |
| 模板大屏 |
提供 5 种行业模板(政务/医疗/金融/教育/企业) |
P0 |
| 监控总览 |
告警数量/在线主机/SLA状态/巡检结果 |
P0 |
| 业务视图 |
按业务系统展示健康状态 |
P0 |
| 告警大屏 |
实时告警列表 + 趋势 |
P0 |
| 资源使用 |
CPU/内存/磁盘/网络 TOP10 |
P1 |
| 自定义拖拽 |
拖拽式编辑大屏组件 |
P2 |
| 大屏导出 |
导出为图片/PDF |
P2 |
| 大屏投影 |
支持大屏模式(全屏/分屏) |
P1 |
技术方案:
前端:Vue3 + AntV G2 / ECharts
后端:调用 Zabbix API 获取数据
部署:Docker 独立部署,不影响 Zabbix Server
【M5】操作审计日志
功能清单:
| 功能 |
描述 |
优先级 |
| 操作记录 |
记录所有用户在平台上的操作 |
P0 |
| 记录字段 |
用户/时间/IP地址/操作类型/对象/结果/详情 |
P0 |
| 操作类型 |
登录/退出/查看/新增/修改/删除/审批/执行 |
P0 |
| 日志查询 |
支持时间范围/操作人/操作类型/关键词查询 |
P0 |
| 日志导出 |
支持按条件导出审计日志 |
P1 |
| 合规报表 |
等保合规审计报告(支持导出) |
P1 |
【M6】RBAC 权限管理(增强)
功能清单:
| 功能 |
描述 |
优先级 |
| 角色定义 |
管理员/运维工程师/只读用户/工单处理人 |
P0 |
| 菜单权限 |
按角色控制菜单可见性 |
P0 |
| 数据权限 |
按资产分组/业务系统控制数据可见范围 |
P0 |
| 操作权限 |
按角色控制新增/编辑/删除/审批权限 |
P0 |
| 敏感操作二次验证 |
删除/审批等操作需二次确认 |
P1 |
| LDAP 自动同步 |
LDAP 用户自动同步到本系统 |
P1 |
4.2 V2.0 版本(增强能力)
目标:提升运营效率,增加高级运维能力
开发周期:预计 8-10 周
【V2-1】IPAM(IP 地址管理)
| 功能 |
描述 |
| IP 地址段管理 |
按机房/VLAN 管理 IP 段 |
| IP 分配记录 |
谁在什么时间分配了哪个 IP |
| 冲突检测 |
IP 分配时自动检测冲突 |
| 闲置 IP 告警 |
长期未使用的 IP 触发告警 |
| 子网计算 |
支持子网掩码计算/CIDR 运算 |
| 与 Zabbix 联动 |
IP 分配时自动在 Zabbix 创建主机 |
【V2-2】机房机柜可视化
| 功能 |
描述 |
| 机房视图 |
机房 2D 平面图 |
| 机柜视图 |
机柜内设备位置可视化 |
| 设备上架引导 |
新设备自动计算最佳上架位置 |
| 容量预警 |
机柜空间/电力/温度容量预警 |
| 资产定位 |
输入 IP/主机名快速定位设备位置 |
【V2-3】变更管理
| 功能 |
描述 |
| 变更申请 |
填写变更内容/时间/影响范围/回滚方案 |
| 变更分级 |
标准变更/紧急变更/重大变更 |
| 审批流程 |
申请人 → 组长 → 经理 → CTO 多级审批 |
| 变更日历 |
展示未来变更计划 |
| 变更验证 |
变更完成后输入验证结果 |
| 关联告警 |
变更期间自动抑制相关告警 |
| 变更总结 |
变更完成率/成功率统计 |
【V2-4】值班管理
| 功能 |
描述 |
| 排班表 |
月度/周排班表 |
| 值班提醒 |
值班当天提前通知 |
| 值班交接 |
交接记录自动同步 |
| 值班统计 |
每人处理告警数量/工单数量统计 |
| 值班补贴 |
加班/值班补贴记录(可选) |
【V2-5】SLA 报告增强
| 功能 |
描述 |
| SLA 月报 |
每月 SLA 达标率汇总 |
| SLA 趋势图 |
SLA 达标率历史趋势 |
| 业务健康度 |
综合可用性/性能/容量计算健康度评分 |
| MTTR 统计 |
平均故障恢复时间统计 |
| MTBF 统计 |
平均故障间隔时间统计 |
| 报告自动推送 |
定时邮件推送报告 |
【V2-6】一键巡检
| 功能 |
描述 |
| 巡检模板 |
预定义巡检项(CPU/内存/磁盘/服务/证书) |
| 巡检任务 |
定时触发 or 手动触发 |
| 巡检结果 |
结果入库 + 与上次对比(差量分析) |
| 巡检报告 |
自动生成巡检报告(Word/Excel) |
| 异常告警 |
巡检异常项自动创建告警 |
4.3 V3.0 版本(高级能力)
目标:智能化运维、运营能力成熟化
开发周期:预计 12-16 周
【V3-1】告警响应自动化(Auto Remediation)
设计原则:监控平台不直接执行高风险操作,通过集成堡垒机/API实现可控的自动化响应
场景一:低风险操作(自动执行)
| 操作类型 |
示例 |
执行方式 |
| 服务/进程重启 |
systemctl restart nginx |
自动执行 |
| 日志清理 |
清理7天前的日志文件 |
自动执行 |
| 告警抑制 |
进入维护窗口,自动添加维护期 |
自动执行 |
| 巡检触发 |
定时巡检任务手动触发 |
自动执行 |
特点:幂等、可逆、不影响业务,执行后自动验证结果并记录日志
场景二:高风险操作(审批后执行)
告警触发 → 系统诊断 → 生成修复建议 → 推送审批通知
↓
运维确认(点击/回复YES) → 调用堡垒机API执行 → 结果通知
| 操作类型 |
示例 |
执行方式 |
| 配置文件修改 |
修改 nginx.conf |
审批后执行 |
| 数据删除/清理 |
删除用户/清空表 |
审批后执行 |
| 系统参数调整 |
修改内核参数 |
审批后执行 |
| 用户权限变更 |
添加/删除系统用户 |
审批后执行 |
集成方式:
| 集成对象 |
说明 |
| Jumpserver |
主流开源堡垒机,支持 API 创建执行任务 |
| Ansible Tower / AWX |
企业级 Playbook 执行 |
| 自研堡垒机 |
提供 SDK 对接,支持私有化场景 |
修复脚本库:
脚本仓库(Script Repository)
├── 操作系统类
│ ├── 磁盘清理(按类型/天数)
│ ├── 服务重启(systemd/initd)
│ ├── 进程拉起
│ └── 内存释放
├── 数据库类
│ ├── MySQL 连接池重启
│ └── PostgreSQL 锁释放
├── 中间件类
│ ├── Nginx reload
│ └── Redis 内存降级
└── 自定义脚本
└── 支持客户上传自研脚本(需审核)
执行审计:所有操作(无论自动还是审批后)均记录完整日志,含执行时间、执行人、脚本内容、执行输出、结果状态,满足等保审计要求
【V3-2】知识库
| 功能 |
描述 |
| 故障案例库 |
告警处理完成后自动沉淀案例 |
| 案例检索 |
按关键词/告警类型/资产类型搜索 |
| SOP 手册 |
上传/编写标准操作手册 |
| FAQ |
常见问题知识库 |
| 智能推荐 |
处理告警时自动推荐相关案例 |
| 案例评分 |
用户对案例有用性评分 |
【V3-3】故障复盘(RCA)
| 功能 |
描述 |
| RCA 报告模板 |
重大故障(P0/P1)自动触发复盘 |
| 根因分析 |
引导式填写(5Why分析法) |
| 改进措施 |
关联待办任务,跟踪改进落地 |
| 无责怪文化 |
匿名上报通道(可选) |
| 故障历史 |
所有 RCA 报告归档查询 |
【V3-4】日志管理
| 功能 |
描述 |
| 日志采集 |
Agent / Syslog / API 多方式采集 |
| 日志存储 |
ElasticSearch 存储(可选开源方案) |
| 日志检索 |
DSL 查询语法 + 可视化查询构建 |
| 日志告警 |
关键字匹配触发告警 |
| 告警关联 |
同一时间线展示日志+告警+工单 |
【V3-5】多租户隔离
| 功能 |
描述 |
| 租户隔离 |
数据完全隔离,支持 SaaS 部署 |
| 租户配额 |
租户内资源配额限制(主机数/告警数) |
| 租户计费 |
按用量计费(可选) |
| 租户自助 |
租户管理员自主管理本租户用户 |
【V3-6】移动端小程序
| 功能 |
描述 |
| 告警推送 |
实时接收告警通知 |
| 告警处理 |
确认/转派/备注/关闭 |
| 工单审批 |
移动端审批变更申请 |
| 大屏查看 |
移动端查看监控大屏 |
| 知识库查询 |
快速查询故障处理方法 |
五、技术架构
5.1 整体架构
┌─────────────────────────────────────────────────────────────────┐
│ 客户端层 │
│ Web浏览器 / 移动端小程序 / 大屏展示 / 钉钉/企微/邮件 │
└────────────────────────────┬────────────────────────────────────┘
│ HTTPS
┌─────────────────────────────▼────────────────────────────────────┐
│ API 网关层 │
│ Nginx(反向代理 + 负载均衡) │
└────────────────────────────┬────────────────────────────────────┘
│
┌─────────────────────────────▼────────────────────────────────────┐
│ 应用服务层(微服务) │
│ ┌──────────┐ ┌──────────┐ ┌──────────┐ ┌──────────┐ │
│ │ CMDB │ │ 告警收敛 │ │ 工单 │ │ 大屏 │ │
│ │ 服务 │ │ 服务 │ │ 服务 │ │ 服务 │ │
│ └──────────┘ └──────────┘ └──────────┘ └──────────┘ │
│ ┌──────────┐ ┌──────────┐ ┌──────────┐ ┌──────────┐ │
│ │ 用户权限 │ │ 审计日志 │ │ 知识库 │ │ 自动化 │ │
│ │ 服务 │ │ 服务 │ │ 服务 │ │ 服务 │ │
│ └──────────┘ └──────────┘ └──────────┘ └──────────┘ │
└────────────────────────────┬────────────────────────────────────┘
│
┌─────────────────────────────▼────────────────────────────────────┐
│ 数据存储层 │
│ PostgreSQL(15+)│ TimescaleDB(Zabbix) │ Redis(缓存) │
└────────────────────────────┬────────────────────────────────────┘
│
┌─────────────────────────────▼────────────────────────────────────┐
│ Zabbix Server 7.0 │
│ (监控引擎 + 告警触发 + LLD + API) │
└────────────────────────────┬────────────────────────────────────┘
│
┌─────────────────────────────▼────────────────────────────────────┐
│ 采集层(被监控对象) │
│ Zabbix Agent / Agent2 / Proxy / SNMP / IPMI / JMX / HTTP │
└─────────────────────────────────────────────────────────────────┘
5.2 技术栈选型
| 层级 |
技术选型 |
说明 |
| 前端 |
Vue3 + Ant Design Vue + ECharts |
企业级 UI,Ant Design 生态成熟 |
| 后端 |
Python 3.10+ / FastAPI |
高效开发,协程支持好,适合运维场景 |
| Zabbix 集成 |
python-zabbix-utils(官方工具包) |
Zabbix 官方 Python SDK,稳定兼容 |
| 数据库 |
PostgreSQL 15+ / 达梦 / 人大金仓 |
兼容国产数据库,JSONB 适合半结构化数据 |
| 缓存 |
Redis 7.0 |
告警收敛缓存/会话缓存 |
| 消息队列 |
Redis Stream / RabbitMQ |
告警异步处理,轻量可选 |
| 容器 |
Docker(Docker Compose) |
一键部署,单机即可运行 |
| 操作系统 |
银河麒麟 V10 / 统信 UOS / 华为欧拉 / CentOS / Ubuntu |
国产 OS 适配 |
5.3 部署方式
| 部署规模 |
节点数 |
适用场景 |
| 单机部署 |
1台 |
POC / 100节点以下 |
| 主备部署 |
2台 |
100-500节点 |
| 集群部署 |
3台+ |
500节点以上(横向扩展 Zabbix Proxy) |
六、产品版本路线图
2026年
Q2 Q3 Q4 Q1(2027)
┌─────────┐ ┌─────────┐ ┌─────────┐ ┌─────────┐
│ MVP │ │ V2.0 │ │ V3.0 │ │ 商业化 │
│ 发布 │ │ 发布 │ │ 发布 │ │ 完善 │
└────┬────┘ └────┬────┘ └────┬────┘ └────┬────┘
│ │ │ │
▼ ▼ ▼ ▼
核心功能 增强能力 智能运维 生态完善
CMDB IPAM 自动修复 移动端
告警收敛 机房可视化 知识库 多租户
工单系统 变更管理 故障复盘 SaaS
大屏 值班管理 日志管理
审计日志 SLA报告
权限管理 一键巡检
七、投标功能对照表
政企投标常见评分维度与本产品功能对照
| 投标评分项 |
分值参考 |
本产品对应功能 |
证明材料 |
| 监控能力 |
15-20分 |
Zabbix 7.0 全功能 |
Zabbix 原厂授权函 |
| 告警管理 |
10-15分 |
告警收敛/聚合/升级 |
产品功能截图 |
| CMDB 资产 |
10-15分 |
CMDB 模块 |
功能演示 |
| 工单管理 |
8-12分 |
工单系统 |
功能演示 |
| 自动化 |
8-10分 |
一键巡检/自动修复 |
V2/V3 规划文档 |
| 大屏报表 |
5-8分 |
可视化大屏 |
Demo 演示 |
| 权限审计 |
5-8分 |
RBAC + 审计日志 |
等保测评报告 |
| 国产化 |
8-10分 |
国产 OS/DB 适配 |
适配证明 |
| 部署便捷 |
5-8分 |
Docker 一键部署 |
部署文档 |
| 文档培训 |
5-8分 |
完整文档 + 培训 |
交付文档清单 |
八、附录
附录 A:术语表
| 术语 |
说明 |
| CMDB |
Configuration Management Database,配置管理数据库 |
| LLD |
Low-Level Discovery,低级自动发现 |
| SLA |
Service Level Agreement,服务级别协议 |
| MTTR |
Mean Time To Repair,平均故障恢复时间 |
| MTBF |
Mean Time Between Failures,平均故障间隔时间 |
| RCA |
Root Cause Analysis,根因分析 |
| RBAC |
Role-Based Access Control,基于角色的访问控制 |
| IPAM |
IP Address Management,IP 地址管理 |
| Auto Remediation |
告警自动修复 |
附录 B:参考标准
- ITIL v4(IT 服务管理框架)
- 等保 2.0(二级/三级)
- ISO 27001(信息安全管理)
- Zabbix 7.0 官方文档
附录 C:竞品对比
| 功能项 |
本产品 |
某某监控 |
某某云 |
Zabbix 原生 |
| 监控采集 |
✅ |
✅ |
✅ |
✅ |
| CMDB |
✅ |
⚠️ |
❌ |
❌ |
| 告警收敛 |
✅ |
✅ |
✅ |
⚠️ |
| 工单系统 |
✅ |
⚠️ |
❌ |
❌ |
| 国产化适配 |
✅ |
⚠️ |
⚠️ |
❌ |
| 一键部署 |
✅ |
✅ |
✅ |
❌ |
| 二次开发 |
简单 |
复杂 |
不支持 |
支持 |
| 投标成本 |
低 |
高 |
高 |
中 |
文档编写:AI 助手 🦞
联系方式:飞书
文档密级:内部使用