监控工具使用说明
Prometheus · Zabbix · Grafana · 日志平台等
📊 Prometheus + Grafana
安装部署、指标采集、告警规则配置,仪表盘模板分享,支持K8s监控。
🔔 Zabbix 监控平台
网络设备监控模板、自定义触发器、邮件/钉钉告警配置详细步骤。
📁 ELK 日志分析平台
Filebeat采集、Logstash过滤、ES索引优化、Kibana可视化快速定位故障。
🖥️ 云原生监控 (Lens/K9s)
Kubernetes集群实时监控,资源利用率分析,Pod故障排查指南。
📌 监控告警最佳实践文档
包含监控指标分级、告警收敛策略、静默规则、故障自愈脚本示例。面向内部运维团队学习。
⬇️ 工具使用手册:PromQL常用查询语句、Zabbix API批量配置。
📊 PromQL 常用查询示例
# CPU使用率
100 - (avg(rate(node_cpu_seconds_total{mode="idle"}[5m])) * 100)
# 内存使用率
(1 - (node_memory_MemAvailable_bytes / node_memory_MemTotal_bytes)) * 100
# 磁盘使用率
(1 - (node_filesystem_avail_bytes / node_filesystem_size_bytes)) * 100