mysql异常报警如何配置_监控告警方案

MySQL异常报警需覆盖连接状态、复制健康、性能瓶颈、资源水位四类关键指标;小团队可用Shell脚本+crontab轻量兜底,中大型生产环境推荐Prometheus+mysqld_exporter+Alertmanager或开箱即用的PMM。

MySQL异常报警的核心是“及时发现 + 准确定位 + 快速通知”。不依赖单一工具,而是按实际环境选择适配方案:小团队可用脚本快速落地,中大型生产环境推荐 Prometheus 或 PMM 这类可观测性平台。

监控关键指标必须覆盖这四类

无论用哪种方案,以下指标是告警基础,缺一不可:

  • 连接状态:Threads_connected(连接数突增/耗尽)、Aborted_connects(异常连接失败)
  • 复制健康:Slave_IO_Running / Slave_SQL_Running 是否为 Yes;Seconds_Behind_Master 超过 60 秒需预警;Last_IO_Error / Last_SQL_Error 有内容即触发告警
  • 性能瓶颈:Innodb_row_lock_waits(锁等待飙升)、Created_tmp_disk_tables(磁盘临时表过多)、Slow_queries(慢查询数量分钟级增长)
  • 资源水位:Innodb_buffer_pool_usage(缓冲池使用率 >95%)、Uptime(实例意外重启)

轻量级:Shell脚本 + crontab 实时兜底

适合测试环境、临时应急或作为主监控的补充。原理简单:每分钟执行一次 SQL 检查,结果异常就发通知。

  • 创建专用监控用户:CREATE USER 'monitor'@'localhost' IDENTIFIED BY 'safe_pass'; GRANT PROCESS, REPLICATION CLIENT ON *.* TO 'monitor'@'localhost'; FLUSH PRIVILEGES;
  • 写检查脚本(如 /opt/bin/check_mysql.sh),核心逻辑示例:
    mysql -u monitor -psafe_pass -e "SHOW SLAVE STATUS\G" 2>/dev/null | grep -E "(Slave_IO_Running|Slave_SQL_Running|Seconds_Behind_Master)" | awk '{print $2}' | head -3 | while read v; do [[ "$v" != "Yes" && "$v" != ~^[0-9]+$ ]] && echo "REPL ERROR" && exit 1; done
  • 结合企业微信机器人:脚本末尾加 curl -X POST "https://qyapi.weixin.qq.com/...?access_token=xxx" -H "Content-Type: application/json" -d '{"msgtype":"text","text":{"content":"MySQL复制中断!"}}'
  • 加入定时任务:* * * * * /opt/bin/check_mysql.sh >/dev/null 2>&1

生产级:Prometheus + mysqld_exporter + Alertmanager

这是目前最稳定、可扩展性最强的方案,支持多实例、历史趋势、多维下钻和分级告警。

  • 部署 exporter:下载二进制,用最小权限账号启动(配置文件 mysqld_exporter.cnf 中指定 user/password/socket)
  • Prometheus 配置抓取:在 prometheus.ymlscrape_configs 下添加:
    - job_name: 'mysql'
      static_configs:
      - targets: ['192.168.1.100:9104']
  • 定义告警规则alert_rules.yml):
    groups:
    - name: mysql_alerts
      rules:
      - alert: MySQLReplicationLagHigh
        expr: mysql_slave_seconds_behind_master{job="mysql"} > 60
        for: 2m
        labels:
          severity: warning
        annotations:
          summary: "MySQL 主从延迟超过 60 秒"
  • Alertmanager 配置通知渠道:支持邮件、Webhook(钉钉/企微)、PagerDuty 等,可设置静默期、分组合并、升级通知

开箱即用型:Percona Monitoring and Management(PMM)

对 DBA 友好,尤其适合 MySQL 专项深度监控,内置 QAN(Query Analytics)、慢日志自动分析、复制延迟可视化图表。

  • 服务端用 Docker 启动:docker run -d -p 80:80 -p 443:443 --name pmm-server --restart always percona/pmm-server:2
  • 客户端安装后执行:pmm-admin add mysql --username=monitor --password=safe_pass --host=127.0.0.1 mydb
  • 登录 Web 控制台(http://pmm-server-ip),在 “Alerting” 页面直接启用预置规则,或自定义阈值并绑定 Alertmanager
  • 优势明显:无需手动写 exporter 配置、不用调 prometheus.yml、QPS/TPS/锁等待等面板开箱即见