首充送50%
续费低至5折
AWS CDN 1折购
免费代充值
免费选购指南
免费协助迁移

阿里云发现和排查实例问题

2023-07-31

合理使用监控相关的功能可以帮助您及时发现和排查实例问题,在故障发生前处理掉潜在风险,避免影响业务。

诊断实例的健康状态

实例健康诊断功能可以全方位诊断实例的操作系统配置、网络状态、磁盘状态等,诊断报告中针对异常诊断项目的影响区分严重程度,并提供修复方案,方便您及时处理潜在风险。

diagnostic-instance

及时处理系统事件

在系统将执行某些运维动作或检测到了某些异常,判断会影响实例正常运行时,会自动发送系统事件。系统事件中会同时提供应对措施、事件周期等信息,建议您及时处理系统事件,避免实例重启、停止等可能后果影响您的业务。

通知包年包月实例到期的系统事件示例如下图所示。

事件

请确保在消息中心开启接收ECS到期通知、产品运维通知、ECS故障通知等消息相关的站内信,否则在ECS管理控制台将不能收到系统事件,设置页面如下图所示。

noti

关注实例运行指标

阿里云收集并展示实例运行指标,供您了解实例的实时和历史运行情况。您可以基于运行指标判断实例运行是否正常,例如CPU使用率持续偏高时,可能需要排查是否存在异常进程或者实例配置过低。

您可以在ECS控制台的实例详情页面或者云监控控制台的主机监控页面查看实例运行指标。

  • ECS控制台的实例详情页面中展示的运行指标如下:

instance-monitoring

  • 云监控控制台的主机监控页面中展示的运行指标如下:

cloudmonitor-host

利用报警服务自动通知

使用云监控的报警服务,您可以针对关注的事件或者实例运行指标设置报警规则,在发生指定事件或实例运行指标出现异常时,自动以邮件等方式通知到联系人,减轻人工运维压力。

针对事件的报警规则示例如下所示。

event-alert

针对实例运行指标的报警规则示例如下所示。

host-alert