SQL Server 2008突发高IO Stall及查询阻塞问题排查求助
大型OLTP系统IO Stall骤升故障背景梳理
我先把你描述的系统环境和故障现象整理成结构化的细节,方便后续定位问题:
系统环境配置
- 数据库平台:SQL Server 2008 Enterprise SP4(版本号0.0.6547.0,x64架构)
- 操作系统:Windows Server 2012R2,已安装最新补丁
- 部署架构:运行于Cisco UCM刀片服务器(搭载6.0 Update 3及后续补丁)上的虚拟机
- 存储系统:Nimble CS700 SAN
- 系统资源配置:12 vCPU,作为大型OLTP系统,正常状态下CPU使用率维持在6-11%区间
故障现象
- 无预警突发IO Stall时间骤升至1000-2000ms,多数查询停止返回结果
- 借助Adam Machanic的
sp_whoisactive存储过程排查,发现有数十个活跃查询同时在运行 - CPU使用率飙升至90%以上,故障表现与SAN存储相关(原文此处未完整描述,暂保留现有信息)
内容的提问来源于stack exchange,提问作者John Tamburo




