交换机
园区网交换机
数据中心与云计算交换机
行业精选交换系列
工业交换机
意图网络指挥官
无线
放装型无线接入点
墙面型无线接入点
智分无线接入点
室外无线接入点
场景化无线
无线控制器
行业精选无线系列
统一运维
身份管理
服务产品
运营商
政府
金融
互联网
制造业
高教/职教
医疗卫生
交通
公共安全
“运维实战家”专栏,从技术到实践,
和您聊聊运维的那些事儿,讲述运维人的“昨天、今天和明天”
本文作者 黄小湘
刚开学不久,最近小锐遇到老师在使用云桌面办公教学时候出现系统蓝屏问题,有的老师第一时间重启系统恢复了,有的老师电脑反复蓝屏重启,心情特别郁闷,我们该如何快速解决呢?
01
蓝屏问题是这样发生的!
小锐接到问题反馈是这样的:老师反馈近期VDI云桌面系统使用中经常出现蓝屏,重启能恢复。
蓝屏问题经常是因为Windows因系统环境安全问题、软件故障、硬件故障、驱动程序故障、网络故障等各种类型的故障产生了严重的错误,无法继续维持正常运行,系统为避免用户数据丢失及损坏计算机的考虑,将自动停止运行并显示“蓝屏”错误信息。
小锐第一点排查怀疑是否Window系统中毒导致蓝屏。小锐远程客户电脑,使用360安全卫士和杀毒软件扫描木马和病毒,扫描结果电脑没有中毒。
排除电脑中毒影响后,小锐也排除了硬件故障,VDI个别用户账号蓝屏不具备单体硬件故障条件。由于蓝屏故障原因复杂,软件故障,驱动异常等都无法直接判断,但是可以通过蓝屏事件生成的dmp文件分析具体是哪个程序或进程崩溃卡死。接着小锐工程师从客户电脑收集了C:\Windows\Minidump目录的蓝屏事件生成的dmp文件,使用常见简单版工具BlueScreenView进行初步分析原因。
打开工具BlueScreenView,选择“选项”->“高级选项”。
选择“加载单个MiniDump文件”,“浏览”保存的MiniDump文件(蓝屏MiniDump默认路径是C:\Windows\Minidump),这里文件夹dmp文件是基于系统默认小内存转储模式记录的内存数据。
查看调用堆栈开头几个组件名,分析引发原因。
从图上我们可以看到引起蓝屏的程序进程是i8042prt.sys,通过百度查询确认是键盘驱动崩溃导致蓝屏。
遇到如上这种第三方外设驱动异常,我们一般是建议向厂商确认外设驱动版本和Windows版本、位数是否兼容,或尝试更新这些设备驱动(通过厂商、厂商网站、驱动精灵等)。
通过minidump文件分析,小锐工程师把故障原因缩小到第三方外设驱动导致异常,且老师反馈是近期频繁出现故障,小锐工程师怀疑老师近期是否新增使用了外设或者更新了不稳定的外设驱动造成冲突。经过与老师了解,老师近期的确安装了多个外接硬件设备驱动,并通过一些驱动软件进行安装。
证实了用户行为后,明确了问题原因,小锐工程师卸载了这些新增外设驱动,通过从外设官网提供的最新驱动进行更换安装后,云桌面使用不在出现蓝屏。
02
如何高效解决蓝屏问题?
云桌面蓝屏问题原因分类如下几类:
1) Window系统应用异常,常见:中毒,安全防护不足,驱动异常,软件冲突,补丁冲突等;
2) 第三方外设设备或驱动影响;
3) 硬件故障;
4) GT组件兼容问题影响。
方法一
云桌面出现蓝屏情况,优先推荐使用HALO工具->工具商店->千里眼定位工具方法排查或者使用工具箱屏蔽GT脚本验证测试。
方法二
可通过收集蓝屏dump文件分析精确分析定位原因。系统默认“小内存转储模式”文件收集(C:\Windows\Minidump)简单分析蓝屏故障触发进程,以及设置“核心内存转储模式”文件收集(C:\Windows\MEMORY.dmp)深入分析故障环境下内存状态和卡死原因。
设置核心内存转储:控制面板>系统和安全>系统>高级系统设置>高级>启动和故障恢复选项,写入调试信息设定“核心内存转储”。
注:
1、 如果引发蓝屏的组件是第三方软件,如360FsFlt、qqfrmmgr.sys等。卸载或升级该第三方软件。
2、如果引发蓝屏的组件是系统组件,如ntoskrnl、hal等。使用360安全卫士进行全盘杀毒和补丁修复,或者重新制作Windows镜像系统。
3、如果引发蓝屏的组件是云桌面相关组件,如RjDirProtect, RjProcessProtect, RjRegProtect, RjUsbFilter, HideUsbDev, qxl, VDFileFilter、RegFilter等。则联系4008111000热线进一步查证原因改善方案。
重点总结