处理时间 | 处理记录 | 处理人 |
---|---|---|
20210721-10:29 | 远程调试发现事件管理器异常与dmp日志文件吻合,调取发现是python程序引起的蓝屏,怀疑是程序兼容性或资源过载,与硬件问题无关,告知学生后,学生表示理解; | 宋旭蒙 |
20210721-17:07 | 联系学生计划进一步处理蓝屏问题,学生表示其学弟目前在计算,需要一定的周期,目前没有蓝屏,告知学生有蓝屏问题及时联系; | 宋旭蒙 |
20210722-11:45 | 处理发现设备显卡驱动不是我们出厂的版本(471.41),而是(456.xx)版本过低,昨晚更新后,设备又发生蓝屏;发现cuda版本和pytorch使用cuda版本不吻合(cuda版本为10.0,pytorch调用cuda版本为10.2),故与学生沟通后,由我们用conda根据学生要求版本创建测试环境tensorflows-1.14 . pytorch1.2.0.python3.7.10(原先版本做了保留),目前测试正常,没有蓝屏; | 宋旭蒙 |
20210723-17:26 | 目前运行正常,没有蓝屏; | 宋旭蒙 |
20210726-17:00 | 学生今天没有联系我们; | 宋旭蒙 |
20210727-16:13 | 联系学生发现设备使用一直正常,学生联系我说希望将tensorflow-1.14+pytroch-1.12整合到一个环境里,这样比较好上报;结果发现整合过程中因版本兼容问题会蓝屏,官方也建议将环境用虚拟环境独立区分;各自独立环境的下设备运行正常;询问学生固态更换前,是怎么处理的;学生告知说固态更换前只有一个tensorflow环境,所以一直没有蓝屏;而我们将设备送去后,运行tensorflow正常,运行pytorch环境会蓝屏,之前发现是因为系统cuda版本是10,而学生安装的pytroch环境调用的是cuda11;由我们配置正确的cuda环境后,设备运行到至今都使用正常;故可以确认蓝屏不是硬件 | 宋旭蒙 |