| 处理时间 | 处理记录 | 处理人 |
|---|---|---|
| 1752051868554 | 远程查看系统日志无报错,显卡驱动版本为: 535.230.02,进行显卡测试,显卡温度到94左右,驱动会无法找到,nvidia-smi输出: Unable to determine the device handle for GPU0000:AF:00.0: Unknown Error | 刘建华 |
| 1752051979858 | 卸载重装显卡驱动,驱动版本为570.169,进行显卡测试,温度达到94左右,温度较高的那台,会出现nvidia-smi检测不到的情况 | 刘建华 |
| 1752052095490 | 但是nVidia,温度较低的那张,nvidia-smi一直有输出, | 刘建华 |
| 1752052149994 | 测试三次均是同样的情况,联系业务,设备拉回检测 | 刘建华 |
| 1752140591425 | 和李岳鹏去西电把设备拉回,机械拆下由客户保存,固态无法拆下,客户软件在/home/shuoxing 和固态无影响,已和客户说明 | 刘建华 |
| 1753695764295 | 两张显卡温度还是高,调换位置还是依旧上面那张会达到94 95摄氏度,前面板加小风扇无作用,机顶加12cm风扇作用很小,最后在显卡挡板上方追加两个小风扇温度控制在90摄氏度,测试半小时温度正常,没出现之前显卡因温度高而掉卡现象 | 刘建华 |
| 1753779196955 | 28号在显卡挡板处追加两个小风扇,温度控制在92 93左右,测试半小时无异常 | 刘建华 |
| 1753779282148 | 29号显卡旁边追加一个12cm风扇,保证在机箱打开的情况下,温度也能在合理范围内,不会掉卡,测试时长一小时 | 刘建华 |
| 1753868074180 | 现场把之前拆出的两块硬盘接回去,显卡测试15分钟无异常,之前测试不到5分钟就掉卡,给学生建议单卡调用,错峰使用显卡,尽可能避免双卡同时使用,双卡同时调用需要注意环境温度和显卡温度,学生已经买风扇了用来辅助空调给设备散热 | 刘建华 |
| 1753868424387 | 现场送货,客户已验收 | 李岳鹏 |