硕星内部系统-技术部


西安电子科技大学王昱博   售后提交时间: 1752022695894  售后完成时间: 2025.07.30-18:25:16    打印


目前状态: 完成
负责业务: 赵晨楠
负责技术: 刘建华
业务电话: 18710960317
客户联系方式:
学生微信:pjm_ai_liumy
售后情况:
GPU频繁掉线,学生反馈出现pcie接口掉线的日志

处理记录   
处理时间处理记录处理人
1752051868554远程查看系统日志无报错,显卡驱动版本为: 535.230.02,进行显卡测试,显卡温度到94左右,驱动会无法找到,nvidia-smi输出: Unable to determine the device handle for GPU0000:AF:00.0: Unknown Error刘建华
1752051979858卸载重装显卡驱动,驱动版本为570.169,进行显卡测试,温度达到94左右,温度较高的那台,会出现nvidia-smi检测不到的情况刘建华
1752052095490但是nVidia,温度较低的那张,nvidia-smi一直有输出,刘建华
1752052149994测试三次均是同样的情况,联系业务,设备拉回检测刘建华
1752140591425和李岳鹏去西电把设备拉回,机械拆下由客户保存,固态无法拆下,客户软件在/home/shuoxing 和固态无影响,已和客户说明刘建华
1753695764295两张显卡温度还是高,调换位置还是依旧上面那张会达到94 95摄氏度,前面板加小风扇无作用,机顶加12cm风扇作用很小,最后在显卡挡板上方追加两个小风扇温度控制在90摄氏度,测试半小时温度正常,没出现之前显卡因温度高而掉卡现象刘建华
175377919695528号在显卡挡板处追加两个小风扇,温度控制在92 93左右,测试半小时无异常刘建华
175377928214829号显卡旁边追加一个12cm风扇,保证在机箱打开的情况下,温度也能在合理范围内,不会掉卡,测试时长一小时刘建华
1753868074180现场把之前拆出的两块硬盘接回去,显卡测试15分钟无异常,之前测试不到5分钟就掉卡,给学生建议单卡调用,错峰使用显卡,尽可能避免双卡同时使用,双卡同时调用需要注意环境温度和显卡温度,学生已经买风扇了用来辅助空调给设备散热刘建华
1753868424387现场送货,客户已验收李岳鹏