硕星内部系统-技术部


西安交通大学常春然3   售后提交时间: 20230131-12:00  售后完成时间: 2023.05.15-15:20:10    打印


目前状态: 完成
负责业务: 周康
负责技术: 马文
业务电话: 15094074355
客户联系方式:
群聊西北2361
售后情况:
设备开不了机

处理记录   
处理时间处理记录处理人
20230131-18:00现场查看设备不能正常开机,故障指示灯闪,并且将设备断电长按电源键还是不能正常开机,之后将设备取下重新插拔内存,开机进idrac查看发现有两根内存报错,显示A diagnostic warning event occurred in the memory device at B2.Check the device and system configuration.,之后将两根内存更换到别处之后重新开机别处又会报错,怀疑是内存问题,将情况向白总反馈,内存带回,设备先开起来让客户先使用马文
20230201-15:00设备内存在公司超微主板上测试没有异常,将情况向白总反馈,目前白总指示暂时先搁置观察一段时间马文
20230322-18:00现场将设备上次报错的内存装回,装回后内存正常识别。之后将node07cpu与node03cpu对调测试以此确定cpu或是主板问题,截至下班客户已对两台设备测试5小时,设备均正常,后续持续跟进马文
20230323-17:30远程连接设备查看node03以及node07工作状态,目前两台设备均已满载运行超过三十小时,设备均正常,告知学生到明天中午要是一切正常可取消测试,设备正常计算马文
20230324-14:30询问客户node03以及node07计算情况,客户反馈node07掉线了。远程连过去发现可能是任务计算完了其他人重新提交的任务,设备并没有重启或死机,两台设备均已满载测试48小时以上,目前告知学生可以正常计算,下周再跟进一下设备运行情况马文
20230403-16:40学生反馈node03又down了,远程连接过去查看message和之前得报错一样,查看node07已满载运行12天,告知学生是主板问题,需要更换主板,明日去现场拉回设备马文
20230404-16:00去学校将设备拉回马文
20230412-18:00和戴尔中国联系,配合他们收集设备日志,之后和戴尔理论,要求更换主板,目前戴尔回复安排工作人员明日上门更换主板马文
20230413-16:00戴尔工程师上门更换主板,更换完成之后检查硬件识别正常,目前idrac暂无其他报错,设备目前开始测试马文
20230425-10:00设备已连续压力测试12天,并实时观测内存状态一切正常,linpack:3017.7269 Gflops;172000Ns 温度:CPU1 74摄氏度左右,cpu2 83摄氏度马文
20230425-17:00设备送去现场并上架机柜,现场和学生确认设备配置信息,目前先让学生计算观察一段时间马文
20230515-16:00远程查看设备已满负荷运行超过20天,并且询问学生期间有没有出现过问题,学生反馈更换完主板之后一切正常马文