处理时间 | 处理记录 | 处理人 |
---|---|---|
20230131-18:00 | 现场查看设备不能正常开机,故障指示灯闪,并且将设备断电长按电源键还是不能正常开机,之后将设备取下重新插拔内存,开机进idrac查看发现有两根内存报错,显示A diagnostic warning event occurred in the memory device at B2.Check the device and system configuration.,之后将两根内存更换到别处之后重新开机别处又会报错,怀疑是内存问题,将情况向白总反馈,内存带回,设备先开起来让客户先使用 | 马文 |
20230201-15:00 | 设备内存在公司超微主板上测试没有异常,将情况向白总反馈,目前白总指示暂时先搁置观察一段时间 | 马文 |
20230322-18:00 | 现场将设备上次报错的内存装回,装回后内存正常识别。之后将node07cpu与node03cpu对调测试以此确定cpu或是主板问题,截至下班客户已对两台设备测试5小时,设备均正常,后续持续跟进 | 马文 |
20230323-17:30 | 远程连接设备查看node03以及node07工作状态,目前两台设备均已满载运行超过三十小时,设备均正常,告知学生到明天中午要是一切正常可取消测试,设备正常计算 | 马文 |
20230324-14:30 | 询问客户node03以及node07计算情况,客户反馈node07掉线了。远程连过去发现可能是任务计算完了其他人重新提交的任务,设备并没有重启或死机,两台设备均已满载测试48小时以上,目前告知学生可以正常计算,下周再跟进一下设备运行情况 | 马文 |
20230403-16:40 | 学生反馈node03又down了,远程连接过去查看message和之前得报错一样,查看node07已满载运行12天,告知学生是主板问题,需要更换主板,明日去现场拉回设备 | 马文 |
20230404-16:00 | 去学校将设备拉回 | 马文 |
20230412-18:00 | 和戴尔中国联系,配合他们收集设备日志,之后和戴尔理论,要求更换主板,目前戴尔回复安排工作人员明日上门更换主板 | 马文 |
20230413-16:00 | 戴尔工程师上门更换主板,更换完成之后检查硬件识别正常,目前idrac暂无其他报错,设备目前开始测试 | 马文 |
20230425-10:00 | 设备已连续压力测试12天,并实时观测内存状态一切正常,linpack:3017.7269 Gflops;172000Ns 温度:CPU1 74摄氏度左右,cpu2 83摄氏度 | 马文 |
20230425-17:00 | 设备送去现场并上架机柜,现场和学生确认设备配置信息,目前先让学生计算观察一段时间 | 马文 |
20230515-16:00 | 远程查看设备已满负荷运行超过20天,并且询问学生期间有没有出现过问题,学生反馈更换完主板之后一切正常 | 马文 |