硕星内部系统-技术部


西安交通大学张永昌   售后提交时间: 2024-04-11  售后完成时间: 2024.06.28-14:19:19    打印


目前状态: 完成
负责业务: 杨军强
负责技术: 刘建华
业务电话: 18710858229
客户联系方式:
学生微信:zzl18226395306
售后情况:
设备异常重启

处理记录   
处理时间处理记录处理人
20240411处理发现该节点昨日重启 mcelog报错 集群其它节点2023/10运行到现在宋旭蒙
20240424 15:30同事罗培鑫去现场把设备拉回刘建华
20240425 17:01多次重启设备正常显示,设备跑linpack测试,20分钟左右IPMI无警告,测试界面提示MART Disk monitor: Device: /dev/nvme0, Critical Warning (0x02): Temperature,更换m.2固态位置,再次linpack测试没有出现该警告提醒,目前测试时长将近2小时,ipmi无报错,测试界面也无警告,明天继续测试刘建华
20240426 18:00测试时IPMI有出现警告 Processor Configuration error - Assertion ,继续测试一小时左右 IPMI会无法连接,下周先升级BMC刘建华
20240429 17:41升级BIOS和IPMI测试五小时左右可以正常连接IPMI刘建华
20240507 17:41白天测试晚上待机,测试1天多设备重启ipmi报错信息为[CPU-0005] Configuration error - Assertion,更换cpu位置继续测试刘建华
20240511 17:41单cpu1无警告,单cpu2有警告,下周找个x12主板测试cpu2刘建华
20240515 14:31换8370c和8336c在主板上测试,重启只有一两次可以进系统,IPMI有报错信息CPU-0005] Configuration error - Assertion刘建华
20240515 10:31目前把cpu在别的x12主板上测试刘建华
20240515 16:318375cpu在别的主板测试linpack测试6小时无报错刘建华
20240515 16:31主板售后,已经给赵青了刘建华
202406011 10:15还在售后阶段刘建华
20240620 17:00收到售后主板,在外面单点可以点亮,明天进行linpack测试刘建华
20240621 17:00在外面测试linpack,结果正常,下周装入机箱测试刘建华
20240627 16:53linpack 值为3693.4274 在外面测试一天,待机五天,放入机箱测试一天都没有报错刘建华
20240628 14:00现场送货,学生提交算例,节点状态异常inval ,刷新状态无法更新,宋工远程帮我修改slurm.conf配置信息,重启slurmctld,状态正常,学生提交算例,测试正常,该售后结束。刘建华