处理时间 | 处理记录 | 处理人 |
---|---|---|
20240411 | 处理发现该节点昨日重启 mcelog报错 集群其它节点2023/10运行到现在 | 宋旭蒙 |
20240424 15:30 | 同事罗培鑫去现场把设备拉回 | 刘建华 |
20240425 17:01 | 多次重启设备正常显示,设备跑linpack测试,20分钟左右IPMI无警告,测试界面提示MART Disk monitor: Device: /dev/nvme0, Critical Warning (0x02): Temperature,更换m.2固态位置,再次linpack测试没有出现该警告提醒,目前测试时长将近2小时,ipmi无报错,测试界面也无警告,明天继续测试 | 刘建华 |
20240426 18:00 | 测试时IPMI有出现警告 Processor Configuration error - Assertion ,继续测试一小时左右 IPMI会无法连接,下周先升级BMC | 刘建华 |
20240429 17:41 | 升级BIOS和IPMI测试五小时左右可以正常连接IPMI | 刘建华 |
20240507 17:41 | 白天测试晚上待机,测试1天多设备重启ipmi报错信息为[CPU-0005] Configuration error - Assertion,更换cpu位置继续测试 | 刘建华 |
20240511 17:41 | 单cpu1无警告,单cpu2有警告,下周找个x12主板测试cpu2 | 刘建华 |
20240515 14:31 | 换8370c和8336c在主板上测试,重启只有一两次可以进系统,IPMI有报错信息CPU-0005] Configuration error - Assertion | 刘建华 |
20240515 10:31 | 目前把cpu在别的x12主板上测试 | 刘建华 |
20240515 16:31 | 8375cpu在别的主板测试linpack测试6小时无报错 | 刘建华 |
20240515 16:31 | 主板售后,已经给赵青了 | 刘建华 |
202406011 10:15 | 还在售后阶段 | 刘建华 |
20240620 17:00 | 收到售后主板,在外面单点可以点亮,明天进行linpack测试 | 刘建华 |
20240621 17:00 | 在外面测试linpack,结果正常,下周装入机箱测试 | 刘建华 |
20240627 16:53 | linpack 值为3693.4274 在外面测试一天,待机五天,放入机箱测试一天都没有报错 | 刘建华 |
20240628 14:00 | 现场送货,学生提交算例,节点状态异常inval ,刷新状态无法更新,宋工远程帮我修改slurm.conf配置信息,重启slurmctld,状态正常,学生提交算例,测试正常,该售后结束。 | 刘建华 |