处理时间 | 处理记录 | 处理人 |
---|---|---|
20241106-17;00 | 客户反馈node03状态不正常,远程重启了slurmd服务,但还是不正常,通过排查发现slurm.conf文件里显示node03的内存为256G,但目前显示192G,之后视频指导学生检测发现有两根内存没识别,随后指导学生重新插拔内存,目前重新插拔之后内存正常识别,开机到系统重启node03slurmd服务,集群状态正常,目前先让学生使用观察几天看看 | 马文 |
20241114-11:00 | 联系学生询问设备使用情况。客户表示设备效率还是有点问题,之后检查还是有两根内存识别不到 | 马文 |
20241115-12:00 | 今日测试设备一提交满核心就会重启,怀疑可能还是内存问题,之后进bios发现还是最开始cpu1的e1和g1内存报错,之后让客户换到cpu2的e1和g1位置,虽然都识别,但是测试还是会重启,之后通过实时内存观测命令确定cpu1的a1内存有问题,为考虑客户体验,暂定下周去现场处理 | 马文 |