硕星内部系统-技术部


0   售后提交时间: 2024-11-06  售后完成时间: 0    打印


目前状态: 进行
负责业务: 杨军强
负责技术: 马文
业务电话: 18710858229
客户联系方式:
技术和老师微信交流
售后情况:
计算节点又出现down的情况了

处理记录   增加
处理时间处理记录处理人
20241106-17;00客户反馈node03状态不正常,远程重启了slurmd服务,但还是不正常,通过排查发现slurm.conf文件里显示node03的内存为256G,但目前显示192G,之后视频指导学生检测发现有两根内存没识别,随后指导学生重新插拔内存,目前重新插拔之后内存正常识别,开机到系统重启node03slurmd服务,集群状态正常,目前先让学生使用观察几天看看马文
20241114-11:00联系学生询问设备使用情况。客户表示设备效率还是有点问题,之后检查还是有两根内存识别不到马文
20241115-12:00今日测试设备一提交满核心就会重启,怀疑可能还是内存问题,之后进bios发现还是最开始cpu1的e1和g1内存报错,之后让客户换到cpu2的e1和g1位置,虽然都识别,但是测试还是会重启,之后通过实时内存观测命令确定cpu1的a1内存有问题,为考虑客户体验,暂定下周去现场处理马文