硕星内部系统-技术部


西安交通大学张永昌   售后提交时间: 2024-11-06  售后完成时间: 2024.11.25-09:25:32    打印


目前状态: 完成
负责业务: 杨军强
负责技术: 马文
业务电话: 18710858229
客户联系方式:
技术和老师微信交流
售后情况:
计算节点又出现down的情况了

处理记录   
处理时间处理记录处理人
20241106-17;00客户反馈node03状态不正常,远程重启了slurmd服务,但还是不正常,通过排查发现slurm.conf文件里显示node03的内存为256G,但目前显示192G,之后视频指导学生检测发现有两根内存没识别,随后指导学生重新插拔内存,目前重新插拔之后内存正常识别,开机到系统重启node03slurmd服务,集群状态正常,目前先让学生使用观察几天看看马文
20241114-11:00联系学生询问设备使用情况。客户表示设备效率还是有点问题,之后检查还是有两根内存识别不到马文
20241115-12:00今日测试设备一提交满核心就会重启,怀疑可能还是内存问题,之后进bios发现还是最开始cpu1的e1和g1内存报错,之后让客户换到cpu2的e1和g1位置,虽然都识别,但是测试还是会重启,之后通过实时内存观测命令确定cpu1的a1内存有问题,为考虑客户体验,暂定下周去现场处理马文
20241121 19:00现场kvm切换到node03,屏幕键鼠都无反馈,显示器直连node03,有输出,重启kvm,node03显示正常,之前排查出内存有报错,更换了G1内存,BIOS和系统正常识别,slurm队列刷新节点有报错,修改slurm配置文件03节点对应的内存,重启slurm服务,之前满核运行十几分钟会重启,现场测试了30分钟都没有出现重启现象,vasp正常计算,该售后结束刘建华