处理时间 | 处理记录 | 处理人 |
---|---|---|
20231101-12:40 | 客户反馈slurm无法提交作业,远程指导客户重启slurm服务,客户反馈node02的slurmd服务无法启动。 | 王楷华 |
20231101-15:40 | 远程到设备,重启slurm服务,node02的slurmd服务无法开启,输入journalctl -xe从节点无反应,输入vim /var/slurm-20.02/log/slurmd.log从节点无反应,输入sinfo从节点无反馈,输入sinfo从节点无反应,从节点ping主节点无输出,主节点ping从节点正常;重启node02,node02无法连接 | 王楷华 |
20231101-15:50 | 老师手动重启设备后可以正常连接。重启从节点slurm服务,输入scontrol update nodename=node02 state=resume,目前slurm正常,查看lsmem内存正常,查看lscpu处理器正常,查看message近期无硬件报错;建议客户提交任务试试 | 王楷华 |