处理时间 | 处理记录 | 处理人 |
---|---|---|
20230720 | 通过IDRAC日志获取 dell反馈客户新建的IB卡频繁报错 怀疑CPU1内存有问题(IDARC识别正常) 目前建议把A插槽内存全部拔出 B插槽仅保留两根 插在A1 B1进行测试 学生反馈这会儿有事 后续跟我们联系 | 宋旭蒙 |
20230724 | 联系dell上门更换主板 | 宋旭蒙 |
20230728 | dell上面更换主板后 确认四根内存有问题 已联系供货商发货 让学生将内存发回给我们测试 昨晚学生反馈因机房断电 两套集群(一套不是我们的 仅提供有限的技术支持) slurm服务异常 我们那套已经修复 另一套 发现部分节点超线程开始 学生表示要晚上才有时间 项目比较急 明天跟学生沟通处理 | 宋旭蒙 |
20230729 | 新加的内存识别正常 学生反馈节点04 无法并入集群 最后确认是IB线有问题(不是我们提供的)学生自行处理 mars集群(不是我的集群 仅提供有限技术服务支持) Slurmctld启动后几分钟就报错 最后发现是断电后有未完成的作业 导致Slurmctld服务异常 取消作业后正常 因Slurm有断电后作业重新提交的功能 会导致长时间的算例重新计算 故关闭集群slurm服务自启 (周末处理工时+1) | 宋旭蒙 |