处理时间 | 处理记录 | 处理人 |
---|---|---|
20220926-18:00 | 设备重启,检查bios发现有两根内存不识别,重新插拔后内存识别 | 王楷华 |
20220930-18:00 | 设备再次重启,检查内存无问题,检查message文件无问题,跑linpack进行测试 | 王楷华 |
20221005-12:00 | 让学生将可以无线上网的笔记本与设备相连,检查ipmi发现cpu1有报错 | 王楷华 |
20221009-18:00 | 公司先安排一个设备让客户远程使用 | 王楷华 |
20221101-17:30 | 远程到学生的笔记本上,查看ipmi,发现设备cpu满核运行并不会导致设备死机或重启,长时间计算会导致死机或重启,ipmi里主要报错信息为“Configuration error - CPU 1 DCU Cache Fatal Error”、“Uncorrectable ECC / other uncorrectable memory error”,跑linpack 4.5小时左右,内存无问题,ipmi报警“Configuration error - CPU 1 DCU Cache Corrected Error”,但设备未死机或重启。开始跑s-tui,明日与客户联系 | 王楷华 |
20221102-10:30 | 跑一晚上s-tui无任何报错。将设备重启,并让学生提交设备死机或重启时正在计算的算例,看看什么时候会重启 | 王楷华 |
20221103-15:30 | 建议学生先将设备重启,然后跑之前设备出现问题时正在计算的算例 | 王楷华 |
20221108-18:00 | 与客户联系,未得到回复 | 王楷华 |
20221109-11:00 | 11月4日9:30-11月5日10:00提交任务后重启,由于客户那边疫情管控,无法处理,等可以处理时,交由宋旭蒙处理 | 王楷华 |
20221128-11:30 | 更换gaussian版本更换为B01后问题解决 | 王楷华 |