处理时间 | 处理记录 | 处理人 |
---|---|---|
20210928-23:20 | 啸叫原因是CPU电压过热,更换被动散热模块后,满载运行40分钟左右,温度稳定在90-92;不定期死机目前怀疑是阵列卡电池或缓存有问题;将阵列卡带回检查,让老师先用固态; | 宋旭蒙 |
20211009-16:01 | 将阵列卡截图反馈给田伊蕾,并描述状态,厂家说返厂检测;联系学生发现国庆假期学生并未使用设备,告知学生近期可正常使用设备,这样可以确认是否是阵列卡问题,远程协助学生配置环境,目前已正常使用; | 宋旭蒙 |
20211011-14:28 | 学生反馈说设备运行40小时无异常声音和死机问题,联系学生继续进行测试; | 宋旭蒙 |
20211018-18:24 | 学生反馈mpi运行报错,处理发现系统中病毒,学生反馈老师后和老师反馈说想重新安装系统,与主管沟通后,联系老师下次现场处理阵列卡时,重装系统,老师说可以; | 宋旭蒙 |
20211019-15:00 | 发现node05 message有mcelog CPU 报错,其他正常,与主管沟通后,安排同事王楷华明日去现场排查; | 宋旭蒙 |
20211027-16:00 | 目前重装了centos7.9和win10 21H1的原版系统安装(EFI引导) | 宋旭蒙 |
20211028-17:00 | 之前发生过同样的事情,因为是女老师与主管反馈联系dell技术上门,dell那边说出场只有一颗CPU,一根内存,故只更换他们的产品,告知业务业务表示理解; | 宋旭蒙 |
20211029-17:24 | 完成编译测试正常; | 宋旭蒙 |
20211029-17:24 | slurm编译测试正常,linux下安装msm阵列卡管理软件,磁盘阵列正常识别,但是在修复,联系学生周一处理,目前先开机修复。学生表示理解; | 宋旭蒙 |
20211101-16:00 | 完成软件安装及配置,设备运行正常,数据正常 | 宋旭蒙 |
20211102-16:00 | 协助学生完成p4vasp的软件编译; | 宋旭蒙 |