硕星内部系统-技术部


北京科技大学包成   售后提交时间: 23.09.2021  售后完成时间: 2021.11.22-09:33:52    打印


目前状态: 完成
负责业务: 薛娜
负责技术: 宋旭蒙
业务电话: 18710866736
客户联系方式:
19801291520
售后情况:
平均3-5天要做一次重启,不定期啸叫

处理记录   
处理时间处理记录处理人
20210928-23:20啸叫原因是CPU电压过热,更换被动散热模块后,满载运行40分钟左右,温度稳定在90-92;不定期死机目前怀疑是阵列卡电池或缓存有问题;将阵列卡带回检查,让老师先用固态;宋旭蒙
20211009-16:01将阵列卡截图反馈给田伊蕾,并描述状态,厂家说返厂检测;联系学生发现国庆假期学生并未使用设备,告知学生近期可正常使用设备,这样可以确认是否是阵列卡问题,远程协助学生配置环境,目前已正常使用;宋旭蒙
20211011-14:28学生反馈说设备运行40小时无异常声音和死机问题,联系学生继续进行测试;宋旭蒙
20211018-18:24学生反馈mpi运行报错,处理发现系统中病毒,学生反馈老师后和老师反馈说想重新安装系统,与主管沟通后,联系老师下次现场处理阵列卡时,重装系统,老师说可以;宋旭蒙
20211019-15:00发现node05 message有mcelog CPU 报错,其他正常,与主管沟通后,安排同事王楷华明日去现场排查;宋旭蒙
20211027-16:00目前重装了centos7.9和win10 21H1的原版系统安装(EFI引导)宋旭蒙
20211028-17:00之前发生过同样的事情,因为是女老师与主管反馈联系dell技术上门,dell那边说出场只有一颗CPU,一根内存,故只更换他们的产品,告知业务业务表示理解;宋旭蒙
20211029-17:24完成编译测试正常;宋旭蒙
20211029-17:24slurm编译测试正常,linux下安装msm阵列卡管理软件,磁盘阵列正常识别,但是在修复,联系学生周一处理,目前先开机修复。学生表示理解;宋旭蒙
20211101-16:00完成软件安装及配置,设备运行正常,数据正常宋旭蒙
20211102-16:00协助学生完成p4vasp的软件编译;宋旭蒙