硕星内部系统-技术部


电子科技大学杨成韬   售后提交时间: 2023.10.30  售后完成时间: 2023.11.20-16:02:04    打印


目前状态: 完成
负责业务: 杨军强
负责技术: 马文
业务电话: 18710858229
客户联系方式:
技术和学生微信交流
售后情况:
vasp提交了任务运行不正常

处理记录   
处理时间处理记录处理人
20231030-17:00经过排查发现是由于客户自己的脚本有问题导致slurm服务会出现异常,之后帮助客户修改了slurm脚本之后任务提交正常,但目前发现设备有异常重启情况,暂时linpack测试三小时无异常,客户这边暂时不方便去机房,无法协助配置IPMI,暂时还在观测中马文
20231030-17:56客户提交任务设备还是会死机,查看系统日志怀疑可能有硬件报错,明日查看设备IPMI马文
20231031-17:40目前指导客户设置了ipmi自动获取,通过IPMI暂未发现硬件报错,但是设备测试或者不进行测试的时候也是会重启,查看系统日志显示硬件报错,但未定位具体是哪个硬件,检测了硬盘是正常的,目前实时观测内存也是未发现报错,打算明天指导客户对设备拆机重新插拔内存和电源供电继续排查马文
20231101-17:40早上指导客户对重新插拔内存,但是插拔之后设备还是会不定时重启,之后尝试更新BMC,但是BMC一直卡了一两个小时,重新刷新之后继续更新会报错,尝试恢复BMC初始化,恢复完成之后发现设备不能正常开机,指导客户对主板BIOS进行放电操作,但是也还是不行,BMC特别卡顿,开机键鼠无反馈,但是主板上网口灯以及风扇是正常转,等待二十分钟左右还是相同情况,之后指导学生先只插一根内存,开机还是和上述情况一样马文
20231102-17:00今日尝试重新更新设备BMC和BIOS,之后指导客户对设备重新进行放电操作以及只插单根内存,设备目前还是无法正常开机,键鼠无反馈,通过BMC执行软开机也不能正常操作,目前怀疑设备主板异常马文
20231114-19:00去现场将设备取下BIOS电池进行放电尝试再次点亮设备,但设备还是键鼠无反馈,随后打算更换主板,发现设备主板和电源线均已烧掉,联系主管反馈现场情况,之后公司寄出一个新的电源,待电源到达现场之后再过来更换,和学生沟通了解到前断时间有一次意外断电马文
20231116-16:00现场更换设备主板以及电源,更换完成之后发现设备还是进不了BIOS,键鼠无反馈,之后关机重新插拔内存以及只插单根内存也是相同情况,尝试取下BIOS电池放电还是和以上情况一样,随后取下CPU将之前CPU2更换到CPU1位置单CPU正常点亮,之后将另外一颗cpu装上进bios查看cpu和内存全部正常识别,随后进系统的时候发现系统引导界面有关于cpu的报错,但是可以正常进入系统,向主管反馈,随后又重置BIOS,还是有相同报错,但都可以正常进入系统,查看主板IPMI无异常,随后对设备进行压力测试大概四十分钟,设备稳定运行无异常马文
20231120-16;40联系客户询问设备运行状况,客户表示上周更换完主板和电源到目前为止计算一切正常马文