硕星内部系统-技术部


中国科学院郑明杰   售后提交时间: 20230823  售后完成时间: 2023.11.20-09:49:39    打印


目前状态: 完成
负责业务: 赵晨楠
负责技术: 马文
业务电话: 18710960317
客户联系方式:
客户微信:wydingustc
售后情况:
客户反馈希望将该设备从集群独立

处理记录   
处理时间处理记录处理人
20230823取消nIs nfs挂载,查看机械已挂载,联系客户正常使用 使用过程中客户反馈系统卡死 报错为输入输出错误 重启使用smartctl -a 查看固态 固态健康状态正常; 客户反馈之前在集群中也多次发生类似情况 所以才独立使用 之前集群使用是设备固态+集群存储 目前使用是设备固态+本地机械 都发生类似错误 将问题定位到固态本身 故取消机械挂载 让客户纯固态使用看是否正常;宋旭蒙
20230824早上客户反馈纯固态依旧报错输入输出错误 联系赵青出库新的1T固态 安装打包系统发给客户宋旭蒙
20230830联系老师更换固态 重新挂载/home 更改文件权限 设备目前运行正常 下周确认无问题后 联系老师将固态发回宋旭蒙
20230915-16:30今日联系老师继续处理,老师表示今日有事,待他忙完联系我们马文
20230918-17;00通过查看主板IPMI发现有主板电压过低的报错,远程指导客户先对BIOS电池进行放电处理,之后发现还有两根内存未识别,先指导客户重新插拔了一下,但还是未识别,暂时先进入系统提交任务观察,待明日更换内存位置验证内存是否损坏马文
20230919-17:00远程指导客户重新插拔内存,目前内存一切正常,暂时先让客户使用一段时间观察看看马文
20230925-18:00客户反馈还是会出现之前输入输出错误,目前远程升级设备BMC, BIOS,升级完之后BIOS恢复重置,再关掉超线程,ACpower,但是提交计算大约十几分钟还是会出现相同情况,怀疑可能还是硬盘问题,暂时将机械硬盘取消挂载,待客户重新提交任务观察 马文
20230928-17:00目前取消机械硬盘挂载也还是会发生输入输出错误,远程指导客户将固态硬盘更换卡槽尝试还是不行,目前重置BMC,正在进行内存测试当中,测试内存暂时没有问题,告知客户国庆期间可以待机测试马文
20231008-17:00目前提交计算任务还是会出现输入输出错误,以及单独进行cpu测试也会报输入输出错误,目前还在继续排查当中马文
20231009-18:00通过查询IPMI报错信息3.3VCC信息发现该信息指向电源输入电压,并且在主板说明书也找到了相关文件,怀疑可能是主板或电源问题,目前跟主管反馈远程指导客户将设备发回,下午联系客户再次尝试将电源24pin供电线重新插拔尝试一下,客户表示晚上再尝试一下马文
20231013-17;40设备测试linpack可以正常跑完一轮,客户反馈设备断电之后再插电可以稳定运行一天以上,但超过一天就不行了,目前提交了vasp满核心任务计算并观察中马文
20231016-9:40设备周末测试vasp过程中还是出现和之前一样输入输出错误问题,目前先尝试更换电源重新进行测试马文
20231020-16:00设备更换公司1250电源到目前为止计算一切正常,目前公司已购买了新的1650电源,将新的1650电源安装上继续开启测试马文
20231025-11:30设备上周五更换新的1650电源之后测试到现在一切正常,目前将设备还原至机箱内,并连接机械硬盘。联系客户远程提交任务进行测试马文
20231110-17:00截至目前设备已装进机箱挂载机械硬盘客户远程测试16天,期间一切正常,目前已经和客户确认,今日下午将设备发出,待客户收到之后联系马文
20231113-10:00指导客户开机之前取出机箱内填充泡棉,告知客户先使用观察马文
20231120-10:00联系客户询问设备使用状况,客户表示设备收到之后使用一周了,目前一切正常,该售后完结马文