处理时间 | 处理记录 | 处理人 |
---|---|---|
20230823 | 取消nIs nfs挂载,查看机械已挂载,联系客户正常使用 使用过程中客户反馈系统卡死 报错为输入输出错误 重启使用smartctl -a 查看固态 固态健康状态正常; 客户反馈之前在集群中也多次发生类似情况 所以才独立使用 之前集群使用是设备固态+集群存储 目前使用是设备固态+本地机械 都发生类似错误 将问题定位到固态本身 故取消机械挂载 让客户纯固态使用看是否正常; | 宋旭蒙 |
20230824 | 早上客户反馈纯固态依旧报错输入输出错误 联系赵青出库新的1T固态 安装打包系统发给客户 | 宋旭蒙 |
20230830 | 联系老师更换固态 重新挂载/home 更改文件权限 设备目前运行正常 下周确认无问题后 联系老师将固态发回 | 宋旭蒙 |
20230915-16:30 | 今日联系老师继续处理,老师表示今日有事,待他忙完联系我们 | 马文 |
20230918-17;00 | 通过查看主板IPMI发现有主板电压过低的报错,远程指导客户先对BIOS电池进行放电处理,之后发现还有两根内存未识别,先指导客户重新插拔了一下,但还是未识别,暂时先进入系统提交任务观察,待明日更换内存位置验证内存是否损坏 | 马文 |
20230919-17:00 | 远程指导客户重新插拔内存,目前内存一切正常,暂时先让客户使用一段时间观察看看 | 马文 |
20230925-18:00 | 客户反馈还是会出现之前输入输出错误,目前远程升级设备BMC, BIOS,升级完之后BIOS恢复重置,再关掉超线程,ACpower,但是提交计算大约十几分钟还是会出现相同情况,怀疑可能还是硬盘问题,暂时将机械硬盘取消挂载,待客户重新提交任务观察 | 马文 |
20230928-17:00 | 目前取消机械硬盘挂载也还是会发生输入输出错误,远程指导客户将固态硬盘更换卡槽尝试还是不行,目前重置BMC,正在进行内存测试当中,测试内存暂时没有问题,告知客户国庆期间可以待机测试 | 马文 |
20231008-17:00 | 目前提交计算任务还是会出现输入输出错误,以及单独进行cpu测试也会报输入输出错误,目前还在继续排查当中 | 马文 |
20231009-18:00 | 通过查询IPMI报错信息3.3VCC信息发现该信息指向电源输入电压,并且在主板说明书也找到了相关文件,怀疑可能是主板或电源问题,目前跟主管反馈远程指导客户将设备发回,下午联系客户再次尝试将电源24pin供电线重新插拔尝试一下,客户表示晚上再尝试一下 | 马文 |
20231013-17;40 | 设备测试linpack可以正常跑完一轮,客户反馈设备断电之后再插电可以稳定运行一天以上,但超过一天就不行了,目前提交了vasp满核心任务计算并观察中 | 马文 |
20231016-9:40 | 设备周末测试vasp过程中还是出现和之前一样输入输出错误问题,目前先尝试更换电源重新进行测试 | 马文 |
20231020-16:00 | 设备更换公司1250电源到目前为止计算一切正常,目前公司已购买了新的1650电源,将新的1650电源安装上继续开启测试 | 马文 |
20231025-11:30 | 设备上周五更换新的1650电源之后测试到现在一切正常,目前将设备还原至机箱内,并连接机械硬盘。联系客户远程提交任务进行测试 | 马文 |
20231110-17:00 | 截至目前设备已装进机箱挂载机械硬盘客户远程测试16天,期间一切正常,目前已经和客户确认,今日下午将设备发出,待客户收到之后联系 | 马文 |
20231113-10:00 | 指导客户开机之前取出机箱内填充泡棉,告知客户先使用观察 | 马文 |
20231120-10:00 | 联系客户询问设备使用状况,客户表示设备收到之后使用一周了,目前一切正常,该售后完结 | 马文 |