硕星内部系统-技术部


0   售后提交时间: 1748932097044  售后完成时间: 0    打印


目前状态: 进行
负责业务: 刘婷
负责技术: 宋旭蒙
业务电话: 15529078917
客户联系方式:
老师微信:SeanBruno
售后情况:
设备死机

处理记录   增加
处理时间处理记录处理人
1747031539000通过日志联系dell,硬件无异常,告知老师设备先使用,一段计算周期结束后,重启一下设备,后续设备有问题再联系我们;宋旭蒙
1748932361210老师反馈设备重启,联系dell,dell那边让升级固件后,清空日志,放电试下宋旭蒙
1751266531000还有一周过三年硬件质保; 设备突然死机无法开机,释放静电后正常,有CPU报错,DELL反馈建议插拔下内存,这边反馈插拔内存可能会导致设备无法开机;问具体原因,dell还未回复;宋旭蒙
1751362855000重新插拔全部内存后正常,状态指示灯由橙色警告变蓝色正常; 宋旭蒙
1751449275000设备目前待机一天正常,告知老师设备快过质保了,近期满载测试看下; 日志显示还是有硬盘位报错,报错位置硬盘为空,已升级了固件,dell那边告知让清空下日志,老师说后续设置下; 宋旭蒙
1751535691000设备满载一天运行正常,清空日志后,再无报错,目前让老师先使用 日志显示还是有硬盘位报错,报错位置硬盘为空,已升级了固件,dell那边告知让清空下日志,老师说后续设置下; 宋旭蒙
1751881302415设备满载5天正常,日志还是有硬盘报错(dell官方告知可以忽略) 日志显示还是有硬盘位报错,报错位置硬盘为空,已升级了固件,dell那边告知让清空下日志,老师说后续设置下; 宋旭蒙
1753153326000联系老师将设备发货宋旭蒙
1753342667000收到售后设备,进行拆箱,可以进入系统李岳鹏
1755661102876测试cpu3位置的六根内存,无异常李岳鹏
1755856054179以下均为vasp大算例满核测试,昨天测试一晚cpu2最高93摄氏度,cpu1:91摄氏度,别的都正常,无报错刘建华
1756104755000周末测试两天无异常刘建华
1756709622000上周每天晚上测试白天关机,都无异常刘建华
1758524079439连续测试一周+周末,全天测试都无异常刘建华
1760321491000老师反馈收到设备,正常点亮,协助老师配置了slurm,目前正常计算宋旭蒙
1760407956779设备目前正常计算,racadm techsupreport collect -t OSAppAll报错,使用systemctl status dcismeng查看OS-BMC Passthrough没有开启,需要在idarch设置页面开启,客户表示理解,后续有问题联系我们宋旭蒙
1760408045540设备长时间待机10天+7天+,温度,内存均无异常刘建华
176040815381720250930完成设备出厂刘建华
1760338542000完成设备验收,设备正常点亮,满载测试宋旭蒙
1760954322000客服反馈无法连接,查看日志有CPU3 两根内存电压报错;告知客户之前dell认为此报错无影响有截图,本地测试也正常;目前怀疑可能是主板或者CPU存在问题;告知客户目前换主板只有三个月质保,不如把3,4路CPU内存拆下,只用两路,上述那个做后续更换配件;客户未回复;宋旭蒙
1762338594615设备发回宋旭蒙
1762509386000收到设备宋旭蒙
1762768604279检查设备外观拍照,将CPU3&4的CPU及内存迁移到二代主板测试;起初开机卡住,放电清空cmos后,CPU1 A1内存不识别,交换内存位置后正常,目前正在跑vasp算例宋旭蒙
1762856978488现阶段CPU3&4及内存测试正常宋旭蒙
17633742018493&4 CPU运行正常,正常运行7天左右宋旭蒙
1763374254116准系统跟换散热器,开启计算/home/she/vasp/v2-Fe/Ti-Al/6NN宋旭蒙
1764839573943CPU3&4包含内存,单独满载测试运行vasp,已正常运行23天; CPU1&2包含内存,单独满载测试运行vasp,已正常运行16天;宋旭蒙
1765437797000告知客户我们目前将CPU3&4及其内存,还有CPU1&2及其内存分开满载测试; CPU3&4及其内存满载运行了30天,无异常; CPU1&2及其内存满载运行了23天,无异常; 目前基本可以确认CPU和内存是没有问题的宋旭蒙
1765437832000告知客户DELL给我们说的解决方案是: 设备已经过保了,drive这个问题可以尝试换硬盘背板解决,CPU3的问题可以尝试更换主板解决; 背板报价:3666 主板报价:10187 上门费用:1390 如果更换背板和主板没有解决问题,主板和背板不收费; 但是无论是否解决问题,上门是按次收费,一次1390,就很坑;宋旭蒙
1765449051837客户同意如果两颗CPU可以正常使用20多天,我们这边其实建议就两颗CPU使用,然后内存插满,配置为768G内存和48物理核心;这样没有什么额外花费;剩余两颗CPU可以用作备份,后续使用哪颗CPU存在问题,可以及时替换宋旭蒙
1766396555906还原CPU和内存,目前VASP满载测试,日志开始有CPU3报错,但是设备没有重启宋旭蒙
1766573676279目前正常宋旭蒙
1766743447691现阶段测试运行正常宋旭蒙