硕星内部系统-技术部


天津大学李文彬   售后提交时间: 2024-07-19  售后完成时间: 2024.09.02-10:34:53    打印


目前状态: 完成
负责业务: 周仕佳
负责技术: 宋旭蒙
业务电话: 15829730606
客户联系方式:
学生
售后情况:
设备出现无缘无故关机情况

处理记录   
处理时间处理记录处理人
20240722联系老师,计划周三安排当地工程师去现场处理宋旭蒙
20240724协助现场工程师确认,需要改善散热,周五继续处理宋旭蒙
20240726加装风扇后,满载CPU电压温度:76,76摄氏度,目前学生满载测试,运行正常宋旭蒙
20240729node02节点满载运行三天正常,完全集群配置 两个账户配置了免密,节点2原先的数据,已经挂载到了节点2的设备,并分配了对应了权限~宋旭蒙
20240730老师反馈,集群无法跨节点测试,处理发现是,fluent跨节点用的SSH协议。默认端口为22,老师将端口改为52324,临时修改默认端口为22进行测试,测试正常; 老师反馈,node02单独计算,会有不到一分钟的卡顿,程序运行导致系统卡顿,IO没有过载,处理发现是ANSYS版本问题,更换为2019后,当前阶段测试正常 并行命令: /opt/software/ansys inc2021R1/v211/fluent/bin/fluent 2ddp -g -t128 -cnf=./hosts -i test宋旭蒙
20240808老师反馈slurm提交有作业卡顿和中止的情况,目前独立于slurm单独后台计算;宋旭蒙
20240809目前后台计算与slurm效率相同,给老师安装了ansys2024测试正常;宋旭蒙
20240819老师周末反馈,机房断电,导致node01节点启动崩溃 取消机械挂载后正常,处理发现/home挂载正常,/data1需要xfs_repair修复后挂载正常, 因为客户没有阵列,故告知重要数据单独备份,备份过载中发现,/home硬盘存在读写暂停的问题,smart信息正常 处理发现该硬盘不是我们的企业级机械,客户表示是自己新买的两块NAS,问题硬盘已经取出,另一块继续协助客户测试;宋旭蒙
20240826老师反馈ansys license软件无法启动,VNC黑屏,处理发现lincense无法跳转是ssh没有做-X参数转发,VNC黑屏kill后电源管理改为从不宋旭蒙
20240827 老师这边加了企业机械,挂载到/home,将原先的/home挂载到/data1 ,迁移了用户数据,配置了集群,目前运行正常;宋旭蒙
20240902目前集群运行正常,问题已解决宋旭蒙