处理时间 | 处理记录 | 处理人 |
---|---|---|
20240722 | 联系老师,计划周三安排当地工程师去现场处理 | 宋旭蒙 |
20240724 | 协助现场工程师确认,需要改善散热,周五继续处理 | 宋旭蒙 |
20240726 | 加装风扇后,满载CPU电压温度:76,76摄氏度,目前学生满载测试,运行正常 | 宋旭蒙 |
20240729 | node02节点满载运行三天正常,完全集群配置 两个账户配置了免密,节点2原先的数据,已经挂载到了节点2的设备,并分配了对应了权限~ | 宋旭蒙 |
20240730 | 老师反馈,集群无法跨节点测试,处理发现是,fluent跨节点用的SSH协议。默认端口为22,老师将端口改为52324,临时修改默认端口为22进行测试,测试正常; 老师反馈,node02单独计算,会有不到一分钟的卡顿,程序运行导致系统卡顿,IO没有过载,处理发现是ANSYS版本问题,更换为2019后,当前阶段测试正常 并行命令: /opt/software/ansys inc2021R1/v211/fluent/bin/fluent 2ddp -g -t128 -cnf=./hosts -i test | 宋旭蒙 |
20240808 | 老师反馈slurm提交有作业卡顿和中止的情况,目前独立于slurm单独后台计算; | 宋旭蒙 |
20240809 | 目前后台计算与slurm效率相同,给老师安装了ansys2024测试正常; | 宋旭蒙 |
20240819 | 老师周末反馈,机房断电,导致node01节点启动崩溃 取消机械挂载后正常,处理发现/home挂载正常,/data1需要xfs_repair修复后挂载正常, 因为客户没有阵列,故告知重要数据单独备份,备份过载中发现,/home硬盘存在读写暂停的问题,smart信息正常 处理发现该硬盘不是我们的企业级机械,客户表示是自己新买的两块NAS,问题硬盘已经取出,另一块继续协助客户测试; | 宋旭蒙 |
20240826 | 老师反馈ansys license软件无法启动,VNC黑屏,处理发现lincense无法跳转是ssh没有做-X参数转发,VNC黑屏kill后电源管理改为从不 | 宋旭蒙 |
20240827 | 老师这边加了企业机械,挂载到/home,将原先的/home挂载到/data1 ,迁移了用户数据,配置了集群,目前运行正常; | 宋旭蒙 |
20240902 | 目前集群运行正常,问题已解决 | 宋旭蒙 |