硕星内部系统-技术部


海南大学耿文通   售后提交时间: 20230825  售后完成时间: 2023.10.08-09:37:16    打印


目前状态: 完成
负责业务: 孙春香
负责技术: 宋旭蒙
业务电话: 18710866736
客户联系方式:
学生微信:loveweotao
售后情况:
管理节点卡顿

处理记录   
处理时间处理记录处理人
20230825学生反馈管理节点 ssh卡顿 远程处理发现 systemctl daemon-reload 无异常 环境变量无异常 但系统待机 sy高达3-5 无异常进程 其中top htop iotop单进程高达100%(日常仅有1%)左右 了解到该节点装有卡巴斯基杀毒 且杀毒目前异常无法正常系统 告知其先解决杀毒问题宋旭蒙
20230830处理发现其中一块硬盘报错 目前在rebuild修复宋旭蒙
20230906-17:40通过idrac查看发现有一块硬盘有报错信息,但目前暂不影响使用,先将当前idrac日志清空,发现设备ssh有问题,查看ssh服务发现服务报错,之后重启服务也还是不能正常重启,之后将ssh服务卸载重新安装发现有yum源相关报错,目前已下载rpm包给学生,待学生去机房负责到服务器上联系我们马文
20230907-17:40目前尝试使用yum在线以及配置本地源和下载离线包安装openssh都不行,已经和学生说明具体情况,目前暂时约到明天重装系统,已告知客户提前备份数据马文
20230908-17:50远程帮助客户重新安装centos7系统,并配置NIS,NFS,配置slurm20.02,软件目前还在安装中马文
20230915-17:00远程重新给主节点安装intel2021 ,重新编译vasp6.3.2,目前已编译完成,待客户重启完设备之后测试马文
20230920目前IB驱动编译完成,驱动内核报错途中发现gcc版本高于系统默认版本,替换后驱动目前安装正常。但是intel编译器和vasp需要基于系统默认版本重新编译(因为发现从节点使用的是默认版本的编译器)宋旭蒙
20230921重新配置slurm-21.08.8-2 服务均正常包含 slurmdbd 重新编译intel编译器和vasp.6.3.0 解决终端运行报错: UCX ERROR ibv_exp_query_device(mlx5_0) returned 95: Operation not supported 添加环境变量: export FI_PROVIDER=tcp slurm运行提交报错: UCX ERROR ibv exp query_device 脚本添加: export I_MPI_OFI_PROVIDER=verbs 目前除node04宋旭蒙
20230921目前除node04设备外 其他设备均正常运行 node04与dell沟通怀疑是固态没有正常识别 目前与学生沟通看是否方便关机放电;宋旭蒙
20230922学生反馈管理节点无连接其他从节点 通过IDARC提取日志 与dell沟通发现IB卡存在问题(不是我们的配件) 联系同学重新插拔后正常 检查其他三个节点的IDARC 2 3均正常 4节点更换主板后每次重启提示 UEFI0116 One or more boot drivers have reported issue(s). dell建议重新插拔固态 插拔问题依旧 那边建议设置 按F2进到BIOS ,然后进System Setup——iDRAC setting——Hardware configuration validation, 第二个内容先改成宋旭蒙
20230922按F2进到BIOS ,然后进System Setup——iDRAC setting——Hardware configuration validation, 第二个内容先改成Yes,之后第一个内容改成Disabled。之后点右下角的Back返回,之后点Finish保存 设置后正常 更新04节点IDARC证书为 enterprise 关闭超线程 在系统启动页面,按F2进入系统设置页面,选择-》system BIOS setup->processor setup->logical cpu。禁用该选项,即为禁用超线程。 目前集群运行正常宋旭蒙
20230926n2p2 lammps & GPU 及slurm脚本整理宋旭蒙
20230928加装UPS后 集群开机顺序有误 导致slurm服务异常 已解决宋旭蒙