处理时间 | 处理记录 | 处理人 |
---|---|---|
20230825 | 学生反馈管理节点 ssh卡顿 远程处理发现 systemctl daemon-reload 无异常 环境变量无异常 但系统待机 sy高达3-5 无异常进程 其中top htop iotop单进程高达100%(日常仅有1%)左右 了解到该节点装有卡巴斯基杀毒 且杀毒目前异常无法正常系统 告知其先解决杀毒问题 | 宋旭蒙 |
20230830 | 处理发现其中一块硬盘报错 目前在rebuild修复 | 宋旭蒙 |
20230906-17:40 | 通过idrac查看发现有一块硬盘有报错信息,但目前暂不影响使用,先将当前idrac日志清空,发现设备ssh有问题,查看ssh服务发现服务报错,之后重启服务也还是不能正常重启,之后将ssh服务卸载重新安装发现有yum源相关报错,目前已下载rpm包给学生,待学生去机房负责到服务器上联系我们 | 马文 |
20230907-17:40 | 目前尝试使用yum在线以及配置本地源和下载离线包安装openssh都不行,已经和学生说明具体情况,目前暂时约到明天重装系统,已告知客户提前备份数据 | 马文 |
20230908-17:50 | 远程帮助客户重新安装centos7系统,并配置NIS,NFS,配置slurm20.02,软件目前还在安装中 | 马文 |
20230915-17:00 | 远程重新给主节点安装intel2021 ,重新编译vasp6.3.2,目前已编译完成,待客户重启完设备之后测试 | 马文 |
20230920 | 目前IB驱动编译完成,驱动内核报错途中发现gcc版本高于系统默认版本,替换后驱动目前安装正常。但是intel编译器和vasp需要基于系统默认版本重新编译(因为发现从节点使用的是默认版本的编译器) | 宋旭蒙 |
20230921 | 重新配置slurm-21.08.8-2 服务均正常包含 slurmdbd 重新编译intel编译器和vasp.6.3.0 解决终端运行报错: UCX ERROR ibv_exp_query_device(mlx5_0) returned 95: Operation not supported 添加环境变量: export FI_PROVIDER=tcp slurm运行提交报错: UCX ERROR ibv exp query_device 脚本添加: export I_MPI_OFI_PROVIDER=verbs 目前除node04 | 宋旭蒙 |
20230921 | 目前除node04设备外 其他设备均正常运行 node04与dell沟通怀疑是固态没有正常识别 目前与学生沟通看是否方便关机放电; | 宋旭蒙 |
20230922 | 学生反馈管理节点无连接其他从节点 通过IDARC提取日志 与dell沟通发现IB卡存在问题(不是我们的配件) 联系同学重新插拔后正常 检查其他三个节点的IDARC 2 3均正常 4节点更换主板后每次重启提示 UEFI0116 One or more boot drivers have reported issue(s). dell建议重新插拔固态 插拔问题依旧 那边建议设置 按F2进到BIOS ,然后进System Setup——iDRAC setting——Hardware configuration validation, 第二个内容先改成 | 宋旭蒙 |
20230922 | 按F2进到BIOS ,然后进System Setup——iDRAC setting——Hardware configuration validation, 第二个内容先改成Yes,之后第一个内容改成Disabled。之后点右下角的Back返回,之后点Finish保存 设置后正常 更新04节点IDARC证书为 enterprise 关闭超线程 在系统启动页面,按F2进入系统设置页面,选择-》system BIOS setup->processor setup->logical cpu。禁用该选项,即为禁用超线程。 目前集群运行正常 | 宋旭蒙 |
20230926 | n2p2 lammps & GPU 及slurm脚本整理 | 宋旭蒙 |
20230928 | 加装UPS后 集群开机顺序有误 导致slurm服务异常 已解决 | 宋旭蒙 |