硕星内部系统-技术部


西北工业大学 柔性电子研究院 卢乾波 1

序列号:
项目开始时间: 2023-11-15
项目结束时间:
目前状态: 系统软件安装中
业务姓名: 马平
联系电话: 18829086752
项目负责人: 田伊蕾

操作记录 增加
操作时间操作记录操作事故操作人
20231205-18:00现场重新安装centos7.9打包系统系统王楷华
20231206-18:00现场安装ib卡驱动,并设置ib地址王楷华
20231215-18:00现场设置拨号上网王楷华
20240124-18:00现场安装ansys、lumerical2023R1,设置集群王楷华
20240129-18:00客户反馈停电后显示器无显示,指导客户将显示器与独显连接,设备依旧无显示,按键盘大小写切换键无反馈;指导客户重启设备,依旧不行;指导客户给设备放电后,可以正常进入系统。远程将设备slurm服务重启。客户要求安装abaqus,未在安装包里找到许可证文件,已向客户反馈王楷华
20240131-18:00远程安装abaqus2023王楷华
20240411客户询问matlab作业管理约束 告知客户matlab建议目前单独使用一个节点 因为matlab的运行机制是根据算例自动分配核心 所以slurm的默认规则无法约束matlab的核心数 需要系统和slurm同时调度约束 这个我们目前还在测试适配宋旭蒙
20240726-16:30合同约定:技术支持服务期为一年(2023.11.14-2024.12.31)张阿楠
20240919-18:30将主节点固态换到节点2上。通过公司打包系统,卸载主节点上机械硬盘挂载;进入系统字符界面,卸载显卡驱动。重新激活集群,目前可以使用的节点01、03、04、05、06、07、09、10、11、12、13,一共可以使用11个节点王楷华
20240920 12:00接通电源,独显无输出,集显左下角接电提示,五分钟没有进一步输出显示,拆除外接设备,pcie网卡,阵列卡,显卡,还是集显左下角接电提示,拆除cpu1,只保留cpu0,单根内存,正常开机,配件全部识别,4根内存插到cpu0。全部识别,将cpu1换到cpu0,开机配件全部识别,原先cpu0换到cpu1,开机正常识别,将pcie网卡,阵列卡,显卡,依次往上加,都能开机并全部识别,下午进行满载测试刘建华
20240923-17:30将主节点送回客户处。将固态硬盘归还到原本设备上。节点3无法使用ib卡,重新插拔ib卡依旧不行;更换其他节点的ib卡依旧不行;更换其他节点的固态硬盘后,可以使用ib卡;重新安装节点三系统;重新设置集群王楷华
20241217-15:15客户反馈主节点黑屏,键鼠无反馈。指导客户拔掉电源线,连按10下开机键,然后等10分钟开机。客户反馈有出现报错DIMM error:System Halt. please check CHE_0。已让客户与业务联系王楷华
20241218-12:00检查主节点,发现报内存错误。重新插拔内存,设备可以正常开启,将所有内存都重新插拔一遍,目前主节点设备可以正常开机王楷华
20241218-17:00客户反馈node04、node14之前无法ssh连接,检查发现node14节点很早之前就有问题无法使用,node04有内存报错,重新插拔内存并告知客户如何插拔内存,node04可以进入bios,但有内存不识别,多次重新插拔并更换位置依旧是那个位置的内存不识别。王楷华
20241218-17:00检查其余从节点,node10、node12无法连接。node12无法进入系统,更换公司硬盘打包系统,进入系统后卡死,按键盘大小写切换键无反馈,多次重启问题依旧。node10无法进入系统,进入公司硬盘打包系统,系统正常,发现设备的root分区无法挂载,其他分区可以正常挂载,输入xfs_repair -L /dev/nvme0n1p4修复分区,可以正常进入系统。客户测试所有从节点提交算例,可正常计算王楷华
20241218-17:00node01、node03、node05、node06、node07、node09、node10、node11、node13节点可以使用王楷华

售后记录
提交时间售后说明状态完成时间操作

配件列表
编号厂商型号SN数量领用人出库时间发票操作
返回