在Ubuntu系統中搭建Slurm集群的步驟如下:
安裝Slurm軟件包: 在所有節點上安裝Slurm軟件包,可以使用以下命令:
sudo apt-get update
sudo apt-get install slurm-wlm
配置Slurm集群:
/etc/slurm/slurm.conf
,配置節點信息、用戶信息、隊列信息等。sudo mkdir -p /var/spool/slurmctld
sudo mkdir -p /var/spool/slurmd
sudo chown slurm: /var/spool/slurmctld
sudo chown slurm: /var/spool/slurmd
啟動Slurm服務: 在主節點上啟動Slurm控制節點服務:
sudo systemctl start slurmctld
在所有計算節點上啟動Slurm工作節點服務:
sudo systemctl start slurmd
測試Slurm集群:
sinfo
命令查看集群狀態:sinfo
srun
命令提交任務進行測試:srun -N2 hostname
以上是在Ubuntu系統中搭建Slurm集群的基本步驟,根據實際情況可能還需要進行其他配置和調整。建議參考Slurm官方文檔以獲取更詳細的配置和使用說明。