SLURM 클러스터 운영 가이드

Jiheon Choi January 06, 2025 #HPC #slurm

최근 AI/ML 워크로드가 커지면서 고성능컴퓨팅 자원의 수요가 증가하는 것으로 보인다. 클러스터에 제출되는 작업의 스케줄링을 위해 사용되는 SLURM workload manager를 운영하는 분들을 위해 가이드를 간단히 작성해 보려 한다.

Introduction

SLURM workload manager는 2002년에 resource management를 목적으로 개발이 시작되었다. 고성능컴퓨팅 클러스터에 사용자가 제출한 다양한 유형의 작업에 대해서 전체 노드를 할당하는 방식으로 처음 구현되었다. 이 과정에서 'Maui' 등과 같은 외부 스케줄러를 활용하여 작업 큐를 관리하였고, 이후에 backfill scheduler 플러그인이나 built-in scheduling 등과 같이 작업의 우선순위를 고려하여 적절한 스케줄링 기법을 추가하여 사용하였다. 이러한 과정을 거쳐서 슈퍼컴퓨터에 가장 필수적인 워크플로우를 관리할 수 있는 workload manager로 발전하게 되었다.

Install

(작성 중)