ジョブ管理システムとして Altair® Grid Engine® を採用
計算機を効率よく運用するためには、信頼の置ける ジョブ管理システム が必要です。ジョブ管理システムが導入されているシステムでは、複数のユーザーが予め定められたジョブ運用ポリシーに基づき公平にジョブが実行され、システムの計算リソースが極限まで有効活用されます。
弊社では、Altair® Grid Engine® を標準ジョブ管理システムとして採用し、お客様へご利用をお勧めしています。
ジョブ管理システムに求められる信頼性
ジョブを管理するということは、ユーザーの実行するあらゆるジョブについて、ジョブ管理システムが柔軟に対応していることが必要です。ジョブの実行については、以下のようなさまざまなケースの検討が必要です。
シングルジョブ | シンプルなシングルジョブ 大量のシングルジョブを配列にしてスループットを向上 |
並列ジョブ | ネットワークを介するMPI並列 スレッドがノード内に限定されたスレッド並列(OpenMP) Hybrid-MPI並列 (MPIとOpenMP) |
コンテナ化されたジョブ | Dockerジョブ Singularityジョブ |
計算リソースの指定 | 実行時間 メモリ量 GPU数 商用アプリケーションの利用可能なライセンス数 |
依存関係のジョブ | 上記のさまざまなジョブ同士の連携を設定 |
スケジューリング | ユーザーやグループ毎に使用可能な計算リソースを指定 ジョブ実行時のリソース予約 |
また、ジョブ管理システムでは、ジョブの運用で問題が生じた場合に、問題を検証できるだけのログを取得できることがとても重要です。Altair® Grid Engine® ではデフォルトで利用可能な稼働統計ツールも充実しており、何が原因でジョブが終了たのかを調べるための手がかりが豊富に用意されています。
サポートサービスの充実した商用ジョブ管理ソフトウェア
Altair® Grid Engine® は、商用のソフトウェアであり、問題解決のための正確なサポートが開発元から得られます。ジョブ運用の現場で発生している問題はとても複雑であり、その解決のために高度に専門的な知見が必要となる場合があります。ジョブ管理システムは、システムの運用において極めて重要な機能ですので、弊社では、サポートサービスが充実した Altair® Grid Engine® を強くお勧めしています。