support

Altair Grid Engine (以下, AGE )の qstat コマンドを実行するとジョブのステータスが確認できます。ジョブのステータスが “qw” (queue wait) になると、キューの順番が来てもジョブが実行されません。ジョブのステータスが “qw” になった場合には、さまざまな理由が考えられますが、qstat コマンドに -j オプションを付けて実行した場合に表示される “scheduling info” 項目に、その原因が出力されます。

空きスロットがない場合

出力例

$ qstat -j 614
==== scheduling info のみ抜粋 ====
scheduling info: queue instance “all.q@node01” dropped because host slots are full (similar reason #1)
queue instance “all.q@node02” dropped because host slots are full (similar reason #2)
All queues dropped because of overload or full

上記の場合は、指定したキュー(all.q)内の全てのノード(node01,node02)に空きスロットがないことを示していますので、既に実行されているジョブでスロットが占有されているケースが考えられます。

 

並列実行に必要なリソースが足りない場合

出力例

$ qstat -j 614
==== scheduling info のみ抜粋 ====
scheduling info: cannot run in PE “openmpi” because resource requirements of the job cannot be fulfilled

上記の場合は、ジョブの並列実行に必要なリソースが足りないために実行できないことを示していますので、サブミット時(ジョブスクリプト内)のPE指定が間違っているか、あるいはスロット数指定が間違っている(スロット数が多すぎる)等が原因として考えられます。