support

省電力などを目的として、サーバー室の空調出力をできるだけ下げたい場合があります。そのような場合に、サーバー内部の温度情報が、空調出力を調整する判断材料となるでしょう。本ページでは、OS上からCLIで情報を取得する方法について、解説します。

HPC-ProServerでは、OS上で下記のコマンドを実行することでサーバー内部の温度情報を得ることができます。

# omreport chassis temps

 ==== 表示例 ここから ====
 Temperature Probes Information

 ————————————
 Main System Chassis Temperatures: Ok
 ————————————

 Index                     : 0
 Status                    : Ok
 Probe Name                : CPU1 Temp
 Reading                   : 34.0 C
 Minimum Warning Threshold : [N/A]
 Maximum Warning Threshold : [N/A]
 Minimum Failure Threshold : 3.0 C
 Maximum Failure Threshold : 89.0 C

 Index                     : 1
 Status                    : Ok
 Probe Name                : System Board Inlet Temp
 Reading                   : 24.0 C
 Minimum Warning Threshold : 3.0 C
 Maximum Warning Threshold : 38.0 C
 Minimum Failure Threshold : -7.0 C
 Maximum Failure Threshold : 42.0 C

 Index                     : 2
 Status                    : Ok
 Probe Name                : System Board Exhaust Temp
 Reading                   : 30.0 C
 Minimum Warning Threshold : 8.0 C
 Maximum Warning Threshold : 75.0 C
 Minimum Failure Threshold : 3.0 C
 Maximum Failure Threshold : 80.0 C
 ==== ここまで ====

テーブル形式で出力する場合は、下記のように”-fmt tbl”オプションをつけて実行します。

# omreport chassis temps -fmt tbl

 ==== 表示例 ここから ====
 Temperature Probes Information

 ————————————
 Main System Chassis Temperatures: Ok
 ————————————

 ————————————————————————————————————————————————————–
 Index| Status| Probe Name               | Reading| Minimum Warning Threshold| Maximum Warning Threshold| Minimum Failure Threshold| Maximum Failure Threshold|
 ————————————————————————————————————————————————————–
 0    | Ok    | CPU1 Temp                | 34.0 C | [N/A]                    | [N/A]                    | 3.0 C                    | 89.0 C                   |
 ————————————————————————————————————————————————————–
 1    | Ok    | System Board Inlet Temp  | 23.0 C | 3.0 C                    | 38.0 C                   | -7.0 C                   | 42.0 C                   |
 ————————————————————————————————————————————————————–
 2    | Ok    | System Board Exhaust Temp| 29.0 C | 8.0 C                    | 75.0 C                   | 3.0 C                    | 80.0 C                   |
 ————————————————————————————————————————————————————–
 ==== ここまで ====

表示項目の説明

Probe Name温度センサー名が記載されています。
“CPU…”はCPU温度センサーです。
上記の事例では1つですが、実際にはCPU数分のセンサーがあります(CPU1, CPU2, …)。
“Inlet…”は吸気温度センサー、”Exhaust…”は排気温度センサーです。
Reading温度の実測値(コマンド実行時)で、摂氏温度で表されています。
Thresholdサーバ構成上自動決定されたアラートの温度閾値です。

注意(Warning)、不全(Failure)の最大値、最小値が表示されます(サーバの構成により閾値は異なります)。実際のこの閾値の温度に達するとアラートが発生します(前面LCDパネル等に表示)。空調等で室温調整する場合、各温度が注意(Warning)に達しない範囲内で行うことが重要です。

閾値を超え(アラートされている状態で)継続使用すると、故障の発生や、例え故障しなくても製品寿命が短くなる恐れがありますので、ご注意下さい。特に温度上昇によるHDDへのダメージは大きいため、データのロストに繋がる場合もあります。また、CPUがスロットリングを行うことでパフォーマンスが上がらないケースも想定されます。

なお、”吸気温度”に関してのみですがアベレージとピーク温度が常時記録されます。

下記のコマンド実行にて記録が確認ができます。

 (管理者権限で実行)
 # racadm inlettemphistory get

 ==== 実行例 ====

 Duration Above Warning Threshold as Percentage = 0.0%
 Duration Above Critical Threshold as Percentage = 0.0%

 Average Temperatures
 Last Hour  = 32C ( 89.6F )
 Last Day   = 30C ( 86.0F )
 Last Week  = 29C ( 86.0F )
 Last Month = 30C ( 86.0F )
 Last Year  = 26C ( 78.8F )

 Peak Temperatures
 Last Hour  = 33C ( 91.4F ) [At Thu, 12 May 2022 13:06:17]
 Last Day   = 33C ( 91.4F ) [At Wed, 11 May 2022 15:58:08]
 Last Week  = 33C ( 91.4F ) [At Wed, 11 May 2022 15:58:08]
 Last Month = 34C ( 93.2F ) [At Sun, 24 Apr 2022 04:17:38]
 Last Year  = 35C ( 95.0F ) [At Mon, 28 Mar 2022 11:27:00]

 ========

各々直近の1時間(Hour)、1日(Day)、1週間(Week)、1か月(Month)、1年(Year)単位の数値です。

吸気温度はサーバ全面の”室温”と見なしても良いため、概ね室温の変化と同等です。

以上