Intel Xeon Sapphire Rapids GPU R760XA

第4世代 Xeon スケーラブルプロセッサ Sapphire Rapids を搭載可能な 2ソケット 2U サーバー。最大4基の ダブルワイド GPU または 最大12基の シングルワイド GPU のパワーを活用できます。AI のトレーニングや推論、分析、仮想化、パフォーマンス レンダリング に至るまで、さまざまな アプリケーション を最適化することによってビジネスを加速させることができます。

DWサイズの GPU が最大 4 台 – 第4世代 NV Link 対応

Intel Xeon Server GPU R760XA

2UサイズのコンパクトなシャーシにDWサイズのハイスペックGPUを最大4台搭載可能です。シャーシ前面にGPUスロットを配置することで、1台あたり消費電力350WまでのハイエンドGPUを空冷システムでも対応が実装可能です。

また、実装された4台のGPUは、第4世代NVIDIA NVLinkにより相互接続が可能であり、各 GPU 間をシームレスに高速通信することで、大規模な計算を高速に実行することができます。

水冷 対応し、ハイスペックな CPU の実装と空調電力の低減が可能に

Intel Xeon DLC 水冷

HPC分野では、空冷では難しいラック搭載密度やサーバ構成が、「水冷」で実現されてきました。液体は、気体の数十倍から数百倍の冷却能力を持ちます。サーバ、特にCPUの冷却媒体に水を活用する水冷の歴史は、1960年代のメインフレームまで遡ります。1980年代にはすでに水冷のスーパーコンピューターが存在していました。

「水冷サーバ」の今の主流が、サーバ内部に搭載した水冷コンポーネントがCPUなどの熱いコンポーネントに直接触れて熱を逃がす、「直接接触式液体冷却(DLC、Direct Liquid Cooling)」です。国内でも主要サーバベンダーから製品が提供されています。近年では、水を冷やすための電力消費も抑える目的で、冷却水に常温水や温水を使うのがトレンドとなっています。

HPC-ProServer DPeR760XAは、DLCに対応し、高い演算性能の実現と、省電力に貢献します。

GPU , CUDA , InfiniBand , Compiler , MPI , Job Scheduler 全て実装済で納品

GPU Computing

機械学習やHPC分野向けサーバーにおけるGPU、CUDA、InfiniBand、コンパイラ、MPIなどの実装は、確かに複雑で手間のかかる作業です。しかし、これらの実装がサーバーにワンストップで実現されることには、ユーザーにとって重要なメリットがあります。

まず第一に、これらの実装がワンストップで提供されることによって、ユーザーは時間と労力を節約できます。複数のコンポーネントを個別に実装する手間を省くことで、ユーザーは素早くシステムを構築し、プロジェクトに集中することができます。

さらに、これらの実装が整合性の取れた形で提供されることで、互いに連携し、シームレスに動作することが保証されます。異なるコンポーネント間での互換性の問題や設定の複雑さを心配する必要がなくなります。これにより、ユーザーはシステムの安定性と信頼性を高め、生産性を向上させることができます。

さらに、ワンストップでの実装によって、サポートやメンテナンスも円滑に行われます。ユーザーは1つのベンダーやサービスプロバイダーに相談するだけで、問題解決やアップデートのサポートを受けることができます。これにより、ユーザーは迅速なサポートを受けながら、システムのパフォーマンスを最大化することができます。

総括すると、これらの実装がサーバーにワンストップで実現されることは、ユーザーにとって効率的かつ簡便な解決策です。時間と労力の節約、整合性の取れたシステム、円滑なサポートとメンテナンスを通じて、ユーザーはより効果的に機械学習やHPCプロジェクトに取り組むことができます。

ジョブ管理システムとして Altair® Grid Engine® を採用

計算機を効率よく運用するためには、信頼の置ける ジョブ管理システム が必要です。ジョブ管理システムが導入されているシステムでは、複数のユーザーが予め定められたジョブ運用ポリシーに基づき公平にジョブが実行され、システムの計算リソースが極限まで有効活用されます。

弊社では、Altair® Grid Engine® を標準ジョブ管理システムとして採用し、お客様へご利用をお勧めしています。

ジョブ管理システムに求められる信頼性

ジョブを管理するということは、ユーザーの実行するあらゆるジョブについて、ジョブ管理システムが柔軟に対応していることが必要です。ジョブの実行については、以下のようなさまざまなケースの検討が必要です。

シングルジョブシンプルなシングルジョブ
大量のシングルジョブを配列にしてスループットを向上
並列ジョブネットワークを介するMPI並列
スレッドがノード内に限定されたスレッド並列(OpenMP)
Hybrid-MPI並列 (MPIとOpenMP)
コンテナ化されたジョブDockerジョブ
Singularityジョブ
計算リソースの指定実行時間
メモリ量
GPU数
商用アプリケーションの利用可能なライセンス数
依存関係のジョブ上記のさまざまなジョブ同士の連携を設定
スケジューリングユーザーやグループ毎に使用可能な計算リソースを指定
ジョブ実行時のリソース予約

また、ジョブ管理システムでは、ジョブの運用で問題が生じた場合に、問題を検証できるだけのログを取得できることがとても重要です。Altair® Grid Engine® ではデフォルトで利用可能な稼働統計ツールも充実しており、何が原因でジョブが終了たのかを調べるための手がかりが豊富に用意されています。

サポートサービスの充実した商用ジョブ管理ソフトウェア

Altair® Grid Engine® は、商用のソフトウェアであり、問題解決のための正確なサポートが開発元から得られます。ジョブ運用の現場で発生している問題はとても複雑であり、その解決のために高度に専門的な知見が必要となる場合があります。ジョブ管理システムは、システムの運用において極めて重要な機能ですので、弊社では、サポートサービスが充実した Altair® Grid Engine® を強くお勧めしています。

仕様:HPC-ProServer DPeR760XA

プロセッサー・最大2基の第4世代インテル Xeon スケーラブル・プロセッサー(プロセッサーごとに最大56コア)
メモリー・32本の DDR5 DIMMスロット
・最大8TBのRDIMMをサポート、最大速度4800 MT/s
・Registerd ECC DDR5 DIMM サポート
ストレージ
コントローラー
内蔵コントローラー:
・PPERC H965i, PERC H755, PERC H755N, PERC H355, HBA355i
内部ブート:
・Boot Optimized Storage Subsystem (BOSS-N1):HWRAID 1, 2 x M 2 NVMe SSDドライブまたはUSB
外部HBA(RAID非対応):
・HBA355e
ドライブ ベイ前面ベイ:
・Up to 6 x 2.5-inch NVMe, max 92.16 TB
・Up to 8 x 2.5-inch SAS/SATA/NVMe, max 122.88 TB
電源装置・2800 W Titanium 200–240 VAC or 240 HVDC, hot swap redundant
・2400 W Platinum 100–240 VAC or 240 HVDC, hot swap redundant
冷却・空冷
・水冷 Direct Liquid Cooling (DLC) ※オプション
ファン・最大6個のホットスワップ対応標準ファン
寸法・高さ:86.8 mm(3.41インチ)
・幅:482 mm(18.97インチ)
・奥行き:946.73 mm(37.27インチ)
フォーム
ファクター
2Uラック サーバー
組込型管理・iDRAC9
・iDRACダイレクト
・Redfish の iDRAC RESTful API
・Quick Sync 2 wireless module
ベゼル・Optional LCD bezel or security bezel
OpenManage・OpenManage Enterprise
・OpenManage Power Managerプラグイン
・OpenManageサービス プラグイン
・OpenManage Update Managerプラグイン
・CloudIQ for PowerEdgeプラグ イン
・OpenManage Enterprise Integration for VMware vCenter
・OpenManage Integration for Microsoft System Center
・OpenManage Integration with Windows Admin Center
モビリティーOpenManage Mobile
OpenManage
の統合
・BMC Truesight
・Microsoft System Center
・OpenManage Integration with ServiceNow
・Red Hat Ansible Modules
・Terraformプロバイダー
・VMware vCenterおよびvRealize Operations Manager
セキュリティ・暗号化形式で署名されたファームウェア
・静止データ暗号化(ローカルまたは外部キー管理を使用したSED)
・セキュア ブート
・完全消去
・セキュアなコンポーネント検証(ハードウェアの整合性チェック)
・シリコン ルート オブ トラスト
・System Lockdown(iDRAC9 EnterpriseまたはDatacenterが必要)
・TPM 2.0 FIPS、CC-TCG認証、TPM 2.0 China NationZ
ネットワーク・2 x 1 Gbe LOMカード ※オプション
・1 x OCPカード3.0 ※オプション
GPU最大 4 台の 600 W DW PCIe x16 GPU cards
最大 12 台の 75 W SW PCIe x8 GPU cards
ポート前面ポート
・1 x iDRACダイレクト(Micro-AB USB)ポート
・1 x USB 2.0
・1 x VGA
背面ポート
・1 x 専用iDRAC Ethernetポート
・1 x USB 2.0
・1 x USB 3.0
・1 x VGA ※水冷の場合はオプション
・1 x Serial ※オプション
内部ポート
・1 x USB 3.0(オプション)
PCIe最大 12 x PCIe スロット (x16 connector)
4 x16 Rear Full height, Half length + 4 x16 Front Full height, Full length DW
4 x16 Rear Full height, Half length + 8 x 8 Front Full height, Full length SW
OS
Hypervisor
・Canonical Ubuntu Server LTS
・Hyper-V搭載Microsoft Windows Server
・Red Hat Enterprise Linux
・SUSE Linux Enterprise Server
・VMware ESXi