第4世代 Xeon スケーラブルプロセッサ Sapphire Rapids を搭載可能な 2ソケット 2U サーバー。最大4基の ダブルワイド GPU または 最大12基の シングルワイド GPU のパワーを活用できます。AI のトレーニングや推論、分析、仮想化、パフォーマンス レンダリング に至るまで、さまざまな アプリケーション を最適化することによってビジネスを加速させることができます。
DWサイズの GPU が最大 4 台 – 第4世代 NV Link 対応
2UサイズのコンパクトなシャーシにDWサイズのハイスペックGPUを最大4台搭載可能です。シャーシ前面にGPUスロットを配置することで、1台あたり消費電力350WまでのハイエンドGPUを空冷システムでも対応が実装可能です。
また、実装された4台のGPUは、第4世代NVIDIA NVLinkにより相互接続が可能であり、各 GPU 間をシームレスに高速通信することで、大規模な計算を高速に実行することができます。
水冷 対応し、ハイスペックな CPU の実装と空調電力の低減が可能に
HPC分野では、空冷では難しいラック搭載密度やサーバ構成が、「水冷」で実現されてきました。液体は、気体の数十倍から数百倍の冷却能力を持ちます。サーバ、特にCPUの冷却媒体に水を活用する水冷の歴史は、1960年代のメインフレームまで遡ります。1980年代にはすでに水冷のスーパーコンピューターが存在していました。
「水冷サーバ」の今の主流が、サーバ内部に搭載した水冷コンポーネントがCPUなどの熱いコンポーネントに直接触れて熱を逃がす、「直接接触式液体冷却(DLC、Direct Liquid Cooling)」です。国内でも主要サーバベンダーから製品が提供されています。近年では、水を冷やすための電力消費も抑える目的で、冷却水に常温水や温水を使うのがトレンドとなっています。
HPC-ProServer DPeR760XAは、DLCに対応し、高い演算性能の実現と、省電力に貢献します。
GPU , CUDA , InfiniBand , Compiler , MPI , Job Scheduler 全て実装済で納品
機械学習やHPC分野向けサーバーにおけるGPU、CUDA、InfiniBand、コンパイラ、MPIなどの実装は、確かに複雑で手間のかかる作業です。しかし、これらの実装がサーバーにワンストップで実現されることには、ユーザーにとって重要なメリットがあります。
まず第一に、これらの実装がワンストップで提供されることによって、ユーザーは時間と労力を節約できます。複数のコンポーネントを個別に実装する手間を省くことで、ユーザーは素早くシステムを構築し、プロジェクトに集中することができます。
さらに、これらの実装が整合性の取れた形で提供されることで、互いに連携し、シームレスに動作することが保証されます。異なるコンポーネント間での互換性の問題や設定の複雑さを心配する必要がなくなります。これにより、ユーザーはシステムの安定性と信頼性を高め、生産性を向上させることができます。
さらに、ワンストップでの実装によって、サポートやメンテナンスも円滑に行われます。ユーザーは1つのベンダーやサービスプロバイダーに相談するだけで、問題解決やアップデートのサポートを受けることができます。これにより、ユーザーは迅速なサポートを受けながら、システムのパフォーマンスを最大化することができます。
総括すると、これらの実装がサーバーにワンストップで実現されることは、ユーザーにとって効率的かつ簡便な解決策です。時間と労力の節約、整合性の取れたシステム、円滑なサポートとメンテナンスを通じて、ユーザーはより効果的に機械学習やHPCプロジェクトに取り組むことができます。
ジョブ管理システムとして Altair® Grid Engine® を採用
計算機を効率よく運用するためには、信頼の置ける ジョブ管理システム が必要です。ジョブ管理システムが導入されているシステムでは、複数のユーザーが予め定められたジョブ運用ポリシーに基づき公平にジョブが実行され、システムの計算リソースが極限まで有効活用されます。
弊社では、Altair® Grid Engine® を標準ジョブ管理システムとして採用し、お客様へご利用をお勧めしています。
ジョブ管理システムに求められる信頼性
ジョブを管理するということは、ユーザーの実行するあらゆるジョブについて、ジョブ管理システムが柔軟に対応していることが必要です。ジョブの実行については、以下のようなさまざまなケースの検討が必要です。
シングルジョブ | シンプルなシングルジョブ 大量のシングルジョブを配列にしてスループットを向上 |
並列ジョブ | ネットワークを介するMPI並列 スレッドがノード内に限定されたスレッド並列(OpenMP) Hybrid-MPI並列 (MPIとOpenMP) |
コンテナ化されたジョブ | Dockerジョブ Singularityジョブ |
計算リソースの指定 | 実行時間 メモリ量 GPU数 商用アプリケーションの利用可能なライセンス数 |
依存関係のジョブ | 上記のさまざまなジョブ同士の連携を設定 |
スケジューリング | ユーザーやグループ毎に使用可能な計算リソースを指定 ジョブ実行時のリソース予約 |
また、ジョブ管理システムでは、ジョブの運用で問題が生じた場合に、問題を検証できるだけのログを取得できることがとても重要です。Altair® Grid Engine® ではデフォルトで利用可能な稼働統計ツールも充実しており、何が原因でジョブが終了たのかを調べるための手がかりが豊富に用意されています。
サポートサービスの充実した商用ジョブ管理ソフトウェア
Altair® Grid Engine® は、商用のソフトウェアであり、問題解決のための正確なサポートが開発元から得られます。ジョブ運用の現場で発生している問題はとても複雑であり、その解決のために高度に専門的な知見が必要となる場合があります。ジョブ管理システムは、システムの運用において極めて重要な機能ですので、弊社では、サポートサービスが充実した Altair® Grid Engine® を強くお勧めしています。
仕様:HPC-ProServer DPeR760XA
プロセッサー | ・最大2基の第4世代インテル Xeon スケーラブル・プロセッサー(プロセッサーごとに最大56コア) |
メモリー | ・32本の DDR5 DIMMスロット ・最大8TBのRDIMMをサポート、最大速度4800 MT/s ・Registerd ECC DDR5 DIMM サポート |
ストレージ コントローラー | 内蔵コントローラー: ・PPERC H965i, PERC H755, PERC H755N, PERC H355, HBA355i 内部ブート: ・Boot Optimized Storage Subsystem (BOSS-N1):HWRAID 1, 2 x M 2 NVMe SSDドライブまたはUSB 外部HBA(RAID非対応): ・HBA355e |
ドライブ ベイ | 前面ベイ: ・Up to 6 x 2.5-inch NVMe, max 92.16 TB ・Up to 8 x 2.5-inch SAS/SATA/NVMe, max 122.88 TB |
電源装置 | ・2800 W Titanium 200–240 VAC or 240 HVDC, hot swap redundant ・2400 W Platinum 100–240 VAC or 240 HVDC, hot swap redundant |
冷却 | ・空冷 ・水冷 Direct Liquid Cooling (DLC) ※オプション |
ファン | ・最大6個のホットスワップ対応標準ファン |
寸法 | ・高さ:86.8 mm(3.41インチ) ・幅:482 mm(18.97インチ) ・奥行き:946.73 mm(37.27インチ) |
フォーム ファクター | 2Uラック サーバー |
組込型管理 | ・iDRAC9 ・iDRACダイレクト ・Redfish の iDRAC RESTful API ・Quick Sync 2 wireless module |
ベゼル | ・Optional LCD bezel or security bezel |
OpenManage | ・OpenManage Enterprise ・OpenManage Power Managerプラグイン ・OpenManageサービス プラグイン ・OpenManage Update Managerプラグイン ・CloudIQ for PowerEdgeプラグ イン ・OpenManage Enterprise Integration for VMware vCenter ・OpenManage Integration for Microsoft System Center ・OpenManage Integration with Windows Admin Center |
モビリティー | OpenManage Mobile |
OpenManage の統合 | ・BMC Truesight ・Microsoft System Center ・OpenManage Integration with ServiceNow ・Red Hat Ansible Modules ・Terraformプロバイダー ・VMware vCenterおよびvRealize Operations Manager |
セキュリティ | ・暗号化形式で署名されたファームウェア ・静止データ暗号化(ローカルまたは外部キー管理を使用したSED) ・セキュア ブート ・完全消去 ・セキュアなコンポーネント検証(ハードウェアの整合性チェック) ・シリコン ルート オブ トラスト ・System Lockdown(iDRAC9 EnterpriseまたはDatacenterが必要) ・TPM 2.0 FIPS、CC-TCG認証、TPM 2.0 China NationZ |
ネットワーク | ・2 x 1 Gbe LOMカード ※オプション ・1 x OCPカード3.0 ※オプション |
GPU | 最大 4 台の 600 W DW PCIe x16 GPU cards 最大 12 台の 75 W SW PCIe x8 GPU cards |
ポート | 前面ポート ・1 x iDRACダイレクト(Micro-AB USB)ポート ・1 x USB 2.0 ・1 x VGA 背面ポート ・1 x 専用iDRAC Ethernetポート ・1 x USB 2.0 ・1 x USB 3.0 ・1 x VGA ※水冷の場合はオプション ・1 x Serial ※オプション 内部ポート ・1 x USB 3.0(オプション) |
PCIe | 最大 12 x PCIe スロット (x16 connector) 4 x16 Rear Full height, Half length + 4 x16 Front Full height, Full length DW 4 x16 Rear Full height, Half length + 8 x 8 Front Full height, Full length SW |
OS Hypervisor | ・Canonical Ubuntu Server LTS ・Hyper-V搭載Microsoft Windows Server ・Red Hat Enterprise Linux ・SUSE Linux Enterprise Server ・VMware ESXi |