管理機能と演算機能を分散し、演算能力を最大限発揮
ログインサーバー、ファイルサーバー、アプリケーションサーバーなどの管理系サーバーと演算サーバーを別個に構成します。演算サーバーには演算に専念させ、システムのスループットを向上させます。最もシンプルな構成では、ユーザー認証、データI/O処理、インテルコンパイラなどのソフトウェア開発環境、ジョブのプリポスト等の対話的処理、その他管理系処理について、フロントエンドサーバー1台に集約し、演算サーバーにはジョブ管理ソフトを利用して、CPU、メモリ、GPUなどのサーバーリソースを監視し、ジョブにリクエストされたリソースの要件に従って、効率的にジョブを配置することで、システムの性能を最大限に発揮します。また、研究目的やワークロードの種類に応じて、以下のようにシステムを強化することも可能です。
- 演算サーバーについて、台数の増強、メモリ容量の増強、ネットワークの強化など
- データI/O処理、つまりファイルサーバーをフロントエンドサーバーから分離し強化
- 対話的な処理の拡充のために専用サーバーを設置
- ジョブ管理ソフト専用サーバーを設けて大量のジョブについてスループットを強化
全てのサーバーで一貫したファイルシステムとアカウント
ファイルサーバーでは、NFSサーバーを構成します。ユーザーがログインするホームディレクトリをNFS共有することで、どのサーバーにログインしても同一のファイルが参照できます。また、NFSで共有しているディレクトリ上でプログラムを実行すれば、その計算結果も各サーバーに散逸することなく、共有ディレクトリに集約して保存されます。
また、認証サーバーにNISやLDAPなどのアカウント認証サービスを構成します。それらを導入することで、ユーザーはどのサーバーにログインする場合でも、同一のアカウント名とパスワードでアクセスすることができます。複数の演算サーバーを並列並行に稼働させるためには、アカウントの一貫性は極めて重要です。
稼働時間の最大化を図るHPC-ProSupport
HPC-ProSupport は、ハードウェア・ソフトウェアを問わずユーザーの問題解決・負担軽減を目的としたサポートパッケージです。ハードウェアに加えて、OS 及びソフトウェア設定を含めて一元的なサポートサービスを提供します。複数のハードウェアベンダーで構成されることの多い計算機システムにおいて、問い合わせの一次窓口として、サポートを取りまとめる機能も備えます。ハードウェアの保守年数は最長7 年、サポートレベルは当日4 時間以内対応から翌営業日対応まで選択可能。ユーザーの運用形態に合わせて多様なサポートサービスを御提案します。
- ハードウェア障害時の迅速なオンサイト保守対応
- メールや電話によるQA対応
- 障害時のアラートメール受信サービス
このような方針の元、弊社のシステムでは小規模なものから大規模なもまで規模を問わずに、同一の利用環境を提供します。また、サーバーの増設などで、運用中にサーバーリソースが変化してもユーザーはそれを特に意識することなく、一貫した方法で利用することができます。
システム構成例
※実際に納品されるシステムは、御客様からの御依頼に基づくカスタマイズの内容に準じます。
セットアップサービス 一覧
セットアップ | 単位 | 説明 |
---|---|---|
OS Setup per node | サーバー | OSインストール等、基本的な設定作業 |
Hardware Racking per node | 機器 | 機器の物理設置作業、配線作業。 基本的な配線、PDUを含む場合があります。 |
System Network Setup per node | サーバー | IPアドレス/Netmask/Default GW/Nameserver等の基本設定 NFS, NIS, NTP等のサーバー/クライアント設定 |
Firewall Setup | サーバー Firewall | Linux OS上のiptables,firewalld等の設定 または、Firewall機器の導入、設定等の作業一式 |
MPI Setup per node | サーバー | 並列ライブラリ(MPI)インストール及び設定 |
Disksystem create per Volume | RAIDボリューム | RAID構築、ファイルシステム構築 |
UGE Basic Master Setup | qmaster | UGEマスターノード インストール及び設定 |
UGE Client Setup | exec host | UGEクライアントノード インストール及び設定 |
Software Setup | サーバー | ソフトウェアインストール及び設定 |
Intel Dev. Tool Setup | サーバー | インテルソフトウェア開発環境製品インストール及び設定 |
InfiniBand setup per node | サーバー | InfiniBand導入、ドライバインストール、設定 |
UPS Setup | UPS | UPSの自動シャットダウン設定 |
Alert Setup | アラート設定機器 | サーバー、ストレージ等のアラート送信機能の設定 |
CUDA Setup | サーバー | CUDAインストール及び設定 |
Onsite Setup | 人・日 | 現地据付調整作業一式 |