
最新のAI開発、特に大規模言語モデル(LLM)の世界では、GPU のメモリ容量が性能を左右する決定的な要因となります。今回、96GBというGDDR7に体操した高速な大容量メモリを搭載したプロフェッショナル向け GPU (NVIDIA RTX PRO 6000 Blackwell Server Edition)を使い、その真価を問うべく、人気のLLM「Llama 3 8B」のファインチューニング・ベンチマークを実施しました。
本記事では、そのテストで用いたモデルやデータ、学習手法について詳しく解説し、60GBを超えるGPUメモリを消費した、要求の厳しいタスクが成功裏に完了した結果を報告します。
深層学習モデル:Meta Llama 3 8B
今回の主役は、Meta社が開発したオープンソースLLMの最新版Llama 3 8Bです。「8B」は、モデルが80億個もの調整可能なパラメータを持っていることを意味します。この膨大なパラメータにより、人間のような自然な文章生成や、複雑な指示への応答が可能です。
このような最先端のモデルを扱うことは、それ自体がGPUに対する厳しいストレステストとなります。
教科書となるデータセット:Alpaca
モデルに新たな知識や応答スタイルを教え込むための「教科書」として、スタンフォード大学が公開したAlpacaデータセットを使用しました。これは、約52,000件の「指示(instruction)」と「模範応答(output)」のペアで構成されており、LLMにアシスタントのような対話能力を教えるための定番データセットです。
今回のテストでは、この中から2,000件の学習データと200件の評価データを使用しました。
学習手法:LoRAによる効率的ファインチューニング
80億個ものパラメータ全てを再トレーニングするのは、膨大な計算リソースと時間を要します。そこで今回は、LoRA(Low-Rank Adaptation) という、非常に効率的なファインチューニング手法を採用しました。
これは、巨大なエンジン(元のLlama 3モデル)の大部分は凍結(固定)したまま、性能を向上させるための小さな「チューニングチップ」(LoRAアダプタ)だけを追加で学習させるような技術です。これにより、トレーニングが必要なパラメータの数を全体の1%未満に抑えつつ、モデルの性能を特定のタスクに最適化できます。この手法こそが、単一のGPUで巨大モデルのファインチューニングを可能にする鍵となります。
ベンチマーク結果と96GBメモリの優位性
圧巻のGPUメモリ使用量
今回のテストで最も注目すべき結果は、GPUのメモリ使用量です。nvidia-smiコマンドで確認したところ、学習中のメモリ使用量は60,827MiB(約61GB)に達しました。
# nvidia-smi
Mon Sep 29 16:35:06 2025
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 580.65.06 Driver Version: 580.65.06 CUDA Version: 13.0 |
+-----------------------------------------+------------------------+----------------------+
| GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|=========================================+========================+======================|
| 0 NVIDIA RTX PRO 6000 Blac... Off | 00000001:C5:00.0 Off | 0 |
| N/A 65C P0 573W / 600W | 60827MiB / 97887MiB | 99% Default |
| | | Disabled |
+-----------------------------------------+------------------------+----------------------+
+-----------------------------------------------------------------------------------------+
| Processes: |
| GPU GI CI PID Type Process name GPU Memory |
| ID ID Usage |
|=========================================================================================|
| 0 N/A N/A 966128 C python 60818MiB |
+-----------------------------------------------------------------------------------------+
これは、一般的なコンシューマ向けGPU(8GB〜24GB)のメモリ容量を遥かに超えています。バッチサイズを16に設定し、80億パラメータのモデルを16bit精度で安定して学習させるこのタスクは、48GBクラスのGPUメモリでも困難であり、96GBという大容量メモリが持つ明確な優位性を示す結果となりました。
学習の成功
学習は、10エポック(データセット全体を10周)にわたってエラーなく安定して完走しました。学習の誤差を示すlossの値は、学習が進むにつれて着実に低下し、モデルがAlpacaデータセットの指示応答パターンを正常に学習していることが確認できました。
{'loss': 1.4614, 'grad_norm': 0.14138686656951904, 'learning_rate': 0.0003847619047619048, 'epoch': 0.4}
{'loss': 1.1013, 'grad_norm': 0.12235714495182037, 'learning_rate': 0.0003688888888888889, 'epoch': 0.8}
{'loss': 1.062, 'grad_norm': 0.11163541674613953, 'learning_rate': 0.000353015873015873, 'epoch': 1.19}
{'loss': 1.0593, 'grad_norm': 0.1250176876783371, 'learning_rate': 0.00033714285714285714, 'epoch': 1.59}
{'loss': 1.0479, 'grad_norm': 0.1434130072593689, 'learning_rate': 0.0003212698412698413, 'epoch': 1.99}
{'loss': 1.0133, 'grad_norm': 0.13736800849437714, 'learning_rate': 0.00030539682539682537, 'epoch': 2.38}
{'loss': 1.0271, 'grad_norm': 0.15038220584392548, 'learning_rate': 0.0002895238095238095, 'epoch': 2.78}
{'loss': 0.9791, 'grad_norm': 0.17090779542922974, 'learning_rate': 0.0002736507936507937, 'epoch': 3.18}
{'loss': 0.9713, 'grad_norm': 0.22249649465084076, 'learning_rate': 0.00025777777777777783, 'epoch': 3.58}
{'loss': 0.95, 'grad_norm': 0.1781598925590515, 'learning_rate': 0.0002419047619047619, 'epoch': 3.98}
{'loss': 0.8822, 'grad_norm': 0.2536134421825409, 'learning_rate': 0.00022603174603174603, 'epoch': 4.37}
{'loss': 0.8985, 'grad_norm': 0.24608735740184784, 'learning_rate': 0.00021015873015873017, 'epoch': 4.77}
{'loss': 0.8644, 'grad_norm': 0.26266995072364807, 'learning_rate': 0.0001942857142857143, 'epoch': 5.16}
{'loss': 0.8187, 'grad_norm': 0.26044702529907227, 'learning_rate': 0.00017841269841269844, 'epoch': 5.56}
{'loss': 0.8284, 'grad_norm': 0.32168278098106384, 'learning_rate': 0.00016253968253968255, 'epoch': 5.96}
{'loss': 0.7521, 'grad_norm': 0.31524431705474854, 'learning_rate': 0.00014666666666666666, 'epoch': 6.35}
{'loss': 0.747, 'grad_norm': 0.32960838079452515, 'learning_rate': 0.0001307936507936508, 'epoch': 6.75}
{'loss': 0.712, 'grad_norm': 0.5177581906318665, 'learning_rate': 0.00011492063492063491, 'epoch': 7.14}
{'loss': 0.6612, 'grad_norm': 0.3871738612651825, 'learning_rate': 9.904761904761905e-05, 'epoch': 7.54}
{'loss': 0.6796, 'grad_norm': 0.40633225440979004, 'learning_rate': 8.317460317460319e-05, 'epoch': 7.94}
{'loss': 0.6159, 'grad_norm': 0.4116338789463043, 'learning_rate': 6.730158730158731e-05, 'epoch': 8.34}
{'loss': 0.6077, 'grad_norm': 0.439283549785614, 'learning_rate': 5.142857142857143e-05, 'epoch': 8.74}
{'loss': 0.6045, 'grad_norm': 0.48983249068260193, 'learning_rate': 3.555555555555556e-05, 'epoch': 9.13}
{'loss': 0.5628, 'grad_norm': 0.5023831725120544, 'learning_rate': 1.9682539682539684e-05, 'epoch': 9.53}
{'loss': 0.553, 'grad_norm': 0.4606163203716278, 'learning_rate': 3.8095238095238102e-06, 'epoch': 9.93}
{'train_runtime': 594.6329, 'train_samples_per_second': 33.634, 'train_steps_per_second': 1.059, 'train_loss': 0.8561707674510896, 'epoch': 10.0}
動作環境
HPC-ProServer DPeR7725
CPU : (2) AMD EPYC 9745 128C/256T 2.4~3.78GHz
Mem : Total 384GB (12) 32GB DDR5
GPU : (1) NVIDIA RTX PRO 6000 Blackwell Server Edition (GDDR7 96GB PCIe 600W)
OS : RockyLinux9.6

HPC-ProServer DPeR7725は、2基の第5世代AMD EPYC™ プロセッサー、最大8個のPCIe Gen5スロット、DDR5メモリーとオプションのデュアルOCPを搭載しており、要求の厳しいデータ アプリケーションの実行に最適です。
本稿でご紹介している検証は、電源は200Vであるものの空冷環境に設置されており、稼働させるために特別な冷却設備は必要ない点で安心して導入できます。
まとめ
今回のベンチマークは、単にプログラムを動かすだけでなく、96GBという大容量GPUメモリが現代のAI開発においていかに重要であるかを具体的に示すことに成功しました。
Llama 3 8BとLoRAを用いたファインチューニングは、GPUメモリを60GB以上消費する非常に要求の厳しいタスクでしたが、ハードウェアの性能を最大限に引き出すことで、安定した学習を最後までやり遂げることができました。これは、より複雑で大規模なAIモデルへの挑戦に向けた、確かな一歩となります。