Deep Leraning GPU

最新 GPU のよりよい性能の指標として ResNet-18 による CIFAR-10 を利用した機械学習のベンチマークを実行します。非常に有名で安定した画像分類タスクを通して、GPU 性能を明らかにします。

モデル紹介:ResNet-18とは?

本ベンチマークで利用している深層学習モデルは「ResNet-18」です。これは、画像に何が写っているかを見分ける「画像分類」を得意とする、非常に有名な深層学習モデルです。

  • ResNet(Residual Network)は2015年のImageNet競技会(ILSVRC 2015)でトップレベルの性能(Top-5エラー率3.57%)を示したCNNモデルのファミリーです。
  • 「18」はネットワークの層数を表しており、ResNet-18は比較的浅めの構造ながら、残差(Residual)ブロックにより安定して学習できます。

ResNet-18はその軽量さと堅牢性から、リアルタイム推論やエッジデバイスでの利用にも向いています。これらの特徴が相まって、研究から実装プロジェクトまで幅広く採用されている理由です。

今回のテストで扱ったResNet-18モデルの調整可能なパラメータ数は、約1120万個でした。GPUで使用されているメモリは、9378MiB(実測値)であり、エントリーレベルのGPUでも動作させることが可能です。

データセット紹介:CIFAR-10とは?

深層学習モデルを訓練するためのデータとして、CIFAR-10というデータセットを使用しました。

データの内容:

  • 10種類のカテゴリ: 飛行機、自動車、鳥、猫、鹿、犬、カエル、馬、船、トラック。
  • 画像サイズ: 32×32ピクセルの小さなカラー画像。
  • 総数: 60,000枚の画像が含まれ、そのうち50,000枚を学習用に、10,000枚を評価(テスト)用に使用します。

深層学習モデルは学習用の50,000枚の画像を何度も見ることでパターンを学び、未知の10,000枚の評価用画像でその実力を試されます。

学習プロセスと結果

本ベンチマークでは、ResNet-18モデルにCIFAR-10の画像を見せ、「この画像は10種類のうちどれか?」を繰り返し当てさせる学習を行いました。

モデルは学習用データセット全体を5周(5エポック)学習し、モデルの間違い度合いを示す「損失(loss)」の値は、学習が進むにつれて着実に減少していきます。また、本ページに掲載している全てのベンチマークについて、一貫してジョブ実行時のパラメータに以下を設定しています。

バッチサイズ (Batch Size): 256
学習勾配 (Learning Rate): 0.001

以下は、NVIDIA RTX PRO 6000 Blackwell Server Edition 96GB で実行した際のログです。この結果の「Finished Training in ~」の値をベンチマークの指標としています。

Using device: cuda:0
Downloading CIFAR-10 dataset...
Dataset ready.
Creating ResNet-18 model...
Total trainable parameters: 11,181,642
Starting training for 5 epochs...
[Epoch 1, Batch    50] loss: 1.806
[Epoch 1, Batch   100] loss: 1.444
[Epoch 1, Batch   150] loss: 1.242
Epoch 1 finished in 20.36 seconds.
[Epoch 2, Batch    50] loss: 0.988
[Epoch 2, Batch   100] loss: 0.917
[Epoch 2, Batch   150] loss: 0.812
Epoch 2 finished in 21.02 seconds.
[Epoch 3, Batch    50] loss: 0.671
[Epoch 3, Batch   100] loss: 0.662
[Epoch 3, Batch   150] loss: 0.613
Epoch 3 finished in 21.85 seconds.
[Epoch 4, Batch    50] loss: 0.502
[Epoch 4, Batch   100] loss: 0.500
[Epoch 4, Batch   150] loss: 0.508
Epoch 4 finished in 21.75 seconds.
[Epoch 5, Batch    50] loss: 0.393
[Epoch 5, Batch   100] loss: 0.405
[Epoch 5, Batch   150] loss: 0.423
Epoch 5 finished in 22.29 seconds.
Finished Training in 107.27 seconds.
Starting evaluation...
Accuracy of the network on the 10000 test images: 81.77 %

Benchmark Results

EnvironmentResults (5Epoch) 
HPC-ProServer DPeR7725
CPU : (2) AMD EPYC 9745 128C/256T 2.4~3.78GHz
Mem : Total 384GB (12) 32GB DDR5
GPU : (1) NVIDIA RTX PRO 6000 Blackwell Max-Q Workstation Edition  (GDDR7 96GB PCIe 300W)
OS : RockyLinux9.6
実行環境 :
driver : 580.65.06
pytorch : nvcr.io/nvidia/pytorch:25.08-py3
learning rate:0.001 , batch size : 256
[実施日:2025-09-30]
1回目:103.65sec
2回目:105.44sec
3回目:104.73sec
————————-
平均値:104.60sec
HPC-ProServer DPeR7725
CPU : (2) AMD EPYC 9745 128C/256T 2.4~3.78GHz
Mem : Total 384GB (12) 32GB DDR5
GPU : (1) NVIDIA RTX PRO 6000 Blackwell Server Edition  (GDDR7 96GB PCIe 600W)
OS : RockyLinux9.6
実行環境 :
driver : 580.65.06
pytorch : nvcr.io/nvidia/pytorch:25.08-py3
learning rate:0.001 , batch size : 256
[実施日:2025-09-28]
1回目:111.50sec
2回目:107.27sec
3回目:107.48sec
————————–
平均値:108.75sec
HPC-ProServer DPrR7960
CPU : (2) Intel Xeon Gold 6430 32C/64T 2.1~3.4GHz
Mem : Total 512GB (16) 32GB DDR5
GPU : (2) NVIDIA RTX 6000 Ada (GDDR6 48GB PCIe 300W)
OS : RockyLinux 8.10
実行環境 :
driver : 580.65.06
pytorch : nvcr.io/nvidia/pytorch:25.08-py3
learning rate:0.001 , batch size : 256
[実施日:2025-09-28]
1回目:164.52sec
2回目:164.53sec
3回目:163.26sec
————————–
平均値:164.10sec
HPC-ProServer DPeR960
CPU : (4) Intel Xeon Gold 6448H 32C/64T 2.4~4.1GHz
Mem : Total 4096GB (64) 64GB DDR5
GPU : (4) NVIDIA RTX A6000 (GDDR6 48GB PCIe 300W )
OS : RockyLinux 8.10
実行環境 :
driver : 580.65.06
pytorch : nvcr.io/nvidia/pytorch:25.08-py3
learning rate:0.001 , batch size : 256
[実施日:2025-09-28]
1回目:202.84sec
2回目:201.57sec
3回目:199.12sec
————————–
平均値:201.17sec
HPC-ProServer DPeR7725
CPU : (2) AMD EPYC 9745 128C/256T 2.4~3.78GHz
Mem : Total 384GB (12) 32GB DDR5
GPU : なし
OS : RockyLinux9.6
実行環境 :
driver : 580.65.06
pytorch : nvcr.io/nvidia/pytorch:25.08-py3
learning rate:0.001 , batch size : 256
[実施日:2025-09-30]
2030.43sec ※128コア並列実行