ResNet-18とCIFAR-10 Benchmark - GPU によるディープラーニング性能評価

最新 GPU のよりよい性能の指標として ResNet-18 による CIFAR-10 を利用した機械学習のベンチマークを実行します。非常に有名で安定した画像分類タスクを通して、GPU 性能を明らかにします。

モデル紹介：ResNet-18とは？

本ベンチマークで利用している深層学習モデルは「ResNet-18」です。これは、画像に何が写っているかを見分ける「画像分類」を得意とする、非常に有名な深層学習モデルです。

ResNet（Residual Network）は2015年のImageNet競技会（ILSVRC 2015）でトップレベルの性能（Top-5エラー率3.57％）を示したCNNモデルのファミリーです。
「18」はネットワークの層数を表しており、ResNet-18は比較的浅めの構造ながら、残差（Residual）ブロックにより安定して学習できます。

ResNet-18はその軽量さと堅牢性から、リアルタイム推論やエッジデバイスでの利用にも向いています。これらの特徴が相まって、研究から実装プロジェクトまで幅広く採用されている理由です。

今回のテストで扱ったResNet-18モデルの調整可能なパラメータ数は、約1120万個でした。GPUで使用されているメモリは、9378MiB(実測値)であり、エントリーレベルのGPUでも動作させることが可能です。

データセット紹介：CIFAR-10とは？

深層学習モデルを訓練するためのデータとして、CIFAR-10というデータセットを使用しました。

データの内容:

10種類のカテゴリ: 飛行機、自動車、鳥、猫、鹿、犬、カエル、馬、船、トラック。
画像サイズ: 32×32ピクセルの小さなカラー画像。
総数: 60,000枚の画像が含まれ、そのうち50,000枚を学習用に、10,000枚を評価（テスト）用に使用します。

深層学習モデルは学習用の50,000枚の画像を何度も見ることでパターンを学び、未知の10,000枚の評価用画像でその実力を試されます。

学習プロセスと結果

本ベンチマークでは、ResNet-18モデルにCIFAR-10の画像を見せ、「この画像は10種類のうちどれか？」を繰り返し当てさせる学習を行いました。

モデルは学習用データセット全体を5周（5エポック）学習し、モデルの間違い度合いを示す「損失（loss）」の値は、学習が進むにつれて着実に減少していきます。また、本ページに掲載している全てのベンチマークについて、一貫してジョブ実行時のパラメータに以下を設定しています。

バッチサイズ (Batch Size): 256
学習勾配 (Learning Rate): 0.001

以下は、NVIDIA RTX PRO 6000 Blackwell Server Edition 96GB で実行した際のログです。この結果の「Finished Training in ～」の値をベンチマークの指標としています。

Using device: cuda:0
Downloading CIFAR-10 dataset...
Dataset ready.
Creating ResNet-18 model...
Total trainable parameters: 11,181,642
Starting training for 5 epochs...
[Epoch 1, Batch    50] loss: 1.806
[Epoch 1, Batch   100] loss: 1.444
[Epoch 1, Batch   150] loss: 1.242
Epoch 1 finished in 20.36 seconds.
[Epoch 2, Batch    50] loss: 0.988
[Epoch 2, Batch   100] loss: 0.917
[Epoch 2, Batch   150] loss: 0.812
Epoch 2 finished in 21.02 seconds.
[Epoch 3, Batch    50] loss: 0.671
[Epoch 3, Batch   100] loss: 0.662
[Epoch 3, Batch   150] loss: 0.613
Epoch 3 finished in 21.85 seconds.
[Epoch 4, Batch    50] loss: 0.502
[Epoch 4, Batch   100] loss: 0.500
[Epoch 4, Batch   150] loss: 0.508
Epoch 4 finished in 21.75 seconds.
[Epoch 5, Batch    50] loss: 0.393
[Epoch 5, Batch   100] loss: 0.405
[Epoch 5, Batch   150] loss: 0.423
Epoch 5 finished in 22.29 seconds.
Finished Training in 107.27 seconds.
Starting evaluation...
Accuracy of the network on the 10000 test images: 81.77 %

Benchmark Results

Environment	Results (5Epoch)
HPC-ProServer DPeR7725 CPU : (2) AMD EPYC 9745 128C/256T 2.4～3.78GHz Mem : Total 384GB (12) 32GB DDR5 GPU : (1) NVIDIA RTX PRO 6000 Blackwell Max-Q Workstation Edition 　(GDDR7 96GB PCIe 300W) OS : RockyLinux9.6 実行環境 : driver : 580.65.06 pytorch : nvcr.io/nvidia/pytorch:25.08-py3 learning rate：0.001 , batch size : 256 [実施日:2025-09-30]	1回目：103.65sec 2回目：105.44sec 3回目：104.73sec ————————- 平均値：104.60sec
HPC-ProServer DPeR7725 CPU : (2) AMD EPYC 9745 128C/256T 2.4～3.78GHz Mem : Total 384GB (12) 32GB DDR5 GPU : (1) NVIDIA RTX PRO 6000 Blackwell Server Edition 　(GDDR7 96GB PCIe 600W) OS : RockyLinux9.6 実行環境 : driver : 580.65.06 pytorch : nvcr.io/nvidia/pytorch:25.08-py3 learning rate：0.001 , batch size : 256 [実施日:2025-09-28]	1回目：111.50sec 2回目：107.27sec 3回目：107.48sec ————————– 平均値：108.75sec
HPC-ProServer DPeR750XA CPU : (2) Intel Xeon Gold 6338 32C/64T 2.0GHz Mem : Total 1024GB GPU : (4) NVIDIA A100 80GB PCIe OS : RockyLinux 8.8 driver : 545.23.08 pytorch : nvcr.io/nvidia/pytorch:23.12-py3 learning rate：0.001 , batch size : 256 [実施日] 2025-10-14	1回目：143.07sec 2回目：142.64sec 3回目：142.47sec ————————– 平均値：142.72sec
HPC-ProServer DPrR7960 CPU : (2) Intel Xeon Gold 6430 32C/64T 2.1～3.4GHz Mem : Total 512GB (16) 32GB DDR5 GPU : (2) NVIDIA RTX 6000 Ada (GDDR6 48GB PCIe 300W) OS : RockyLinux 8.10 実行環境 : driver : 580.65.06 pytorch : nvcr.io/nvidia/pytorch:25.08-py3 learning rate：0.001 , batch size : 256 [実施日:2025-09-28]	1回目：164.52sec 2回目：164.53sec 3回目：163.26sec ————————– 平均値：164.10sec
HPC-ProServer DPeR960 CPU : (4) Intel Xeon Gold 6448H 32C/64T 2.4～4.1GHz Mem : Total 4096GB (64) 64GB DDR5 GPU : (4) NVIDIA RTX A6000 (GDDR6 48GB PCIe 300W ) OS : RockyLinux 8.10 実行環境 : driver : 580.65.06 pytorch : nvcr.io/nvidia/pytorch:25.08-py3 learning rate：0.001 , batch size : 256 [実施日:2025-09-28]	1回目：202.84sec 2回目：201.57sec 3回目：199.12sec ————————– 平均値：201.17sec
HPC-ProServer DPeR750 CPU : (2) Intel Xeon Gold 6326 16C/32T 2.9GHz Mem : Total 512GB GPU : (2) NVIDIA A40 48GB PCIe OS : RockyLinux 8.8 driver : 545.23.08 pytorch : nvcr.io/nvidia/pytorch:23.12-py3 learning rate：0.001 , batch size : 256 [実施日] 2025-10-14	1回目：217.30sec 2回目：216.35sec 3回目：215.35sec ————————— 平均値：216.33sec
HPC-ProServer DPeR7725 CPU : (2) AMD EPYC 9745 128C/256T 2.4～3.78GHz Mem : Total 384GB (12) 32GB DDR5 GPU : なし OS : RockyLinux9.6 実行環境 : driver : 580.65.06 pytorch : nvcr.io/nvidia/pytorch:25.08-py3 learning rate：0.001 , batch size : 256 [実施日:2025-09-30]	2030.43sec ※128コア並列実行