概要
- 深層学習モデルのarchitectureとロバスト性の関連を検証した論文
- 既存研究では、Transformerのアーキテクチャを用いた画像分類モデルはCNNよりもadversarial examplesやout-of-distribution samplesに対するロバスト性が高いと主張されている
- 一方で、学習方法やモデルのパラメーター数が揃っておらず、フェアな比較ではない
- 本論文ではモデルサイズや学習時のエポック数等を揃えてフェアな比較を行った
- TransformerとCNNの、adversarial examplesに対するロバスト性には大きな違いはない
- out-of-distribution samplesに対するロバスト性は、Transformer系の方が高い
実験 (adversarial examples)
モデル
- CNN: ResNet-50 (#parameters 25 millions)
- data argumentationはなし
- weight decayのための正則化
- momentum-SGD optimizer (lr=0.1→0.01 (30 epoch) →0.001 (60 epoch) →0.0001 (90 epoch)→0.00001 (100 epoch) )
- clean accuracy: 76.9%
- Transformer: DeiT-S (#parameters 22 millions)
- data argumentationはRandAug, MixUp, CutMix (使わないと過学習する)
- weight decayのための正則化
- AdamW (lt=5e-4, cosine scheduler, 100 epoch)
- clean accuracy: 76.8%
攻撃手法
- PGD-N (N=5, 10, 50, 100)
- Auto Attack (AA)
- Texture Patch Attack (TPA)
- 画像に小さい敵対的なパッチを貼る攻撃
- 局所的に大きなノイズを載せる攻撃、みたいなイメージ
Adversarial Training
- PGD-1で、$\varepsilon=4/255$の$\ell_\infty$ attackによってadversarial trainingを行う。
- data augmentationを用いるとDeiT-Sがうまく学習できなかったので、data augmentationの強さを徐々に大きくするように変更した。
結果
- Adversarial Training (AT)なし→DeiT-Sの方がロバスト
- ATあり
- デフォルトの設定では、DeiTの方がロバスト
- ResNet-50の活性化関数をGELUにすると、DeiT-Sと同等
- TPAに対しては、デフォルトではDeiTの方がロバスト
- RandAug, MixUp, CutMixなどのargumentationを行うと、ResNet-50とDeiT-Sは同じくらいのロバスト性を持つ
- architectureの違いよりも、学習方法や活性化関数の違いによる影響の方が大きいのでは?(Transformerの方がCNNよりもロバストなarchitectureってほんとに言える?)
この記事は役に立ちましたか?
もし参考になりましたら、下記のボタンで教えてください。
コメント