概要
- Beihang University (中国)の研究者グループが提案
- adversarial training (AT)に現れなかったadversarial exampleに対する汎化性能 (adversarially robust generalization)と、ロバストに学習されたモデルのarchitectureとの関連を調査した論文。
- 重みが疎な傾向を持つ、transformerのattentionを持つarchitectureが優れたgeneralizationを示した。
Standard Adversarial Training (SAT)
$$ R(f)=\mathbb{E}_{(x,y)\sim\mathbb{D}}\left[\max_{\delta\in \mathbb{B}_{\varepsilon}}L(f,x+\delta,y)\right] $$
を最小化することで学習する。$L$は損失関数。
- 他には、Adversarail Logit Pairing (ALP)を用いたTRADESなどの防御手法がある。
実験設定
- CNN, ViT, MLP-Mixer, PoolFormer, Swin Transformer, ViTAE, CCT, Mobile ViT, CPVT, BoTNet, CeiT, CoAtNet, CvT, LeVit, PVTv2, ResNet, ResNeXt, WRN, PARN, VGG, DenseNet
- CIFAR-10 & ImageNet
学習
- PGD($\ell_\infty$)を用いて学習。
- for CIFAR-10, AutoAugmentでデータ水増し
- bs=128, epoch=100
- for ImageNetかつViTはしゅうそくが悪かったのでautoaugmentを使用。
- OptimizerはAdamW
評価
- PGD($\ell_p$, $p=1,2,\infty$)を用いてrobust accuracyを評価
- $\varepsilon=8/255, 1.5, 40 (CIFAR-10, p=\infty,2,1), 8/255, 8.0, 1600.0$を用いた。
- generalizationを見るときにはAuto Attackを用いた評価も行っている。
結果
- ResNet vs PVTv2では最悪ケースの正解率が20%程度異なっている
- CNN系のモデルでは、$\ell_\infty$攻撃に対する頑健性が高い一方、異なる$p$に対する汎化性能が不十分
- モデルサイズ(パラメーター数)を考慮した比較も行なっている
- 重みパラメーターのスパースさ(値が小さい重みの多さ)が汎化性能に貢献していると分析(実際、CNNでもl1正則化によってスパースになるように学習すると2%ほど正解率が向上した)
- Transformerのattentionによってスパースさがもたらされていると分析
- attention layerを増やすとスパースさ、ロバスト性が向上した(パラメーター数の問題もあるけど)
- パッチサイズを小さくすると汎化性能は下がるが一様のるむを用いた攻撃に対する頑健性が向上する(CNNに近い挙動になる→小さいパッチサイズではCNNと同様、局所的な情報をとるようになるから?)
- CNN系ではATによって学習の loss landscapeが(通常と比較して)鋭くなるが、ViT系では逆
- Attentionの作り方の違い?で異なる傾向がある(個人的にあんまり詳しくないので要調査)
この記事は役に立ちましたか?
もし参考になりましたら、下記のボタンで教えてください。
コメント