Shafi Goldwasser、Michael P. Kim、Vinod Vaikuntanathan、Or Zamir
機械学習モデルの学習に必要な計算コストと技術的専門知識を考慮すると、ユーザは学習タスクをサービスプロバイダに委ねることができる。我々は、悪意のある学習者が検出不可能なバックドアを分類器に仕込む方法を示す。このようなバックドアを仕込んだ分類器は、表面上は正常に動作しているが、実際には、学習者がわずかな操作で任意の入力の分類を変更するメカニズムを保持している。重要なのは、適切な「バックドアキー」がなければ、このメカニズムは隠され、計算量に制限のある観測者には検出できないことである。我々は、検出不可能なバックドアを仕掛けるための2つのフレームワークを、比類のない保証付きで実証する。
まず、デジタル署名方式を用いて、任意のモデルにバックドアを仕掛ける方法を示す。この構成により、元のモデルとバックドアを仕込んだモデルにブラックボックスでアクセスした場合、両者が異なる入力を1つでも見つけることは計算上不可能であることが保証される。この性質は、バックドアードモデルがオリジナルモデルと同程度の汎化誤差を持つことを意味する。第二に、ランダムフーリエ特徴量(RFF)学習パラダイムやランダムReLUネットワークで学習させたモデルに、検出不可能なバックドアを挿入する方法を示す。この構成では、強力なホワイトボックス識別器に対して検出不能が成り立つ。ネットワークの完全な記述と訓練データがあれば、効率的な識別器はモデルが「クリーン」であるかバックドアを含んでいるかを推測することができない。
また、我々の構築した検出不可能なバックドアにより、敵対的な例に対する頑健性という関連する問題にも光を当てることができる。特に、我々の構築した分類器は、「敵対的ロバスト」分類器と見分けがつかないが、全ての入力に敵対的な例があるような分類器を生成することができるのです! 要約すると、検出不可能なバックドアの存在は、敵対的ロバスト性を証明する上で重要な理論的障害となる。
投稿履歴
From Or Zamir [電子メールを表示]。
[v1] Thu, 14 Apr 2022 13:55:21 UTC (1,168 KB)
機械学習モデルには、つねにバックドアを仕掛ける (例: 秘密の信号が画像が含まれていたら全然違う認識結果を返す) ことができ、しかもそれは検出不可能という研究結果。つまり信頼できない会社にモデルの構築を任せたら、抜け道のあるモデルが返されても知るすべはない。https://t.co/1sHy5CyOP6
— 新山祐介 (Yusuke Shinyama) (@mootastic) 2022年4月20日