エンタングルメントosugi3yのブログ

14年勤めた企業をやめました。映画「時の行路」尾道市実行委員

Child Sex Abuse Material Was Found In a Major AI Dataset. Researchers Aren’t Surprised.〜シン・すべてがNになる〜

主要AIデータセットから児童性虐待資料が発見される。研究者は驚いていない。

LAION-5Bデータセットは、数多くのAIモデルの基礎となっている。研究者たちは長い間、膨大なトレーニングデータセットの監査が不十分であることを警告してきた。

Janus Rose

NEW YORK, US

IMAGE: SOPA IMAGES/CONTRIBUTOR VIA GETTY IMAGES

 

www.vice.com

 画像生成AIの訓練に使用される最大のデータセットから、性的虐待を受けた子どもの画像が1000枚以上も発見された。

 このデータセットは、Stable Diffusionのような生成AIシステムで使用される膨大な画像データセットの背後にある非営利団体LAIONによって作成された。スタンフォード大学研究者からの報告を受け、404 Mediaは、LAIONがLAION-5Bと呼ばれるデータセットに児童性的虐待資料(CSAM)が含まれていることを確認し、オンラインチャンネルから削除したと報じた。
 LAION-5Bデータセットには、インターネットからかき集めた50億枚の画像へのリンクが含まれている。
 AI倫理研究者たちは、AIのトレーニングデータセットの巨大なスケールによって、それらをフィルタリングすることや、それらを使用するAIモデルを監査することが事実上不可能になることを長い間警告してきた。しかし、成長するジェネレーティブAI市場の一角を占めようと躍起になっているテック企業は、こうした懸念をほとんど無視し、膨大なデータセットを使って学習させたAIモデルの上にさまざまな製品を構築している。例えば、最も一般的に使用されているテキスト画像生成システムのひとつであるStable Diffusionは、LAIONのデータに基づいている。また、他のさまざまなAIツールは、他のソースに加えてLAIONのデータセットの一部を組み込んでいる。
 
 AI倫理研究者によれば、これは無関心の必然的な結果だという。
 
 「正直言って,驚くことではありません。LAIONデータセットには、我々の論文には掲載されなかったが、不穏で違法なコンテンツが多数見つかった」と、この膨大なデータセットを調査した最近の論文の主執筆者であるアベバ・ビルハネは、スタンフォード大学の報告書に対するツイートで書いている。「LAIONデータセットは、OpenAI、Meta、Googleのようなコーポラボに閉じ込められたコーポデータセットを垣間見せてくれる。オープンなLAIONデータセットよりも、独立した監査人がほとんど調査していないクローズドなデータセットの方がはるかに悪いことは間違いない。」
 
 LAIONは404 Mediaに対し、研究者が特定したCSAMコンテンツを削除するため、データセットを「一時的に」削除していると述べた。しかし、AIの専門家は、ダメージはすでに終わっていると言う。

HuggingFace社のAI・データ倫理研究者で、Birhane氏と論文を共著したSasha Luccioni氏は、「悲しいことですが、本当に驚くべきことではありません」とMotherboardに語った。「ほとんどすべての画像生成モデルは、何らかのバージョンの[LAION]を使用していました。そして、すでに訓練されたものを削除することはできません"

 ルッチョーニによれば、問題はこれらの膨大なデータが使用される前に適切に分析されていないことであり、データセットの規模が不要なものをフィルタリングすることを極めて困難にしている。言い換えれば、たとえLAIONが発見後に特定の不要な素材を取り除くことに成功したとしても、データが膨大であるため、それをすべて取り除いたことを確認するのは事実上不可能だということだ。

 「誰もデータの仕事をしたがらない。」「誰もデータの仕事を評価しない。みんな、モデルをブルブルさせたいだけなんだ。」("Gorrr "とは、仮想の貨幣印刷機を指すミームである)。

AI倫理の研究者たちは、インターネットから引き出された人種差別的・性差別的なテキストや画像を含むAIモデルやデータセットの危険性について何年も前から警告を発してきた。こうしたバイアスが、医療、住宅、警察などの分野で差別を複製し増幅する自動システムをどのように生み出すかを実証する研究が相次いでいる。LAIONデータセットは、この「ガベージイン、ガベージアウト」ダイナミクスのもう一つの例であり、露骨な、違法な、あるいは攻撃的な素材で満たされたデータセットがAIのパイプラインに定着し、その結果、同じ問題やバイアスをすべて受け継いだ製品やソフトウェアが生まれる。

このような弊害は、有害な出力や望ましくない出力を生成しないよう、事後的にシステムを微調整することで軽減することができる。しかし、ルッチョーニのような研究者は、このような技術的な微調整は、実際には問題の根本原因に対処していないと警告する。

「AIにおけるデータセットの集め方、使い方を根本的に考え直す必要があると思います」とルッチョーニは言う。「そうでなければ、根本的な問題を解決しない技術的な修正に過ぎない。」