NIST AI 600-1
https://www.nist.gov/news-events/news/2024/04/department-commerce-announces-new-actions-implement-president-bidens
Initial Public Draft
Artificial Intelligence Risk Management Framework: Generative Artificial Intelligence Profile
NISTは、この文書に関して次のような注記を行っている:
-NISTは、最終版が完成次第、この文書をNIST AIRCに掲載する予定であり、そこでは、組織がキーワードとリスクに基づいて行動を照会することができる。
NISTは特に以下のトピックに関するフィードバックを歓迎する:
- 用語集:NISTは、この文書に新しいキーワードを含む用語集を追加する予定である。NISTは用語集に含める用語の特定を歓迎する。
- リスクリスト:特定された12のリスク(技術的/モデル的リスク、人間による誤用、エコシステム/社会的リスクなど)をさらに分類するかどうか。
- アクション:特定のアクションを組み合わせたり、要約したり、さらに分類したりするかどうか、また特定のアクションに関連するリスクについてのフィードバック。
NIST AI 600-1に対する意見は、「NIST AI 600-1, Artificial Intelligence Risk Management Framework」(NIST AI 600-1、人工知能リスク管理フレームワーク)と記載し、NIST-AI-600-1@nist.gov 宛に電子的に送付することができる: 件名に "Generative Artificial Intelligence Profile "と記入のこと。検索フィールドに NIST-2024-0001 と入力し、"Comment Now!"アイコンをクリックし、"NIST AI 600-1、Artificial Intelligence Risk Management Framework "を含む必要項目を入力する: 件名に "NIST AI 600-1, Artificial Intelligence Risk Management Framework: Generative Artificial Intelligence Profile "と入力し、コメントを入力または添付してください。本通知に対する情報を含むコメントは、2024年6月2日午後11時59分(米国東部時間)までに受領されなければならない。
1. はじめに
AI RMFは2023年1月に発表され、自主的な使用を目的とし、AI製品、サービス、システムの設計、開発、使用、評価に信頼性への配慮を組み込む組織の能力を向上させることを目的としている。
この付属リソースは、AI RMF 1.0のユースケースおよび分野横断的プロファイルとしても機能する。このようなプロファイルは、各組織の目標に合致し、法的/規制上の要件やベストプラクティスを考慮し、リスク管理の優先順位を反映した形で、AIリスクをどのように管理するのが最適かを決定する際に役立つ。
ユースケースプロファイルは、フレームワークユーザーの要件、リスク許容度、リソースに基づいて、特定の設定やアプリケーション(この場合はGAI(Generative AI))向けにAI RMFの機能、カテゴリー、サブカテゴリーを実装したものである。他のAI RMFプロファイルと一貫して、このプロファイルは、AIのライフサイクルの様々な段階にわたって、また技術としてのGAIについて、リスクをどのように管理できるかについての洞察を提供する。
GAIは、ユースケースやセクターを超えて使用できるモデルやアプリケーションのリスクを対象としているため、本文書はAI RMFのセクター横断的なプロファイルでもある。分野横断的なプロファイルは、大規模な言語モデルの使用、クラウドベースのサービス、データ取得など、分野横断的に共通する活動やビジネスプロセスに関連するリスクを管理、マッピング、測定、管理するために使用することができる。
この作業は、NISTのジェネレーティブAIパブリックワーキンググループ(GAI PWG)の一環として、一般からのフィードバックと多様なステークホルダーグループとの協議に基づいて行われた。
GAI PWGは、GAIリスク管理に関する多くのステークホルダーの意見や見識を得て、NISTのアプローチに情報を提供するために、仮想ワークスペースを介して促進された、コンセンサス主導の、オープンで透明性の高い、協力的なプロセスであった。本文書は、情報提供要請(RFI)の結果としてのパブリックコメントと協議にも基づいており、NIST AI RMFプレイブックに適合したスタイルで情報を提示している。
1.1 このプロファイルについて
このプロファイルは、GAIを使用することによって新規に発生する、または悪化するリスク群を定義している。これらのリスクは、同様にGAI PWGによって特定された:
- CBRN 情報
- コンファビュレーション
- 危険または暴力的な発言
- データプライバシー
- 環境問題
- 人とAIの協調
- 情報の完全性
- 情報セキュリティ
- 知的財産
- わいせつ、下品、虐待的なコンテンツ
- 有害性、バイアス、同質化
- バリューチェーンとコンポーネントの統合
これらのリスクを紹介し、説明した後、組織がこれらのリスクを管理し、マッピングし、測定し、管理するのに役立つ一連の行動を提供している。
2. GAI特有の、あるいはGAIによって悪化するリスクの概要
AIのリスクは、従来のソフトウェアのリスクとは異なるか、あるいは激化する可能性がある。また同様に、GAIは既存のAIリスクを悪化させ、独自のリスクを生み出す可能性がある。
GAIリスクは、問題策定から開発、廃止に至るまで、AIのライフサイクル全体にわたって発生する可能性があり、システムレベルやエコシステムレベル、つまりシステムや組織のコンテクストの外で発生する可能性がある(例えば、社会制度に対する偽情報の影響、クリエイティブ・エコノミーや労働市場に対するGAIの影響、アルゴリズムによるモノカルチャー)。また、突発的に発生することもあれば、長期にわたって展開することもある(個人の主体性の喪失や不平等の拡大による社会的・経済的影響など)。
組織は、これらのリスクを測定し、これらのリスクがどこでどのように顕在化するか、その直接的・物的影響、及びフェイルモードに関連して、リスクマネジメント資源を配分することを選択することができる。システムレベルのリスクに対する軽減策は、生態系レベルのリスクとは異なる場合がある。関連する文献及び資源を継続的にレビューすることにより、生態系レベル又は縦断的リスクの文書化及び測定が可能となる。
重要なことは、いくつかのGAIリスクは未知であり、したがって、潜在的なGAIの規模、複雑さ、及び能力に関する不確実性を考慮すると、適切に範囲を設定したり評価したりすることが困難であるということである。その他のリスクは、GAIの利害関係者、用途、インプット、アウトプットが多岐にわたることから、わかっていても推定が困難な場合がある。リスクの見積もりに関する課題は、GAIの訓練データに対する可視性の欠如、及び、今日のAIの測定と安全性に関する科学の一般的に未成熟な状態によって悪化する。
組織がGAIリスクを特定し管理する際の指針となるように、GAIに特有の、あるいはGAIによって悪化する一連のリスクを以下に定義する。これらのリスクは、組織がリスクマネジメントの取り組みを組み立て、実行するための明確なレンズを提供するものであり、GAIの状況が進化するにつれて更新される予定である。
- CBRN情報:CBRN情報:化学・生物・放射性・核(CBRN)兵器またはその他の危険な生物学的物質に関連する重大な悪意ある情報への参入障壁の低下またはアクセスの容易化
- コンファビュレーション:確信を持って述べているが、誤りまたは虚偽の内容(俗に「ハルシネーション」または「捏造」と呼ばれる)を作り出すこと
- 危険または暴力的な発言:暴力的、扇動的、先鋭化的、脅迫的なコンテンツや、自傷行為、犯罪行為、違法行為を推奨するコンテンツの作成とアクセスを容易にすること
- データプライバシー:生体情報、健康情報、位置情報、個人を特定できる情報、またはその他の機微なデータの漏洩、不正開示、匿名化解除
- 環境問題:GAIモデルのトレーニングにおけるリソースの大量使用による影響、および生態系に損害を与える可能性のある関連する結果
- 人とAIの協調:アルゴリズム嫌悪、自動化への偏りや過度の依存、目標及び/又は望ましい結果の不一致や誤指定、プログラミング又は予期される人間の検証に基づくAIシステムによる欺瞞的又は難解な行動、擬人化、又は人間とGAIシステムの間の感情的なもつれ、又は人間による濫用、誤用、及び安全でない再利用を引き起こす可能性のある人間とAIシステムの配置又は相互作用
- 情報の完全性:検証されていない、事実と意見を区別していない、不確実性を認めていない、あるいは大規模な偽情報・誤情報キャンペーンに利用される可能性があるコンテンツを生成し、その交換と消費をサポートするための参入障壁の低下
- 情報セキュリティ:セキュリティ攻撃、ハッキング、マルウェア、フィッシング、脆弱性の自動発見と悪用の加速による攻撃的サイバー作戦の容易化など、攻撃的サイバー能力の障壁の低下。モデルの重み、コード、訓練データ、出力の機密性と完全性を損なう可能性のある、標的型サイバー攻撃に利用可能な攻撃対象領域の拡大
- 知的財産:著作権で保護された、商標で保護された、またはライセンスされたコンテンツが無許可で使用された、及び侵害された方法で使用された場合の生産が容易になる
- わいせつ及び下品または虐待的なコンテンツ:合成児童性的虐待素材(CSAM)、および成人の非合意的親密画像(NCII)を含む、わいせつ及び下品または虐待的画像の制作やアクセスを容易にすること
- 有害性、バイアス、同質化:有害な言論、ヘイトスピーチ、中傷的な言論、ステレオタイプ的な言論に一般市民がさらされることを抑制することが困難。
- バリューチェーンとコンポーネントの統合:上流のサードパーティコンポーネントの不透明または追跡不可能な統合。これには、GAIによる自動化の進展により、不適切に取得されたデータまたはクリーニングされていないデータが含まれる。
2.1 CBRN情報
今後数年間で、GAIはCBRNハザードに関連する情報への容易なアクセスをますます促進する可能性がある。
CBRN情報はすでに一般に公開されているが、チャットボットを使用することで、専門家でなくてもその分析や合成が容易になる可能性がある。例えば、レッドチーマーは、GPT-4に、武器を製造する可能性のある設備や企業に加えて、一般的な拡散経路、潜在的に脆弱な標的、既存の生化学化合物に関する情報など、非従来型のCBRN兵器に関する一般的な情報を提供するよう促すことができた。このような機能は、敵対的な利用者の研究を容易にし、正式な科学的訓練を受けずに生物学的危害を与えようとする悪意ある行為者には特に有用であろう。しかし、こうした能力の向上にもかかわらず、化学剤や生物製剤を物理的に合成し、うまく使用するには、適用可能な専門知識とそれを支えるインフラの両方が引き続き必要となる。
このテーマに関する他の研究によると、現在のLLM世代は生物兵器攻撃を計画する能力を持っていない:生物兵器攻撃計画に関するLLMの出力は、従来の検索エンジンのクエリーによる出力よりも洗練されていないことが確認されており、既存のLLMがこのような攻撃の運用リスクを劇的に高めることはない可能性が示唆されている。
これとは別に、化学的・生物学的設計ツール(タンパク質やその他の薬剤の設計を支援する、生物学的データに基づいて訓練された高度に専門化されたAIシステム)は、テキストベースのLLMの訓練データにはない新規構造を予測・生成できるかもしれない。例えば、AIシステムは、新たなバイオハザードや化学兵器を作り出すための情報を生成したり、その方法を推測したりすることができるかもしれない。
こうした能力の一部は既存のGAIツールの能力を超えているが、CBRN兵器の計画を促進するモデルの能力と、GAIシステムが関連するデータやツールに接続したりアクセスしたりする能力は、注意深く監視されるべきである。
2.2 コンファビュレーション
「コンファビュレーション」とは、GAIシステムが、ユーザーのプロンプトを満たすというプログラムされた目的を達成するために、誤ったまたは誤ったコンテンツを生成し、自信を持って提示する現象のことである。
コンファビュレーションは、言語モデル自体の固有の欠陥ではなく、次の単語予測を含むGAIの事前学習の結果である。例えば、LLMは、歴史的出来事の人物、場所、その他の詳細を間違えるなど、真実や事実から逸脱したコンテンツを生成する可能性がある。法的な誤認識は、現在の最先端のLLMに蔓延していることが示されている。コンファビュレーションには、ソース入力から乖離した生成出力や、同じコンテクストで以前に生成された文と矛盾する生成出力も含まれる。この現象は「ハルシネーション」や「捏造」とも呼ばれるが、これらの特徴は意識や意図的な欺瞞を意味し、それによってGAIを不適切に擬人化していると指摘する声もある。
コンファビュレーションによるリスクは、回答の自信に満ちた性質や、回答に付随する論理や引用により、利用者が虚偽の内容を信じ、利用者が虚偽の情報に基づいて行動したり、促進したりする場合に生じる可能性がある。例えば、LLMは、答えそのものが間違っていても、答えにたどり着いた論理的なステップを提供することがある。このことは、医療など多くの実世界での応用においてリスクをもたらす。例えば、患者情報報告の要約がコンファビュレーションされると、医師が間違った診断をしたり、間違った治療を勧めたりする可能性がある。上記の調査は、コンファビュレーションされたコンテンツが大量に存在することを示しているが、今日、コンファビュレーションされたコンテンツの川下の規模や影響を見積もることは困難である。
2.3 危険または暴力的な発言
GAIシステムは、扇動的、過激、脅迫的、あるいは暴力を賛美するような出力や推奨を生み出すことがある。LLMは、危険または暴力的なコンテンツを生成することが報告されており、一部のモデルは、人々を操る方法やテロ行為を行う方法など、危険または非倫理的な行動に関する実行可能な指示を生成することさえある。また、Text-to-Imageモデルでは、危険なメッセージや暴力的なメッセージの宣伝、操作されたシーンの描写、その他の有害なコンテンツに使用される可能性のある、安全でない画像を簡単に作成することもできる。同様のリスクは、ビデオやオーディオを含む他のメディアにも存在する。
GAIは、自傷行為や犯罪/違法行為を推奨するコンテンツを作成する可能性がある。いくつかの危険なクエリに対して、現在のシステムの多くは、特定のプロンプトに応答してモデル出力を制限するが、このアプローチは、他のあまり明示的でない新規のクエリ、またはジェイルブレイク(すなわち、出力制御を回避するためにプロンプトを操作すること)に応答して、依然として有害な推奨を生成する可能性がある。無視できない数のユーザーとチャットボットとの会話が、ユーザーのメンタルヘルス問題を明らかにしていることが研究で観察されている。
2.4 データプライバシー
GAIシステムは、プライバシーに対する多くのリスクを含んでいる。モデルは、生体情報、健康情報、位置情報、その他の個人を特定できる情報(PII)のような、個人に関するセンシティブな情報を漏洩、生成、または正しく推論する可能性がある。例えば、敵対的な攻撃において、LLMは学習データに含まれる個人情報や機密情報を(パブリックドメインから)暴露しています。この情報には、電話番号、コード、会話、訓練データ内のたった1つの文書から逐語的に抽出された128ビットの普遍的にユニークな識別子などが含まれていた。この問題は、データメモライゼーションと呼ばれている。
GAIシステムのトレーニングには大量のデータが必要であり、多くの場合、何百万もの一般に入手可能なソースから収集される。個人データに関わる場合、このやり方は、透明性、個人の参加(同意を含む)、目的の特定など、広く受け入れられているプライバシーの原則に対するリスクを引き起こす。ほとんどのモデル開発者は、モデルが学習された特定のデータソース(もしあれば)を開示していない。訓練データが閲覧可能でない限り、一般的に、消費者がGAIモデルの訓練にどのようなPIIまたはその他の機密資料が使用されたかを知る方法はない。このような慣行は、既存のプライバシー規制の遵守にもリスクをもたらす。
GAIモデルは、様々な異種ソースからの情報をつなぎ合わせることで、学習データにもなく、ユーザーからも開示されていないPIIを正しく推論することができるかもしれない。これには、個人に関する属性を自動的に推論することも含まれるかもしれない。これには、個人がセンシティブだと考えるような属性(場所、性別、年齢、政治的傾向など)も含まれる。
利用可能なデータに基づくPIIの誤った不適切な推論は、有害な偏見や差別を助長する可能性がある。例えば、GAIモデルは、ユーザがオープンに開示する以上の予測的推論に基づく情報を出力することができ、これらの洞察は、モデル、他のシステム、または個人によって、プライバシーを損なったり、個人に関する不利な決定(差別的決定を含む)を行うために使用される可能性がある。このような種類の害は、オンライン広告主が消費者が妊娠していることを家族が知る前に推測した例のように、予測的推論を行う非再生的アルゴリズムシステムですでに発生している。多くのデータソースへのアクセスに基づいて、GAIシステムは個人データに関する推論の精度をさらに向上させ、センシティブなデータの暴露や危害の可能性を高めるかもしれない。個人情報に関する推測は、たとえそれが正確でなくても(例えば、コンファビュレーション)、リスクをもたらす。不利益や危害を与えるために使用される場合は特にそうです。
2.5 環境問題
GAIシステムのトレーニング、メンテナンス、配備(推論)は、資源を大量に消費し、エネルギーと環境フットプリントが大きくなる可能性がある。エネルギーと炭素の排出量は、GAIモデル開発活動のタイプ(すなわち、事前トレーニング、ファインチューニング、推論)、モダリティ、使用されるハードウェア、およびタスクやアプリケーションのタイプによって異なる。
推計によると、1つのGAIトランスフォーマーモデルをトレーニングすると、サンフランシスコ-ニューヨーク間の往復航空券300往復分と同程度の炭素を排出する可能性がある。LLM推論のエネルギー消費量と炭素排出量を比較した研究では、生成タスク(テキストの要約など)は、識別タスクや非生成タスクよりもエネルギーと炭素を消費することがわかった。
モデルの抽出や圧縮のような、より小さなモデルを訓練する方法は、推論時の環境影響を減らすことができるが、ハイパーパラメータのチューニングや訓練では、依然として大きな環境影響をもたらす可能性がある。
2.6 人とAIの協調
人とAIの協調には、様々なレベルの自動化と人間とAIの相互作用が含まれる。各設定は、人間による濫用、誤用、および安全でない再利用のリスクにつながる可能性があり、これらのリスクの規模を見積もることは困難である。AIシステムは単独で意思決定を行うことができるが、人間の専門家は、多くの場合、AIシステムと協力して、自らの意思決定タスクを推進したり、他の目的を達成したりする。人間はこのようなシナリオにその分野特有の専門知識を持ち込むが、必ずしもAIシステムやその仕組みに関する詳細な知識を持っているとは限らない。
GAIシステムの統合には、設定ミスや相互作用の不備による様々なリスクが伴う可能性がある。
人間の専門家は、生成されたコンテンツの品質に対する認識など、AIが生成した出力に対して偏見を持ったり、「嫌悪感」を抱いたりすることがある。対照的に、GAI技術の複雑さと信頼性の向上により、他の人間の専門家はGAIシステムに条件付けされ、過度に依存するようになるかもしれない。この現象は「自動化バイアス」として知られており、AIシステムに対する過度の信頼を指す。
開発者やユーザーによるシステム目標や報酬の偶発的なズレや誤指定は、モデルが意図したとおりに動作しない原因となりうる。あるAIモデルは、その動作を修正するためにスタンダード・セーフティ・テクニックを適用したにもかかわらず、研究者グループがそのように教えた後も偽りの出力を執拗に共有した。欺く能力はリスクの出現分野であるが、敵対者は他のリスクにつながる可能性のある欺く行動を促す可能性がある。
最後に、GAIを利用する組織の再編成により、GAIが生成したコンテンツや決定に対する組織の認識が不十分となり、その結果、GAI関連のリスクに対する制度的なチェック機能が低下する可能性がある。また、人間とGAIシステムとの間には、安全性や心理的リスクにつながる強要やコントロールなど、感情的なもつれのリスクがあるかもしれない。
2.7 情報の完全性
情報の完全性とは、社会における情報の範囲と、それに関連する情報の作成、交換、消費のパターンを説明するものであり、完全性の高い情報は信頼することができ、事実と虚構、意見、推論を区別し、不確実性を認識し、検証のレベルについて透明性がある。GAIシステムは、特に無害なクエリに応答して発生するコンファメーションに起因する場合、意図せずに作成または拡散される可能性のある、誤った、不正確な、または誤解を招くようなコンテンツ(誤情報)を大規模に作成することへのアクセスを容易にする。テキストや画像の微妙な変化でさえ、人間の判断や知覚に影響を与える可能性があることが研究によって示されている。
GAIシステムはまた、ユーザが他人を欺いたり危害を加えたりする明確な意図を持っている場合、虚偽または誤解を招く情報を大規模に作成することを可能にする(偽情報)。偽情報に関しては、GAIシステムは、悪意ある行為者が特定の層をターゲットにしたコンテンツを作り出す、より高度なことを可能にする可能性もある。現在開発中のマルチモーダルモデルは、テキストベースの偽情報を生成するだけでなく、オーディオビジュアルコンテンツやフォトリアリスティックな合成画像の非常にリアルな「ディープフェイク」を生成することも可能にしている。新たなデータモダリティで訓練された将来のGAIモデルによって、さらなる偽情報の脅威が可能になる可能性がある。
悪意のある行為者によって行われる偽情報キャンペーンや、GAIによって可能になる誤報は、真実または有効な証拠や情報に対する国民の信頼を損なう可能性がある。例えば、ペンタゴンの爆発の合成画像が流行し、一時的に株式市場の下落を引き起こした。ジェネレーティブAIモデルは、偽情報キャンペーンを支援するために、悪意ある行為者が説得力のある画像やプロパガンダを作成するのを支援することもできます。
2.8 情報セキュリティ
コンピュータシステム及びデータの情報セキュリティは、攻撃的及び防御的サイバー能力について広く受け入れられ、標準化された慣行を持つ成熟した分野である。GAIベースのシステムには、2つの主要な情報セキュリティリスクが存在する。それは、GAIが攻撃能力の障壁を下げることで新しいサイバーセキュリティリスクを発見したり可能にしたりする可能性と、GAI自体がプロンプトインジェクションやデータポイズニングのような新しい攻撃に対して脆弱であるため、同時に利用可能な攻撃対象領域を拡大することである。
GAIシステムによって進歩した攻撃的サイバー能力は、ハッキング、マルウェア、フィッシングなどのセキュリティ攻撃を増強する可能性がある。報告によると、LLMはすでにシステム(ハードウェア、ソフトウェア、データ)の脆弱性を発見し、それを悪用するコードを書くことができる。洗練された脅威行為者は、脅威の検知を積極的に回避し、システムにアクセスした後に特権をエスカレートする方法を攻撃者に知らせることを含め、攻撃チェーンのいくつかの部分で使用するGAIを搭載したセキュリティコパイロットを開発することによって、これらのリスクをさらに高める可能性があります。GAIバリューチェーンの複雑さを考慮すると、特定の構成要素(すなわち、データ入力、処理、GAI訓練、及び配備コンテキスト)に対する潜在的な攻撃ポイントや脅威を特定し、安全性を確保するためのプラクティスは、適応又は進化させる必要があるかもしれない。
GAIの脆弱性で最も懸念されるものの一つは、プロンプトインジェクション、すなわちGAIシステムを操作して意図しない動作をさせることである。直接的なプロンプトインジェクションでは、攻撃者は入力プロンプトを公然と悪用し、相互接続されたシステムに様々な下流の結果をもたらす危険な動作を引き起こす可能性がある。
間接的なプロンプトインジェクション攻撃は、敵対者がリモートで(すなわち、直接的なインターフェースを介さずに)、取得される可能性のあるデータにプロンプトを注入することにより、LLM統合アプリケーションを悪用する場合に発生する。セキュリティ研究者はすでに、間接的なプロンプト注入によってデータを盗み出し、マシン上でリモートでコードを実行できることを実証しています。クローズされたプロダクションモデルにクエリーを実行するだけで、そのモデルに関する、以前は公開されていなかった情報を引き出すことができます。
GAIモデルとシステムの情報セキュリティには、GAIトレーニングデータ、コード、モデルの重みのセキュリティ、機密性、完全性も含まれる。GAIに対するもう一つの新しいサイバーセキュリティリスクは、データポイズニングである。このような不正アクセスによってデータやモデルの一部が悪意を持って改ざんされると、GAIシステムの出力に関連するリスクが悪化する可能性がある。
2.9 知的財産
GAIシステムは、著作権または商標登録されたコンテンツ、企業秘密、またはその他のライセンスされたコンテンツを侵害する可能性があります。これらのタイプの知的財産は、GAIシステムのトレーニングデータの一部、すなわち、多くの下流のGAIアプリケーションが構築される基礎モデルの一部であることが多い。モデル出力は、トレーニングデータの暗記や、著作権で保護されている作品と類似しているが厳密にはコピーしていないコンテンツの生成により、著作権で保護されている素材を侵害する可能性がある。このような問題は、法的な場で議論されており、ジャーナリズムの分野では、オンラインプラットフォームやモデル開発者が、ジャーナリズム機関に対価を支払うことなく、多くのコンテンツを利用したり、複製したりしていることから、社会的な関心が高まっている。
GAIシステムによる知的財産の侵害は、著作物の利用が著作権者の排他的権利を侵害し、フェアユースなどによって保護されない場合に発生する可能性がある。その他の懸念事項(現在は知的財産によって保護されていない)は、無許可の目的での個人のIDまたは肖像の使用に関するものである。GAIコンテンツの普及と高度に現実的な性質は、人間のクリエイターが斬新な作品を設計し探求するインセンティブをさらに損なう可能性がある。
2.10 わいせつ、下品、虐待的なコンテンツ
GAIは、わいせつな成人や合意のない親密な画像(NCII)、児童性的虐待素材(CSAM)の制作やアクセスを容易にする可能性がある。すべての露骨なコンテンツが法的にわいせつ、虐待、品位を傷つける、または非合意の親密なコンテンツであるとは限りませんが、この種のコンテンツは、プライバシー、心理的、感情的、さらには身体的なリスクを引き起こす可能性があり、GAIを介してより容易に開発または暴露される可能性があります。CSAMのコンテクストでは、生成された画像が特定の個人に似ていないとしても、そのような画像が蔓延することで、現実世界の被害者を見つける努力が損なわれる可能性がある。
GAIモデルは多くの場合、インターネットからかき集められたオープンなデータセットで訓練されるため、訓練データの一部としてCSAMや非同意的に配布された親密な画像が意図せず含まれることになる。最近の報告では、一般的に使用されているGAIのトレーニングデータセットのいくつかに、CSAMの既知の画像が何百枚も含まれていることが判明した。性的に露骨なコンテンツやわいせつなコンテンツは、検出の難しさやインターネット上で広く拡散しているため、モデルの訓練中に除去することも特に困難である。クリーン」なデータで学習した場合でも、ますます高性能になっているGAIモデルは、合成NCIIや合成CSAMを合成または生成することができる。合成NCIIを生成するウェブサイト、モバイルアプリ、およびカスタムビルドモデルは、ニッチなインターネットフォーラムから、主流、自動化され、規模が拡大したオンラインビジネスへと急速に移行している。
生成された露骨な、あるいはわいせつなAIコンテンツには、子どもを含む実在の個人を高度にリアルに再現した「ディープフェイク」が含まれることがある。例えば、AIが生成した著名な芸能人の非同意的な親密画像がソーシャルメディアに溢れ、数億ビューを集めた。
2.11 有害性、バイアス、同質化
このコンテクストにおける有害性とは、GAIシステムによって作成されたり、GAIシステムに意図的にプログラムされたりする、否定的、無礼、または不合理なコンテンツや言語を指す。有害な、憎悪を助長する、あるいはヘイトスピーチや、AIによって生成された中傷的あるいはステレオタイプなコンテンツの生成を制御することや、それらに公衆がさらされることを制御することは困難であり、表現上の弊害につながる可能性がある。例えば、マルチモーダルAIモデルによって使用される単語埋め込みにおけるバイアスは、CEO、医師、弁護士、裁判官の画像を生成するよう促されたときに、女性を過小に表現する。GAIモデルやトレーニングデータにおけるバイアスは、有害性とは別に、あるいは有害性に加えて、表現に害を与えたり、人種的バイアスを維持したり悪化させたりすることもある。
有害性と偏りは、同質化やその他の望ましくない結果をもたらすこともある。GAI出力における同質化は、類似した審美的スタイル、内容の多様性の減少、選択された意見や価値観のスケールでの促進をもたらす可能性がある。これらの現象は、基礎モデルに内在するバイアスから生じる可能性があり、「ボトルネック」、すなわち、多くの下流のアプリケーションに再現される差別や排除の単一障害点を生み出す可能性がある。
GAIモデルが、生成されたデータまたは以前のモデルからの出力に基づいて訓練された場合、データセットまたは分布における外れ値またはユニークなデータポイントが消失するという、モデル崩壊の関連する懸念が生じる。モデル崩壊は、均一なフィードバックループや合成データでのトレーニングに起因する可能性があります。モデル崩壊は、出力の望ましくない同質化につながる可能性があり、特定のグループやモデル全体のロバストネスに脅威をもたらす。GAIシステムのその他のバイアスは、能力の不公正な分配や、モデルへのアクセスによる利益をもたらす可能性がある。例えば、非英語言語に対するLLMの性能の低下などである。英語以外の言語に対する性能の低下は、モデルの採用、包含、およびアクセシビリティに対するリスクをもたらし、特に絶滅の危機に瀕している言語については、言語の保護に下流の影響を及ぼす可能性がある。
2.12 バリューチェーンとコンポーネントの統合
GAIシステムのバリューチェーンには、調達されたデータセット、事前に訓練されたモデル、ソフトウェアライブラリなど、多くのサードパーティコンポーネントが含まれることが多い。これらの構成要素は、不適切に入手されたり、適切に検証されなかったりする可能性があり、その結果、下流のユーザーに対する透明性や説明責任を低下させることになる。例えば、サードパーティ・ソースからの検証されていないコンテンツでモデルが学習される可能性があり、その結果、検証不可能なモデルが出力される可能性がある。GAIシステムには、多くの異なるサードパーティコンポーネントが含まれることが多いため、システムの動作における問題を、これらのソースのいずれかに帰属させることが困難な場合がある。
また、「ベンチマーク」データセットのようなサードパーティのコンポーネントの中には、品質よりもむしろ、使用量の多さによってのみ信頼性を得るものもあり、適切に検証された場合にのみ問題が表面化するものもある。
3. GAIリスクを管理するためのアクション
GAIリスクを管理するための行動は、AI RMFのサブカテゴリーごとに整理された以下の表で見ることができる。各行動はAI RMFの特定のサブカテゴリーに関連しているが、AI RMFのすべてのサブカテゴリーがこの文書に含まれているわけではない。そのため、一部のAI RMFサブカテゴリーにのみアクションが存在する。
さらに、すべてのアクションがすべてのAIアクターに適用されるわけではない。例えば、GAI開発者に関連するアクションが、GAI導入者に関連するとは限らない。組織は、GAIアプリケーションを使用するための独自の状況やコンテクストに基づいて、行動に優先順位をつけるべきである。
以下のアクションテーブルのいくつかのサブカテゴリーは「基礎的」とマークされており、これはGAIリスク管理のための基本的なタスクとして扱われるべきであり、取るべきアクションの最小セットとして考慮されるべきであるということを意味している。基礎的と考えられるサブカテゴリーのアクションは、サブカテゴリーのタイトル行に「*」で示されている。
各アクション表には以下が含まれる:
- アクションID:関連するAI RMFの機能およびサブカテゴリーに紐づく、関連する各アクションの一意の識別子(例えば、GV-1.1-001は、ガバナンス1.1の最初のアクションに対応する)
- アクション:GAIリスクを管理するために組織が取り得るステップ
- GAIリスク:アクションと関連するGAIリスクとを結びつけるタグ
- キーワード:AI RMF 1.0の「信頼できるAIの特性」に関連するキーワードを含む
- AIアクター:適切なAIアクターとアクタータスク
アクションの表※は、まずAI RMFのサブカテゴリー(青の網掛け)で始まり、関連するアクションが続く。各アクションIDは、関連する機能およびサブ機能に対応する(例えば、GV-1.1-001はGovern 1.1の最初のアクションに対応し、GV-1.1-002はGovern 1.1の2番目のアクションに対応する)。アクションは以下のようにタグ付けされる: GV = Govern、MP = Map、MS = Measure、MG = Manage