NIST AI 600-1: Generative AI Profile

Červenec 2024

1. Základní informace o dokumentu

Atribut	Hodnota
Identifikátor	NIST AI 600-1
Název	AI Risk Management Framework: Generative AI Profile
Vydáno	Červenec 2024
Instituce	NIST (National Institute of Standards and Technology)
Právní základ	Executive Order 14110 (Biden) o bezpečné, zabezpečené a důvěryhodné AI
Charakter	Dobrovolný rámec pro řízení rizik GAI
Rozsah	64 stran, cross-sektorový profil

2. Definice Generativní AI (GAI)

Podle EO 14110: “Třída AI modelů, které emulují strukturu a charakteristiky vstupních dat za účelem generování odvozeného syntetického obsahu. To může zahrnovat obrázky, videa, audio, text a další digitální obsah.”

Foundation models (dual-use): AI modely trénované na širokých datech, využívající self-supervision, obsahující minimálně desítky miliard parametrů, aplikovatelné v širokém spektru kontextů.

3. Přehled 12 rizik specifických pro GAI

3.1 CBRN Information or Capabilities

Definice: Usnadněný přístup k informacím o chemických, biologických, radiologických nebo nukleárních zbraních
Trustworthy AI charakteristiky: Safe, Explainable and Interpretable

3.2 Confabulation (Halucinace)

Definice: Produkce sebejistě prezentovaného, ale chybného nebo nepravdivého obsahu
Příčina: Statistická predikce následujícího tokenu
Trustworthy AI charakteristiky: Fair with Harmful Bias Managed, Safe, Valid and Reliable, Explainable and Interpretable

3.3 Dangerous, Violent, or Hateful Content

Definice: Usnadněná produkce násilného, radikalizujícího, výhružného obsahu
Riziko: Jailbreaking - manipulace promptů k obejití bezpečnostních kontrol
Trustworthy AI charakteristiky: Safe, Secure and Resilient

3.4 Data Privacy

Rizika: Únik osobních údajů z trénovacích dat, inference citlivých informací.
Trustworthy AI charakteristiky: Accountable and Transparent, Privacy Enhanced, Safe, Secure and Resilient

3.5 Environmental Impacts

Fakta: Vysoká energetická náročnost tréninku i inference.
Trustworthy AI charakteristiky: Accountable and Transparent, Safe

3.6 Harmful Bias and Homogenization

Projevy: Stereotypní výstupy, podreprezentace minorit, model collapse.
Trustworthy AI charakteristiky: Fair with Harmful Bias Managed, Valid and Reliable

3.7 Human-AI Configuration

Rizika: Algorithmic aversion, automation bias, antropomorfizace.
Trustworthy AI charakteristiky: Accountable and Transparent, Explainable and Interpretable, Fair, Privacy, Safe, Valid

3.8 Information Integrity

Rizika: Misinformace, disinformace, deepfakes, eroze důvěry.
Trustworthy AI charakteristiky: Accountable and Transparent, Safe, Valid and Reliable, Interpretable

3.9 Information Security

Aspekty: GAI pro kyberútoky (phishing) vs. útoky na GAI (prompt injection).
Trustworthy AI charakteristiky: Privacy Enhanced, Safe, Secure and Resilient, Valid and Reliable

3.10 Intellectual Property

Rizika: Porušení autorských práv, memorization.
Trustworthy AI charakteristiky: Accountable and Transparent, Fair, Privacy

3.11 Obscene, Degrading, and/or Abusive Content

Rizika: CSAM, NCII.
Trustworthy AI charakteristiky: Fair, Safe, Privacy

3.12 Value Chain and Component Integration

Problémy: Netransparentní integrace third-party komponent, neověřené datasety.
Trustworthy AI charakteristiky: All characteristics

4. Akce pro řízení rizik (GOVERN, MAP, MEASURE, MANAGE)

Dokument obsahuje přes 200 konkrétních akcí. Klíčové příklady:

GV-1.3-007: Plán pro zastavení vývoje/nasazení GAI systému s nepřijatelným rizikem.
MP-2.3-005: Pravidelné adversarial testing.
MS-2.6-007: Hodnocení vulnerabilit k obcházení safety measures.
MG-2.2-009: Zodpovědné využití syntetických dat.

5. Mapování na EU AI Act

NIST GAI Profile	EU AI Act
12 kategorií rizik	Risk-based classification (Annex III)
GOVERN funkce	Articles 9, 16, 17 (QMS, Governance)
Pre-deployment testing	Article 9 (Testing), Article 15 (Accuracy)
Content provenance	Article 50 (Transparency obligations)
Human oversight	Article 14 (Human oversight)
Incident disclosure	Article 62 (Serious incidents reporting)