NIST AI 600-1: Generative AI Profile
Červenec 2024
1. Základní informace o dokumentu
| Atribut | Hodnota |
|---|---|
| Identifikátor | NIST AI 600-1 |
| Název | AI Risk Management Framework: Generative AI Profile |
| Vydáno | Červenec 2024 |
| Instituce | NIST (National Institute of Standards and Technology) |
| Právní základ | Executive Order 14110 (Biden) o bezpečné, zabezpečené a důvěryhodné AI |
| Charakter | Dobrovolný rámec pro řízení rizik GAI |
| Rozsah | 64 stran, cross-sektorový profil |
2. Definice Generativní AI (GAI)
Podle EO 14110: “Třída AI modelů, které emulují strukturu a charakteristiky vstupních dat za účelem generování odvozeného syntetického obsahu. To může zahrnovat obrázky, videa, audio, text a další digitální obsah.”
Foundation models (dual-use): AI modely trénované na širokých datech, využívající self-supervision, obsahující minimálně desítky miliard parametrů, aplikovatelné v širokém spektru kontextů.
3. Přehled 12 rizik specifických pro GAI
3.1 CBRN Information or Capabilities
- Definice: Usnadněný přístup k informacím o chemických, biologických, radiologických nebo nukleárních zbraních
- Trustworthy AI charakteristiky: Safe, Explainable and Interpretable
3.2 Confabulation (Halucinace)
- Definice: Produkce sebejistě prezentovaného, ale chybného nebo nepravdivého obsahu
- Příčina: Statistická predikce následujícího tokenu
- Trustworthy AI charakteristiky: Fair with Harmful Bias Managed, Safe, Valid and Reliable, Explainable and Interpretable
3.3 Dangerous, Violent, or Hateful Content
- Definice: Usnadněná produkce násilného, radikalizujícího, výhružného obsahu
- Riziko: Jailbreaking - manipulace promptů k obejití bezpečnostních kontrol
- Trustworthy AI charakteristiky: Safe, Secure and Resilient
3.4 Data Privacy
- Rizika: Únik osobních údajů z trénovacích dat, inference citlivých informací.
- Trustworthy AI charakteristiky: Accountable and Transparent, Privacy Enhanced, Safe, Secure and Resilient
3.5 Environmental Impacts
- Fakta: Vysoká energetická náročnost tréninku i inference.
- Trustworthy AI charakteristiky: Accountable and Transparent, Safe
3.6 Harmful Bias and Homogenization
- Projevy: Stereotypní výstupy, podreprezentace minorit, model collapse.
- Trustworthy AI charakteristiky: Fair with Harmful Bias Managed, Valid and Reliable
3.7 Human-AI Configuration
- Rizika: Algorithmic aversion, automation bias, antropomorfizace.
- Trustworthy AI charakteristiky: Accountable and Transparent, Explainable and Interpretable, Fair, Privacy, Safe, Valid
3.8 Information Integrity
- Rizika: Misinformace, disinformace, deepfakes, eroze důvěry.
- Trustworthy AI charakteristiky: Accountable and Transparent, Safe, Valid and Reliable, Interpretable
3.9 Information Security
- Aspekty: GAI pro kyberútoky (phishing) vs. útoky na GAI (prompt injection).
- Trustworthy AI charakteristiky: Privacy Enhanced, Safe, Secure and Resilient, Valid and Reliable
3.10 Intellectual Property
- Rizika: Porušení autorských práv, memorization.
- Trustworthy AI charakteristiky: Accountable and Transparent, Fair, Privacy
3.11 Obscene, Degrading, and/or Abusive Content
- Rizika: CSAM, NCII.
- Trustworthy AI charakteristiky: Fair, Safe, Privacy
3.12 Value Chain and Component Integration
- Problémy: Netransparentní integrace third-party komponent, neověřené datasety.
- Trustworthy AI charakteristiky: All characteristics
4. Akce pro řízení rizik (GOVERN, MAP, MEASURE, MANAGE)
Dokument obsahuje přes 200 konkrétních akcí. Klíčové příklady:
- GV-1.3-007: Plán pro zastavení vývoje/nasazení GAI systému s nepřijatelným rizikem.
- MP-2.3-005: Pravidelné adversarial testing.
- MS-2.6-007: Hodnocení vulnerabilit k obcházení safety measures.
- MG-2.2-009: Zodpovědné využití syntetických dat.
5. Mapování na EU AI Act
| NIST GAI Profile | EU AI Act |
|---|---|
| 12 kategorií rizik | Risk-based classification (Annex III) |
| GOVERN funkce | Articles 9, 16, 17 (QMS, Governance) |
| Pre-deployment testing | Article 9 (Testing), Article 15 (Accuracy) |
| Content provenance | Article 50 (Transparency obligations) |
| Human oversight | Article 14 (Human oversight) |
| Incident disclosure | Article 62 (Serious incidents reporting) |