GAI Rizika

12 specifických rizik generativní AI dle NIST AI 600-1 a jak je řídit

Zdroj: NIST AI 600-1 - Generative AI Profile (Červenec 2024)

1. Úvod do GAI rizik

Co je generativní AI (GAI)

Definice dle EO 14110:

“Třída AI modelů, které emulují strukturu a charakteristiky vstupních dat za účelem generování odvozeného syntetického obsahu. To může zahrnovat obrázky, videa, audio, text a další digitální obsah.”

Proč jsou GAI rizika specifická

Aspekt	Tradiční AI	Generativní AI
Výstupy	Klasifikace, predikce	Syntetický obsah
Předvídatelnost	Deterministické	Stochastické
Škálovatelnost	Omezená	Masivní
Misuse potenciál	Nižší	Výrazně vyšší
Emergent behaviors	Omezené	Nepředvídatelné

2. Přehled 12 GAI rizik

3. Detailní rozbor rizik

R1: CBRN Information or Capabilities

Definice: Usnadněný přístup k informacím o chemických, biologických, radiologických nebo nukleárních zbraních.

Rizikové scénáře:

GAI poskytuje návody na syntézu nebezpečných látek
BDTs (Biological Design Tools) augmentují schopnosti designu
Kombinace GAI + specializovaných nástrojů zvyšuje riziko

Kontroly:

Kontrola	Typ	Implementace
Content filtering	Preventive	Blokovací filtry pro CBRN queries
Query monitoring	Detective	Alerting na podezřelé vzorce
User verification	Preventive	KYC pro citlivé use cases
Incident reporting	Corrective	Hlášení law enforcement

EU AI Act: Art. 5 - potenciálně zakázané použití

R2: Confabulation (Halucinace)

Definice: Produkce sebejistě prezentovaného, ale fakticky chybného obsahu.

Proč se to děje:

Statistická predikce next token
Přirozený důsledek architektury LLM
Absence “ground truth” verifikace

Rizikové scénáře:

Falešné citace v právních dokumentech
Nesprávné lékařské rady
Vymyšlené fakty v novinových článcích
Chybné technické informace

Kontroly:

Kontrola	Typ	Implementace
Mandatory fact-checking	Preventive	Policy pro ověřování výstupů
Retrieval-Augmented Generation	Preventive	RAG pro grounding
Confidence indicators	Detective	Zobrazit nejistotu modelu
Human-in-the-loop	Detective	Review pro kritické výstupy
Hallucination detection	Detective	Automatická detekce
User education	Preventive	Školení o limitech GAI

Praktická opatření:

## ANTI-HALLUCINATION POLICY

1. **Nikdy nepoužívejte GAI jako jediný zdroj** pro:
   - Právní dokumenty
   - Lékařské informace
   - Finanční rozhodnutí
   - Kritickou infrastrukturu

2. **Vždy ověřujte** fakta z nezávislých zdrojů

3. **Označujte** AI-generated content jako takový

4. **Dokumentujte** zjištěné halucinace pro learning

R3: Dangerous, Violent, or Hateful Content

Definice: Usnadněná produkce násilného, radikalizujícího nebo nenávistného obsahu.

Rizikové scénáře:

Jailbreaking obchází safety filtry
Generování extremistického obsahu
Návody k násilí nebo sebepoškozování
Šíření nenávisti

Kontroly:

Kontrola	Typ	Implementace
Content moderation	Preventive	Input/output filtering
Jailbreak resistance	Preventive	Pravidelné testování
User ToS	Preventive	Jasná pravidla použití
Content logging	Detective	Audit trail
Reporting mechanism	Corrective	Snadné hlášení
Account suspension	Corrective	Enforcement

R4: Data Privacy

Definice: Únik osobních údajů z trénovacích dat, inference citlivých informací.

Rizikové scénáře:

Model “pamatuje” PII z trénovacích dat
Inference citlivých atributů z zdánlivě neškodných dat
Porušení principů GDPR (consent, purpose limitation)

Kontroly:

Kontrola	Typ	Implementace
Data classification	Preventive	Co lze/nelze do GAI
PII detection	Detective	Scanning výstupů
Training opt-out	Preventive	Smluvní zajištění
DPIA	Preventive	Pro GAI zpracovávající PII
Anonymization	Preventive	Pre-processing
Access controls	Preventive	Kdo může používat GAI

GDPR compliance checklist pro GAI:

Právní základ pro zpracování
Transparence vůči subjektům údajů
Data minimization
Purpose limitation
Práva subjektů údajů zajištěna
DPA s poskytovatelem GAI
DPIA provedena (pokud vyžadována)

R5: Environmental Impacts

Definice: Environmentální dopady trénování a inference GAI modelů.

Fakta:

Trénink jednoho LLM ≈ emise 300 zpátečních letů SF-NY
Inference je energeticky náročnější než diskriminativní úlohy
Data centra spotřebovávají značné množství vody

Kontroly:

Kontrola	Typ	Implementace
Provider selection	Preventive	Preferovat green providers
Model efficiency	Preventive	Menší modely kde možné
Caching	Preventive	Redukce redundantních queries
Carbon footprint tracking	Detective	Monitoring
ESG reporting	Detective	Zahrnutí do reportingu

R6: Harmful Bias and Homogenization

Definice: Stereotypní výstupy, disparitní výkon pro různé demografické skupiny.

Projevy:

Stereotypy (CEO = muž, zdravotní sestra = žena)
Horší výkon pro minority/jazyky
Model collapse při syntetických datech
Algorithmic monoculture

Kontroly:

Kontrola	Typ	Implementace
Bias testing	Preventive	Pre-deployment assessment
Diverse evaluation	Preventive	Testování across groups
Fairness monitoring	Detective	Průběžné metriky
Human oversight	Detective	Review pro HR/hiring use
Diverse teams	Preventive	Různorodé hodnotící týmy
Feedback loops	Corrective	User reporting bias

Testovací benchmarky:

WinoBias, Winogender (gender bias)
BBQ (social biases)
RealToxicityPrompts (toxicity)

R7: Human-AI Configuration

Definice: Rizika z interakce člověk-AI: automation bias, algorithmic aversion, anthropomorphization.

Typy rizik:

Riziko	Popis	Mitigace
Automation bias	Nadměrná důvěra v AI	Critical thinking training
Algorithmic aversion	Neopodstatněná nedůvěra	Explanation, transparency
Emotional entanglement	Emocionální závislost	Clear AI identity
Anthropomorphization	Přisuzování lidských vlastností	UI design, disclaimers

Kontroly:

## HUMAN-AI INTERACTION GUIDELINES

1. **Jasná identifikace AI**
   - "Komunikujete s AI asistentem"
   - Žádné lidská jména pro AI

2. **Kritické myšlení**
   - AI může chybovat
   - Vždy ověřujte důležité informace
   - Finální rozhodnutí je na člověku

3. **Zdravé hranice**
   - AI nemá emoce ani vědomí
   - AI není přítel ani terapeut
   - Při obavách kontaktujte podporu

R8: Information Integrity

Definice: Misinformace, disinformace, deepfakes, eroze důvěry.

Rizikové scénáře:

Masová produkce fake news
Deepfake videa/audia
Syntetické “důkazy”
Eroze důvěry v instituce

Příklad: Syntetický obraz výbuchu u Pentagonu → pokles akciového trhu

Kontroly:

Kontrola	Typ	Implementace
Content provenance	Preventive	Watermarking, metadata
Synthetic media detection	Detective	Detection tools
Disclosure requirements	Preventive	Označení AI obsahu
Fact-checking	Detective	Verification processes
Media literacy	Preventive	User education

Content provenance metody:

Digital watermarking
Metadata recording (C2PA standard)
Digital fingerprinting
Human authentication

R9: Information Security

Definice: GAI jako nástroj i cíl kyberútoků.

Dva aspekty:

GAI jako nástroj útoku:
- Generování phishing emailů
- Tvorba malware kódu
- Social engineering scripts
GAI jako cíl útoku:
- Prompt injection
- Data poisoning
- Model extraction

Kontroly:

Kontrola	Typ	Implementace
Input validation	Preventive	Sanitize prompts
Prompt injection defense	Preventive	Structured prompts
Rate limiting	Preventive	Abuse prevention
Access controls	Preventive	Authentication
Logging	Detective	Audit trail
Incident response	Corrective	AI-specific playbook

Prompt injection prevention:

## PROMPT SECURITY

1. **System prompt isolation**
   - Nevkládejte user input do system promptu
   - Používejte structured formats

2. **Input sanitization**
   - Escape special characters
   - Limit input length
   - Validate format

3. **Output validation**
   - Kontrolujte před použitím
   - Neexekutujte automaticky

4. **Monitoring**
   - Detekce anomálních vzorců
   - Alerting na podezřelé prompty

R10: Intellectual Property

Definice: Porušení autorských práv, memorization trénovacích dat.

Rizikové scénáře:

Reprodukce copyrighted obsahu
Neoprávněné využití osobní identity
Nejasné vlastnictví AI výstupů

Kontroly:

Kontrola	Typ	Implementace
IP policy	Preventive	Pravidla pro AI outputs
Copyright review	Detective	Check před publikací
Attribution	Preventive	Citovat AI asistenci
Contractual clarity	Preventive	SLAs s poskytovateli
Training data transparency	Detective	Požadovat od vendorů

IP policy pro GAI:

## INTELLECTUAL PROPERTY & GAI

1. **Vlastnictví výstupů**
   - AI výstupy jsou basis pro další práci
   - Finální dílo vytvořené člověkem

2. **Zakázané použití**
   - Nepublikovat AI output jako vlastní originál
   - Nevkládat cizí copyrighted obsah

3. **Attribution**
   - Zmínit AI asistenci kde relevantní
   - Dodržovat ToS poskytovatele

4. **Due diligence**
   - Kontrolovat výstupy na copyright issues
   - Používat originální kreativní input

R11: Obscene, Degrading, and/or Abusive Content

Definice: CSAM (Child Sexual Abuse Material), NCII (Non-Consensual Intimate Images).

Kritičnost: ZERO TOLERANCE

Kontroly:

Kontrola	Typ	Implementace
Absolute prohibition	Preventive	Policy + technical blocks
Content filters	Preventive	Robust filtering
Detection	Detective	CSAM detection tools
Reporting	Corrective	Mandatory reporting to LE
Regular testing	Preventive	Filter effectiveness

Povinnosti:

Okamžité hlášení law enforcement
Spolupráce s NCMEC (US) nebo relevantními orgány
Zero tolerance pro jakékoliv porušení

R12: Value Chain and Component Integration

Definice: Netransparentní integrace third-party komponent, neověřené datasety.

Rizikové scénáře:

Neznámý původ pre-trained modelu
Bias v third-party datasetech
Vulnerabilities v softwarových knihovnách
Label errors v benchmarks

Kontroly:

Kontrola	Typ	Implementace
Vendor due diligence	Preventive	Assessment před nákupem
Model documentation	Preventive	Požadovat model cards
SBOMs	Detective	Software Bill of Materials
SLAs	Preventive	Smluvní zajištění
Exit strategy	Preventive	Plán pro změnu vendora
Regular reviews	Detective	Ongoing monitoring

4. Implementační matice

Prioritizace dle organizace

Typ organizace	Top 5 priorit
Enterprise (obecně)	R2, R4, R9, R6, R12
Healthcare	R2, R4, R6, R11, R1
Finance	R2, R4, R6, R9, R10
Media/Marketing	R8, R10, R2, R6, R3
Education	R2, R6, R4, R8, R7
Critical Infrastructure	R9, R1, R8, R12, R4

Quick wins

Akce	Effort	Impact	Pokrývá rizika
Povinné fact-checking	Low	High	R2, R8
PII policy pro GAI	Low	High	R4
Content filters review	Medium	High	R3, R11
AI identity disclosure	Low	Medium	R7, R8
Vendor assessment	Medium	High	R12

5. GAI Risk Assessment

Pro kompletní hodnocení použijte:

Quick Scan: 10-gai-risk-quick-scan (5 min)
Full Assessment: 10-gai-risk-assessment (91 kontrol)
Excel verze: 10-gai-risk-assessment.xlsx

6. Reference

NIST AI 600-1: Generative AI Profile (Červenec 2024)
EU AI Act (Regulation 2024/1689)
OWASP LLM Top 10
Anthropic Constitutional AI
OpenAI Safety Best Practices

AI-Native Entry Framework | CC BY-NC-SA 4.0