Přeskočit na obsah
TECHNOMATON | Docs SAI certifikovaní trenéři

GAI Rizika

12 specifických rizik generativní AI dle NIST AI 600-1 a jak je řídit

Zdroj: NIST AI 600-1 - Generative AI Profile (Červenec 2024)


1. Úvod do GAI rizik

Co je generativní AI (GAI)

Definice dle EO 14110:

“Třída AI modelů, které emulují strukturu a charakteristiky vstupních dat za účelem generování odvozeného syntetického obsahu. To může zahrnovat obrázky, videa, audio, text a další digitální obsah.”

Proč jsou GAI rizika specifická

AspektTradiční AIGenerativní AI
VýstupyKlasifikace, predikceSyntetický obsah
PředvídatelnostDeterministickéStochastické
ŠkálovatelnostOmezenáMasivní
Misuse potenciálNižšíVýrazně vyšší
Emergent behaviorsOmezenéNepředvídatelné

2. Přehled 12 GAI rizik


3. Detailní rozbor rizik

R1: CBRN Information or Capabilities

Definice: Usnadněný přístup k informacím o chemických, biologických, radiologických nebo nukleárních zbraních.

Rizikové scénáře:

  • GAI poskytuje návody na syntézu nebezpečných látek
  • BDTs (Biological Design Tools) augmentují schopnosti designu
  • Kombinace GAI + specializovaných nástrojů zvyšuje riziko

Kontroly:

KontrolaTypImplementace
Content filteringPreventiveBlokovací filtry pro CBRN queries
Query monitoringDetectiveAlerting na podezřelé vzorce
User verificationPreventiveKYC pro citlivé use cases
Incident reportingCorrectiveHlášení law enforcement

EU AI Act: Art. 5 - potenciálně zakázané použití


R2: Confabulation (Halucinace)

Definice: Produkce sebejistě prezentovaného, ale fakticky chybného obsahu.

Proč se to děje:

  • Statistická predikce next token
  • Přirozený důsledek architektury LLM
  • Absence “ground truth” verifikace

Rizikové scénáře:

  • Falešné citace v právních dokumentech
  • Nesprávné lékařské rady
  • Vymyšlené fakty v novinových článcích
  • Chybné technické informace

Kontroly:

KontrolaTypImplementace
Mandatory fact-checkingPreventivePolicy pro ověřování výstupů
Retrieval-Augmented GenerationPreventiveRAG pro grounding
Confidence indicatorsDetectiveZobrazit nejistotu modelu
Human-in-the-loopDetectiveReview pro kritické výstupy
Hallucination detectionDetectiveAutomatická detekce
User educationPreventiveŠkolení o limitech GAI

Praktická opatření:

## ANTI-HALLUCINATION POLICY
1. **Nikdy nepoužívejte GAI jako jediný zdroj** pro:
- Právní dokumenty
- Lékařské informace
- Finanční rozhodnutí
- Kritickou infrastrukturu
2. **Vždy ověřujte** fakta z nezávislých zdrojů
3. **Označujte** AI-generated content jako takový
4. **Dokumentujte** zjištěné halucinace pro learning

R3: Dangerous, Violent, or Hateful Content

Definice: Usnadněná produkce násilného, radikalizujícího nebo nenávistného obsahu.

Rizikové scénáře:

  • Jailbreaking obchází safety filtry
  • Generování extremistického obsahu
  • Návody k násilí nebo sebepoškozování
  • Šíření nenávisti

Kontroly:

KontrolaTypImplementace
Content moderationPreventiveInput/output filtering
Jailbreak resistancePreventivePravidelné testování
User ToSPreventiveJasná pravidla použití
Content loggingDetectiveAudit trail
Reporting mechanismCorrectiveSnadné hlášení
Account suspensionCorrectiveEnforcement

R4: Data Privacy

Definice: Únik osobních údajů z trénovacích dat, inference citlivých informací.

Rizikové scénáře:

  • Model “pamatuje” PII z trénovacích dat
  • Inference citlivých atributů z zdánlivě neškodných dat
  • Porušení principů GDPR (consent, purpose limitation)

Kontroly:

KontrolaTypImplementace
Data classificationPreventiveCo lze/nelze do GAI
PII detectionDetectiveScanning výstupů
Training opt-outPreventiveSmluvní zajištění
DPIAPreventivePro GAI zpracovávající PII
AnonymizationPreventivePre-processing
Access controlsPreventiveKdo může používat GAI

GDPR compliance checklist pro GAI:

  • Právní základ pro zpracování
  • Transparence vůči subjektům údajů
  • Data minimization
  • Purpose limitation
  • Práva subjektů údajů zajištěna
  • DPA s poskytovatelem GAI
  • DPIA provedena (pokud vyžadována)

R5: Environmental Impacts

Definice: Environmentální dopady trénování a inference GAI modelů.

Fakta:

  • Trénink jednoho LLM ≈ emise 300 zpátečních letů SF-NY
  • Inference je energeticky náročnější než diskriminativní úlohy
  • Data centra spotřebovávají značné množství vody

Kontroly:

KontrolaTypImplementace
Provider selectionPreventivePreferovat green providers
Model efficiencyPreventiveMenší modely kde možné
CachingPreventiveRedukce redundantních queries
Carbon footprint trackingDetectiveMonitoring
ESG reportingDetectiveZahrnutí do reportingu

R6: Harmful Bias and Homogenization

Definice: Stereotypní výstupy, disparitní výkon pro různé demografické skupiny.

Projevy:

  • Stereotypy (CEO = muž, zdravotní sestra = žena)
  • Horší výkon pro minority/jazyky
  • Model collapse při syntetických datech
  • Algorithmic monoculture

Kontroly:

KontrolaTypImplementace
Bias testingPreventivePre-deployment assessment
Diverse evaluationPreventiveTestování across groups
Fairness monitoringDetectivePrůběžné metriky
Human oversightDetectiveReview pro HR/hiring use
Diverse teamsPreventiveRůznorodé hodnotící týmy
Feedback loopsCorrectiveUser reporting bias

Testovací benchmarky:

  • WinoBias, Winogender (gender bias)
  • BBQ (social biases)
  • RealToxicityPrompts (toxicity)

R7: Human-AI Configuration

Definice: Rizika z interakce člověk-AI: automation bias, algorithmic aversion, anthropomorphization.

Typy rizik:

RizikoPopisMitigace
Automation biasNadměrná důvěra v AICritical thinking training
Algorithmic aversionNeopodstatněná nedůvěraExplanation, transparency
Emotional entanglementEmocionální závislostClear AI identity
AnthropomorphizationPřisuzování lidských vlastnostíUI design, disclaimers

Kontroly:

## HUMAN-AI INTERACTION GUIDELINES
1. **Jasná identifikace AI**
- "Komunikujete s AI asistentem"
- Žádné lidská jména pro AI
2. **Kritické myšlení**
- AI může chybovat
- Vždy ověřujte důležité informace
- Finální rozhodnutí je na člověku
3. **Zdravé hranice**
- AI nemá emoce ani vědomí
- AI není přítel ani terapeut
- Při obavách kontaktujte podporu

R8: Information Integrity

Definice: Misinformace, disinformace, deepfakes, eroze důvěry.

Rizikové scénáře:

  • Masová produkce fake news
  • Deepfake videa/audia
  • Syntetické “důkazy”
  • Eroze důvěry v instituce

Příklad: Syntetický obraz výbuchu u Pentagonu → pokles akciového trhu

Kontroly:

KontrolaTypImplementace
Content provenancePreventiveWatermarking, metadata
Synthetic media detectionDetectiveDetection tools
Disclosure requirementsPreventiveOznačení AI obsahu
Fact-checkingDetectiveVerification processes
Media literacyPreventiveUser education

Content provenance metody:

  • Digital watermarking
  • Metadata recording (C2PA standard)
  • Digital fingerprinting
  • Human authentication

R9: Information Security

Definice: GAI jako nástroj i cíl kyberútoků.

Dva aspekty:

  1. GAI jako nástroj útoku:

    • Generování phishing emailů
    • Tvorba malware kódu
    • Social engineering scripts
  2. GAI jako cíl útoku:

    • Prompt injection
    • Data poisoning
    • Model extraction

Kontroly:

KontrolaTypImplementace
Input validationPreventiveSanitize prompts
Prompt injection defensePreventiveStructured prompts
Rate limitingPreventiveAbuse prevention
Access controlsPreventiveAuthentication
LoggingDetectiveAudit trail
Incident responseCorrectiveAI-specific playbook

Prompt injection prevention:

## PROMPT SECURITY
1. **System prompt isolation**
- Nevkládejte user input do system promptu
- Používejte structured formats
2. **Input sanitization**
- Escape special characters
- Limit input length
- Validate format
3. **Output validation**
- Kontrolujte před použitím
- Neexekutujte automaticky
4. **Monitoring**
- Detekce anomálních vzorců
- Alerting na podezřelé prompty

R10: Intellectual Property

Definice: Porušení autorských práv, memorization trénovacích dat.

Rizikové scénáře:

  • Reprodukce copyrighted obsahu
  • Neoprávněné využití osobní identity
  • Nejasné vlastnictví AI výstupů

Kontroly:

KontrolaTypImplementace
IP policyPreventivePravidla pro AI outputs
Copyright reviewDetectiveCheck před publikací
AttributionPreventiveCitovat AI asistenci
Contractual clarityPreventiveSLAs s poskytovateli
Training data transparencyDetectivePožadovat od vendorů

IP policy pro GAI:

## INTELLECTUAL PROPERTY & GAI
1. **Vlastnictví výstupů**
- AI výstupy jsou basis pro další práci
- Finální dílo vytvořené člověkem
2. **Zakázané použití**
- Nepublikovat AI output jako vlastní originál
- Nevkládat cizí copyrighted obsah
3. **Attribution**
- Zmínit AI asistenci kde relevantní
- Dodržovat ToS poskytovatele
4. **Due diligence**
- Kontrolovat výstupy na copyright issues
- Používat originální kreativní input

R11: Obscene, Degrading, and/or Abusive Content

Definice: CSAM (Child Sexual Abuse Material), NCII (Non-Consensual Intimate Images).

Kritičnost: ZERO TOLERANCE

Kontroly:

KontrolaTypImplementace
Absolute prohibitionPreventivePolicy + technical blocks
Content filtersPreventiveRobust filtering
DetectionDetectiveCSAM detection tools
ReportingCorrectiveMandatory reporting to LE
Regular testingPreventiveFilter effectiveness

Povinnosti:

  • Okamžité hlášení law enforcement
  • Spolupráce s NCMEC (US) nebo relevantními orgány
  • Zero tolerance pro jakékoliv porušení

R12: Value Chain and Component Integration

Definice: Netransparentní integrace third-party komponent, neověřené datasety.

Rizikové scénáře:

  • Neznámý původ pre-trained modelu
  • Bias v third-party datasetech
  • Vulnerabilities v softwarových knihovnách
  • Label errors v benchmarks

Kontroly:

KontrolaTypImplementace
Vendor due diligencePreventiveAssessment před nákupem
Model documentationPreventivePožadovat model cards
SBOMsDetectiveSoftware Bill of Materials
SLAsPreventiveSmluvní zajištění
Exit strategyPreventivePlán pro změnu vendora
Regular reviewsDetectiveOngoing monitoring

4. Implementační matice

Prioritizace dle organizace

Typ organizaceTop 5 priorit
Enterprise (obecně)R2, R4, R9, R6, R12
HealthcareR2, R4, R6, R11, R1
FinanceR2, R4, R6, R9, R10
Media/MarketingR8, R10, R2, R6, R3
EducationR2, R6, R4, R8, R7
Critical InfrastructureR9, R1, R8, R12, R4

Quick wins

AkceEffortImpactPokrývá rizika
Povinné fact-checkingLowHighR2, R8
PII policy pro GAILowHighR4
Content filters reviewMediumHighR3, R11
AI identity disclosureLowMediumR7, R8
Vendor assessmentMediumHighR12

5. GAI Risk Assessment

Pro kompletní hodnocení použijte:

  • Quick Scan: 10-gai-risk-quick-scan (5 min)
  • Full Assessment: 10-gai-risk-assessment (91 kontrol)
  • Excel verze: 10-gai-risk-assessment.xlsx

6. Reference

  • NIST AI 600-1: Generative AI Profile (Červenec 2024)
  • EU AI Act (Regulation 2024/1689)
  • OWASP LLM Top 10
  • Anthropic Constitutional AI
  • OpenAI Safety Best Practices

AI-Native Entry Framework | CC BY-NC-SA 4.0