Stable Diffusion Anleitung: Kostenlose KI-Bilder lokal erstellen 2026
Letzte Aktualisierung: März 2026 • Lesezeit: ca. 15 Minuten
Du möchtest KI-Bilder erstellen, ohne monatlich für Midjourney oder DALL-E zu bezahlen? Dann ist Stable Diffusion genau das Richtige für Dich. In dieser ausführlichen Stable Diffusion Anleitung erfährst Du alles, was Du brauchst: von der Installation über die ersten Bilder bis hin zu fortgeschrittenen Techniken wie ControlNet und Inpainting.
Was Stable Diffusion so besonders macht: Es läuft komplett auf Deinem eigenen Rechner. Deine Bilder, Deine Prompts, Deine Daten – alles bleibt bei Dir. Kein Upload in die Cloud, keine Zensur, keine monatlichen Kosten. Und das Beste: Die Ergebnisse können mit kostenpflichtigen Alternativen absolut mithalten.
Ob Du Anfänger bist oder bereits erste Erfahrungen mit KI-Bildern gesammelt hast – diese Anleitung begleitet Dich Schritt für Schritt. Los geht’s!
1. Was ist Stable Diffusion?
Stable Diffusion ist ein Open-Source-KI-Modell, das aus Textbeschreibungen fotorealistische Bilder, Illustrationen und Kunstwerke erzeugt. Entwickelt wurde es ursprünglich von Stability AI [1] in Zusammenarbeit mit der Ludwig-Maximilians-Universität München und Runway ML.
Der entscheidende Unterschied zu Midjourney oder DALL-E: Stable Diffusion läuft lokal auf Deinem eigenen Computer. Du brauchst weder ein Abonnement noch musst Du Deine Bilder auf fremde Server hochladen. Einmal installiert, kannst Du so viele Bilder generieren, wie Du möchtest – völlig kostenlos.
Warum Stable Diffusion die erste Wahl für viele ist
- ✓ Kostenlos und Open Source – keine monatlichen Gebühren
- ✓ Vollständige Privatsphäre – alles bleibt auf Deinem Rechner
- ✓ Keine Zensur – Du entscheidest, was Du generierst
- ✓ Tausende Community-Modelle – für jeden Stil das passende Modell
- ✓ Erweiterbar – ControlNet, LoRAs, Inpainting und mehr
- ✓ Kommerzielle Nutzung – die meisten Modelle erlauben es
Die Technik dahinter basiert auf sogenannten Diffusions-Modellen. Vereinfacht gesagt: Das Modell lernt, aus reinem Bildrauschen schrittweise ein scharfes Bild zu erzeugen. Dein Textprompt steuert dabei, welches Motiv, welcher Stil und welche Details im fertigen Bild erscheinen.
Wenn Du Dich generell für das Thema interessierst, schau Dir auch unseren Überblick zu KI-Tools an, die Dir im kreativen Alltag helfen können.
2. Systemanforderungen: Was Dein Rechner braucht
Bevor Du Stable Diffusion installierst, solltest Du prüfen, ob Dein Rechner die nötige Hardware mitbringt. Die Grafikkarte (GPU) ist dabei die wichtigste Komponente.
VRAM: Der wichtigste Faktor
Der Video-RAM (VRAM) Deiner Grafikkarte bestimmt, welche Modelle und Auflösungen Du nutzen kannst:
- 4 GB VRAM: SD 1.5 mit 512×512 Pixeln – funktioniert, aber mit Einschränkungen
- 6–8 GB VRAM: SD 1.5 komfortabel, SDXL mit Optimierungen möglich
- 12 GB VRAM: SDXL und SD 3.5 problemlos, ControlNet gleichzeitig nutzbar
- 16 GB+ VRAM: Alle Modelle inklusive Flux, Batch-Generierung, große Auflösungen
3. Installation: Die 4 besten Oberflächen im Vergleich
Stable Diffusion selbst ist nur das KI-Modell – Du brauchst eine Benutzeroberfläche (UI), um damit zu arbeiten. Die vier beliebtesten Optionen sind Automatic1111 [2], ComfyUI, Fooocus und der NMKD Stable Diffusion GUI.
Automatic1111 installieren (empfohlen)
Automatic1111 (auch bekannt als A1111 oder Stable Diffusion WebUI) ist die beliebteste Oberfläche. So installierst Du sie:
Schritt 1: Python installieren
# https://www.python.org/downloads/release/python-31011/
# Bei der Installation: „Add Python to PATH“ ankreuzen!
Schritt 2: Git installieren
# https://git-scm.com/download/win
Schritt 3: Repository klonen und starten
cd stable-diffusion-webui
webui-user.bat
Beim ersten Start lädt das Script automatisch alle nötigen Abhängigkeiten herunter. Das kann je nach Internetverbindung 10 bis 30 Minuten dauern. Danach öffnet sich die Weboberfläche unter http://127.0.0.1:7860.
ComfyUI installieren
ComfyUI arbeitet mit einem Node-basierten Workflow – ähnlich wie Blender oder Unreal Engine. Für Einsteiger ist das zunächst verwirrend, bietet aber maximale Flexibilität.
# https://github.com/comfyanonymous/ComfyUI/releases
# Einfach entpacken und run_nvidia_gpu.bat starten
# Option 2: Manuelle Installation
git clone https://github.com/comfyanonymous/ComfyUI.git
cd ComfyUI
pip install -r requirements.txt
python main.py
Fooocus: Der einfachste Einstieg
Fooocus ist perfekt, wenn Du einfach nur schnell KI-Bilder erzeugen willst, ohne Dich mit technischen Details zu befassen. Die Oberfläche erinnert an Midjourney – Du gibst einen Prompt ein und bekommst ein Bild.
cd Fooocus
# Windows:
run.bat
# Linux/Mac:
python entry_with_update.py
Fooocus lädt beim ersten Start automatisch das SDXL-Modell herunter und ist innerhalb weniger Minuten einsatzbereit.
NMKD Stable Diffusion GUI
Der NMKD GUI ist die einfachste Lösung für Windows-Nutzer, die kein Python oder Git installieren möchten. Du lädst einfach die EXE herunter, entpackst sie und startest die Anwendung. Alles Nötige ist bereits enthalten.
Der Nachteil: Updates kommen seltener als bei Automatic1111 oder ComfyUI, und die Erweiterungsmöglichkeiten sind eingeschränkt.
4. Dein erstes Bild generieren – Schritt für Schritt
Jetzt wird es spannend! Du hast Stable Diffusion installiert und die Weboberfläche ist geöffnet. So generierst Du Dein erstes Bild mit Automatic1111:
- Oeffne
http://127.0.0.1:7860in Deinem Browser - Wähle oben links ein Modell aus (Checkpoint)
- Gib Deinen Prompt in das Textfeld ein
- Füge einen Negative Prompt hinzu (optional, aber empfohlen)
- Klicke auf „Generate“ und warte wenige Sekunden
Die wichtigsten Einstellungen erklärt
In der Oberfläche findest Du verschiedene Parameter, die das Ergebnis beeinflussen:
- Sampling Method: Der Algorithmus, der das Bild erzeugt. Euler a und DPM++ 2M Karras sind gute Startpunkte.
- Sampling Steps: Wie viele Schritte das Modell zur Bilderzeugung macht. 20–30 Steps sind ein guter Kompromiss zwischen Qualität und Geschwindigkeit.
- CFG Scale: Bestimmt, wie streng sich das Modell an Deinen Prompt hält. Werte zwischen 7 und 12 funktionieren meistens gut.
- Seed: Eine Zahl, die das Zufallsmuster bestimmt. Gleicher Seed + gleicher Prompt = gleiches Bild. Nützlich, um Ergebnisse zu reproduzieren.
- Bildgröße: Für SD 1.5 nutze 512×512 oder 512×768. Für SDXL nutze 1024×1024 oder 896×1152.
Dein erster Prompt – ein Beispiel
Probiere diesen Prompt für den Anfang aus:
A cozy mountain cabin in winter, snow-covered trees, warm light
glowing from windows, northern lights in the sky, photorealistic,
8k, highly detailed, cinematic lighting
Negative Prompt:
blurry, low quality, distorted, watermark, text, ugly, deformed
Stelle den Sampler auf DPM++ 2M Karras, Steps auf 25 und CFG Scale auf 7. Klicke auf Generate und staune über Dein erstes KI-Bild!
5. Modelle im Überblick: SD 1.5, SDXL, SD 3.5 und Flux
Stable Diffusion gibt es in verschiedenen Versionen, und die Community hat tausende spezialisierte Modelle darauf aufgebaut. Hier ist der Überblick:
SD 1.5: Der Klassiker
Obwohl SD 1.5 das älteste Modell ist, bleibt es relevant. Es läuft auf schwacher Hardware, hat die größte Auswahl an Feinabstimmungen (Fine-Tunes) und LoRAs auf Plattformen wie Civitai [5] und Hugging Face [4]. Beliebte Fine-Tunes wie Realistic Vision, DreamShaper oder Deliberate liefern beeindruckende Ergebnisse.
SDXL: Der aktuelle Standard
SDXL erzeugt nativ Bilder in 1024×1024 Pixeln – doppelt so groß wie SD 1.5. Die Bildqualität ist deutlich höher, Details sind schärfer und Texturen wirken natürlicher. Für die meisten Anwender ist SDXL heute die beste Wahl.
SD 3.5: Die nächste Generation
SD 3.5 nutzt eine neue MMDiT-Architektur (Multi-Modal Diffusion Transformer) und kann dadurch Text in Bildern besser darstellen. Die Bildqualität ist nochmals verbessert, allerdings braucht das Modell mehr Rechenleistung. Es gibt Varianten in verschiedenen Größen (Medium und Large).
Flux: Der Herausforderer
Flux wurde von ehemaligen Stability-AI-Entwicklern (Black Forest Labs) geschaffen und repräsentiert den neuesten Stand der Technik. Die Bildqualität ist herausragend, besonders bei der Darstellung von Händen, Gesichtern und komplexen Szenen. Flux gibt es in drei Varianten: Flux.1 [schnell], Flux.1 [dev] und Flux.1 [pro].
Wo findest Du Modelle?
Die besten Quellen für Stable-Diffusion-Modelle sind:
- Civitai.com – Größte Community-Plattform mit tausenden Modellen, LoRAs und Embeddings
- Hugging Face – Offizielle Modelle und wissenschaftliche Varianten
- GitHub – Direkt bei den Entwicklern
Lade Modelldateien (meist im .safetensors-Format) herunter und lege sie in den Ordner models/Stable-diffusion/ Deiner Installation.
6. Prompt-Guide auf Deutsch
Der Prompt ist Dein wichtigstes Werkzeug. Er bestimmt, was Stable Diffusion generiert. Obwohl die meisten Modelle auf Englisch trainiert wurden, kannst Du mit der richtigen Technik auch als deutschsprachiger Nutzer hervorragende Ergebnisse erzielen. [7]
Aufbau eines guten Prompts
Ein effektiver Prompt folgt dieser Struktur:
- Hauptmotiv: Was soll auf dem Bild zu sehen sein? – a red fox sitting in a meadow
- Stil/Medium: Wie soll es aussehen? – oil painting, watercolor, photorealistic
- Beleuchtung: Welche Stimmung? – golden hour, dramatic lighting, soft ambient light
- Details: Zusätzliche Beschreibungen – intricate details, bokeh background
- Qualitätsangaben: Technische Qualität – 8k, masterpiece, highly detailed
Prompt-Beispiele für verschiedene Stile
Professional photograph of a German medieval castle on a hilltop,
autumn colors, misty morning, Canon EOS R5, 85mm lens, f/2.8,
natural lighting, highly detailed, 8k resolution
Illustration:
Whimsical forest illustration, enchanted trees with glowing
mushrooms, fairy tale atmosphere, digital art, vibrant colors,
Studio Ghibli inspired, detailed background
Porträt:
Portrait of an elderly craftsman in his workshop, warm side
lighting, shallow depth of field, weathered hands holding
wood carving tools, photorealistic, emotional, 4k
Negative Prompts richtig nutzen
Der Negative Prompt ist genauso wichtig wie der eigentliche Prompt. Hier gibst Du an, was das Bild nicht enthalten soll. Ein guter Standard-Negative-Prompt:
text, signature, extra fingers, mutated hands, poorly drawn face,
distorted, disfigured, bad anatomy, wrong proportions
Prompt-Gewichtung
Du kannst die Gewichtung einzelner Begriffe anpassen:
(wichtig:1.3)– Erhöhte Gewichtung (Werte über 1.0)(unwichtig:0.7)– Reduzierte Gewichtung (Werte unter 1.0)((doppelt wichtig))– Doppelte Klammern erhöhen die Gewichtung um den Faktor 1.1 pro Klammer
Wer sich für Alternativen zu manuellen Prompts interessiert, findet in unserem Artikel über Midjourney-Alternativen weitere Tools, die den Prompt-Prozess vereinfachen.
7. ControlNet, Inpainting und img2img erklärt
Sobald Du die Grundlagen beherrschst, eröffnen Dir fortgeschrittene Techniken völlig neue Möglichkeiten. Hier sind die drei wichtigsten:
img2img: Bilder als Grundlage nutzen
Bei img2img verwendest Du ein bestehendes Bild als Ausgangspunkt. Stable Diffusion verändert es dann basierend auf Deinem Prompt. Der Denoising Strength-Regler bestimmt, wie stark das Bild verändert wird:
- 0.2–0.4: Leichte Änderungen – Farben, Stimmung, kleine Details
- 0.5–0.7: Mittlere Änderungen – Stil wird deutlich verändert, Grundstruktur bleibt
- 0.8–1.0: Starke Änderungen – fast ein komplett neues Bild
Typische Anwendungen: Fotos in Gemälde umwandeln, Skizzen in fertige Illustrationen verwandeln oder den Stil eines Bildes komplett ändern.
Inpainting: Gezielte Bildbereiche ändern
Mit Inpainting kannst Du bestimmte Bereiche eines Bildes markieren und nur diese Bereiche neu generieren lassen. Das ist ideal für:
- Gesichter verbessern oder austauschen
- Störende Objekte entfernen
- Neue Elemente in ein bestehendes Bild einfügen
- Hintergründe ändern
Du malst einfach mit dem Pinsel über den Bereich, den Du ändern möchtest, und gibst im Prompt an, was dort stattdessen erscheinen soll. Der Rest des Bildes bleibt unverändert.
ControlNet: Präzise Kontrolle über Pose und Struktur
ControlNet ist ein Game-Changer für fortgeschrittene Nutzer. Es gibt Dir präzise Kontrolle über die Komposition Deines Bildes anhand verschiedener Steuersignale:
ControlNet installierst Du als Extension in Automatic1111 oder als Custom Node in ComfyUI. Die zugehörigen Modelle findest Du auf Hugging Face.
LoRAs: Spezialisierte Stilanpassungen
LoRA (Low-Rank Adaptation) sind kleine Zusatzmodelle, die einen bestimmten Stil, ein Gesicht oder ein Objekt gelernt haben. Sie werden zusammen mit dem Hauptmodell geladen und per Prompt-Syntax aktiviert:
Der Wert nach dem Doppelpunkt (0.8) bestimmt die Stärke des LoRA-Einflusses. Starte mit 0.7–0.8 und passe den Wert an.
8. Cloud-Alternativen: Stable Diffusion ohne eigene GPU
Keine leistungsstarke Grafikkarte? Kein Problem! Es gibt mehrere Wege, Stable Diffusion in der Cloud zu nutzen:
Für einen ausführlichen Vergleich aller Möglichkeiten, KI-Bilder zu erstellen, inklusive Plattformen, die keine Installation erfordern, schau in unseren umfassenden Guide.
9. Stable Diffusion vs. Midjourney vs. DALL-E
Die drei großen KI-Bildgeneratoren im direkten Vergleich – welcher passt am besten zu Dir?
Wann solltest Du welches Tool wählen?
Wähle Stable Diffusion, wenn Du:
- Volle Kontrolle über den Generierungsprozess haben möchtest
- Keine monatlichen Kosten tragen willst
- Privatsphäre wichtig ist und Deine Daten lokal bleiben sollen
- Gerne experimentierst und verschiedene Modelle ausprobieren willst
- Spezielle Anwendungen wie ControlNet oder Inpainting brauchst
Wähle Midjourney, wenn Du:
- Möglichst schnell ästhetische Ergebnisse ohne Einarbeitung willst
- Keine leistungsstarke Grafikkarte hast
- Den Community-Aspekt und die Inspiration schätzt
Wähle DALL-E, wenn Du:
- Bereits ChatGPT Plus nutzt
- Besonders natürliche Textverarbeitung in Prompts schätzt
- Schnelle Ergebnisse ohne jede Einarbeitung brauchst
Einen detaillierten Vergleich zwischen den Cloud-Diensten findest Du in unserem Artikel Midjourney vs. DALL-E.
10. Tipps für einen effizienten Workflow
Nach einiger Zeit wirst Du Deinen eigenen Workflow entwickeln. Hier sind bewährte Tipps, die Dir Zeit sparen:
Batch-Generierung nutzen
Generiere nicht ein Bild nach dem anderen. Stelle stattdessen Batch Count auf 4 oder mehr und lass Stable Diffusion mehrere Varianten gleichzeitig erzeugen. So findest Du schneller eine Komposition, die Dir gefällt.
Seeds strategisch einsetzen
Hast Du ein Bild gefunden, das Dir fast gefällt? Notiere Dir den Seed und ändere nur einzelne Prompt-Elemente. So behältst Du die Grundkomposition bei und optimierst gezielt Details.
Upscaling für Druckqualität
Generiere zunächst in der nativen Auflösung des Modells und skaliere dann hoch. Die eingebauten Upscaler wie ESRGAN oder 4x-UltraSharp verdoppeln oder vervierfachen die Auflösung bei hervorragender Qualität. In Automatic1111 findest Du diese Option im Tab „Extras“.
Hires. Fix für bessere Details
Der Hires. Fix in Automatic1111 generiert das Bild zunächst in niedriger Auflösung und skaliert es dann mit einem zweiten Durchgang hoch. Das Ergebnis: Mehr Details und weniger Artefakte als bei direkter hoher Auflösung.
VRAM-Optimierung
Wenn Dein VRAM knapp ist, helfen diese Einstellungen in Automatic1111:
set COMMANDLINE_ARGS=–medvram
# Bei sehr wenig VRAM (4 GB):
set COMMANDLINE_ARGS=–lowvram
# Für noch mehr Speicherersparnis:
set COMMANDLINE_ARGS=–medvram –opt-split-attention
11. Häufige Probleme und Lösungen
Bei der Arbeit mit Stable Diffusion tauchen immer wieder die gleichen Probleme auf. Hier sind die häufigsten mit Lösung:
CUDA Out of Memory
Dieser Fehler bedeutet, dass Dein VRAM nicht ausreicht. Lösungen:
- Bildgröße reduzieren (z.B. 512×512 statt 768×768)
--medvramoder--lowvramals Startparameter hinzufügen- Batch Size auf 1 setzen
- ControlNet-Modelle in niedrigerer Auflösung laden
Schwarze oder komplett verrauschte Bilder
Häufige Ursachen und Abhilfe:
- VAE-Modell fehlt – lade die passende VAE-Datei zum Checkpoint herunter
- CFG Scale zu hoch – reduziere auf 7–10
- Inkompatibles Modell – prüfe, ob das Modell zu Deiner SD-Version passt
Verzerrte Gesichter und Hände
Das klassische Problem von KI-Bildern. Gegenstrategien:
- Nutze den ADetailer-Extension für automatische Gesichtskorrektur
- Generiere in höherer Auflösung oder nutze Hires. Fix
- Verwende spezialisierte Negative Prompts für Hände
- Neuere Modelle wie SDXL oder Flux haben dieses Problem deutlich weniger
Häufige Fragen (FAQ)
Fazit: Lohnt sich Stable Diffusion?
Stable Diffusion hat die Welt der KI-Bildgenerierung demokratisiert. Was früher nur großen Unternehmen und Forschungslaboren vorbehalten war, steht heute jedem mit einem halbwegs modernen Computer zur Verfügung.
Die Einstiegshürde ist dank Oberflächen wie Fooocus und Automatic1111 niedriger denn je. Und mit der aktiven Community, tausenden Community-Modellen und ständigen Weiterentwicklungen wird Stable Diffusion immer besser.
Egal ob Du ein Künstler bist, der neue kreative Möglichkeiten erkunden möchte, ein Content-Creator, der einzigartige Bilder für seine Projekte braucht, oder einfach jemand, der neugierig auf KI-Technologie ist – Stable Diffusion ist den Versuch wert.
Starte jetzt: Installiere Fooocus für den schnellsten Einstieg oder Automatic1111 für die volle Erfahrung. Generiere Dein erstes Bild und entdecke die faszinierende Welt der KI-Bildgenerierung!
Mehr über die besten KI-Tools und Alternativen zu Midjourney findest Du in unseren weiteren Artikeln.
Das könnte dich auch interessieren
ÜBER DEN AUTOR
Olaf Mergili
Gründer von mylurch.com · IT-Unternehmer seit 2003
Olaf Mergili beschäftigt sich seit über 20 Jahren mit IT-Infrastruktur und Automatisierung. Als Gründer der OMTEC und Betreiber mehrerer B2B-Plattformen testet er KI-Tools im praktischen Unternehmenseinsatz — nicht in der Theorie. Seine Artikel basieren auf echten Workflows und messbaren Ergebnissen.
Quellen & Referenzen
- Stability AI — Offizielle Website — Entwickler von Stable Diffusion
- AUTOMATIC1111 Web UI — GitHub — Populärstes Interface für Stable Diffusion
- ComfyUI — GitHub — Node-basiertes Interface fuer Stable Diffusion
- Stability AI auf Hugging Face — Modell-Downloads und Dokumentation
- CivitAI — Modell-Community — Community für Stable Diffusion Modelle und LoRAs
- Fooocus — GitHub — Einfaches Stable Diffusion Interface
- Stable Diffusion Art — Tutorials und Anleitungen fuer Stable Diffusion
Alle Links wurden zuletzt im März 2026 überprüft.
Kostenloser Download
OpenClaw Starter-Guide
11 Seiten PDF — von der Installation bis zum ersten automatisierten Workflow. Jetzt kostenlos herunterladen.