Ein Schritt-für-Schritt-Guide für kostenlose KI-Foto-Generierung
Du hast drei Fotos: eine Person, eine Situation und ein Outfit. Jetzt möchtest du die Person aus Bild 1 in der Situation aus Bild 2 mit der Kleidung aus Bild 3 sehen. Klingt kompliziert? Mit Google Flow https://labs.google/fx/de/tools/flow und Nano Banana 2 ist das schnell erledigt – und das komplett kostenlos.
Was du brauchst
| Voraussetzung | Details |
| Google-Konto | Kostenlos, keine Zahlungsinformationen nötig |
| 3 Referenzfotos | Format egal (quadratisch, hochkant, liegend) |
| Browser | Chrome, Firefox, Safari – nichts Spezielles |
| Zeit | Ca. 5–10 Minuten für erste Ergebnisse |
Google Flow ist aktuell weitgehend unbegrenzt nutzbar. Kostenlose Nutzer erhalten tägliche Credits – das reicht für dutzende Bilder generierungen.

Google-Flow-Eingabe-für-Prompt-Hochlademöglichkeit-und-Format-Auswahl
Der wichtigste Trick: Die Reihenfolge
Das scheint banal, aber 90% der Misserfolge passieren hier: Du musst die Bilder in dieser exakten Reihenfolge hochladen:
- Erstes Bild: Das Personenfoto (Gesicht, Körperbau)
- Zweites Bild: Das Situationsfoto (Hintergrund, Umgebung, Pose)
- Drittes Bild: Das Kleidungsfoto (Outfit, Jacke, Kleid)
Das Nano Banana 2-Modell weist den Bildern automatisch Positionen zu. Wenn du die Reihenfolge vertauschst, bekommt die KI die Zuordnung nicht hin.
Was du brauchst
Google Flow ist aktuell weitgehend unbegrenzt nutzbar. Kostenlose Nutzer erhalten tägliche neue Credits – das reicht für dutzende Bilder-Generierungen.
Der perfekte Prompt
Solche Prompts wie dieser hier bekommt man auch von KI-Werkzeugen wie Perplexity.AI, wenn man die eigenen Erwartungen dort als Prompt eingibt.
Erstelle ein fotorealistisches Foto aus drei Referenzbildern:
REFERENZ 1 (erstes Bild): Die Person – behalte das Gesicht, die Gesichtszüge und den Körperbau exakt bei. BESCHREIBUNG
REFERENZ 2 (zweites Bild): Die Situation – übernehme den Hintergrund, die Umgebung, die Pose und die Beleuchtung dieser Szene. BESCHREIBUNG
REFERENZ 3 (drittes Bild): Die Kleidung – übernehme das genaue Outift/Kleidungsstück von dieser Person. BESCHREIBUNG
KOMBINATION:
Zeige die Person aus REFERENZ 1 in der Situation aus REFERENZ 2, tragend die Kleidung aus REFERENZ 3.WICHTIG:
– Gesicht und Körperbau von Person 1 unverändert lassen
– Kleidung aus Bild 3 natürlich auf den Körper anpassen (Passform, Falten, Beleuchtung)
– Hintergrund und Atmosphäre aus Bild 2 beibehalten
– Fotorealistisch, natürliche Beleuchtung, keine VerzerrungenVermeide: Text, Wasserzeichen, zusätzliche Personen, deformierte Hände
Format festlegen: Querformat 16:9, 5:4, quadratisch oder Hochformat 4:5, 9:16
Bevor du auf Rechts auf Generieren klickst, musst du vorher das Ausgabeformat wählen. Wichtig: Du kannst maximal 4 Fotos auf einmal erstellen.
Verfügbare Formate:
| Format | Verwendung | |
| 16:9 | Cinema, YouTube Thumbnails, Landscape | |
| 4:5 | Instagram Portrait, Smartphone | |
| 1:1 | Instagram Square, Profilbilder | |
| 9:16 | TikTok, Instagram Stories, Reels |
Anzahl einstellen
Wähle maximal 4 Bilder für diese Generierung, dann hast du mehr Auswahl.
Eines meiner Ergebnisse:
Tipps für bessere Ergebnisse
Beschreibungen konkret halten
| Schlecht | Gut |
| „Person auf Bild 1“ | „Frau mit kurzen blonden Haaren, Mitte 20, lächelnd“ |
| „Hintergrund“ | „Café bei Tageslicht, Holzstühle, warme Beleuchtung“ |
| „Kleidung“ | „Rote Jeansjacke mit weißen Knöpfen, schwarzes T-Shirt“ |
Je detaillierter die Beschreibung, desto besser versteht die KI die Zuordnung.
Negative Constraints nicht vergessen
Am Ende des Prompts immer hinzufügen:
„Vermeide: Text, Wasserzeichen, zusätzliche Personen, deformierte Hände“
Mehrere Durchläufe
Manchmal braucht es 2–3 Versuche. Ändere dabei leicht die Formulierung („fotorealistisch“ → „kommerzielles Foto“, „natürliche Beleuchtung“ → „weicheres Licht“).
Warum funktioniert das?
Nano Banana 2 ist Googles aktuelles Bild-Generierungs-Modell mit besonderer Stärke in Subject Consistency – also der Fähigkeit, Gesichter, Körper und Kleidung aus Referenzbildern exakt zu übernehmen. Generell kann man bei neueren Bildmodellen die Objekte und Personen auf den Bilder konkret ansprechen und Veränderungen anfordern, z.B. „Lösche alle Verkehrsschilder aus dem Bild“.
Das Modell kombiniert:
- Multi-Image Fusion: Mehrere Referenzbilder in einem Prompt
- Subject Consistency: Gesichter und Körper bleiben erkennbar
- Enhanced Reasoning: Versteht Zusammenhänge zwischen Bildern
- Text Rendering: Kann Text korrekt in Bildern darstellen (falls gewünscht)
Fazit
Mit Google Flow und Nano Banana 2 kannst du Person, Situation und Kleidung aus drei separaten Fotos in einem fotorealistischen Bild kombinieren – kostenlos, ohne Installation, in wenigen Minuten. Der Schlüssel zum Erfolg ist die korrekte Reihenfolge beim Hochladen und konkrete Beschreibungen im Prompt.



