【2025年10月更新】本文最初是介紹 Google Bard AI 聊天服務,隨著服務全面升級,這篇內容改為分享 Gemini 圖像生成技巧。

Gemini 繪圖提示技巧,官方說明六個構圖要素與進階修改方法

Google 不久前推出全新的 Gemini 2.5 Flash Image(Nano Banana)繪圖模型,並且開放免費用戶有限度生成圖像,相信許多人都已體驗其強大的繪圖技術,尤其是維持原圖主體進行局部重繪非常出色,例如,根據人物照片替換背景環境或服裝。若是透過提示生成圖像,卻達不到理想中的效果,官方也有分享的 Gemini AI 繪圖技巧,包括基礎觀念與進階繪圖都有明確說明。

原文出處:https://blog.google/products/gemini/image-generation-prompting-tips/

一、掌握六大元素,建構有效的繪圖提示詞

雖然簡單的一兩句話即可生成相應的圖像,但若想更細膩地繪製出所需的畫面,官方建議在提示詞中包含六個核心元素,將 AI 繪圖描述當成建構藍圖。

1、主詞:具體描述圖像主體,盡量包含細節。

例如「一個眼神堅毅、眼睛散發藍光的機器人咖啡師」。

2、構圖:指定畫面的取景方式。

例如「主體特寫」、「廣角鏡頭」、「低角度拍攝」。

3、動作:描述圖像主體的動作或姿勢。

例如「正在沖泡一杯咖啡」、「正在施展一個神奇的法術」。

4、地點:明確指出畫面場景。

例如「一個位於火星上的未來感咖啡館」、「一個陽光普照、開滿野花的草地」。

5、風格:提示整張圖像的視覺效果。

例如「3D 動畫」、「黑色電影」、「水彩畫」、「90年代攝影風格」。

6、編輯指令 :若要改變既有圖片,指令要直接且明確。

例如「將男人的領帶換成綠色」、「移除背景中的那輛車」。

二、以圖生圖的進階技巧,對已生成的圖像進行重繪。

1、保持角色外觀的一致性

Gemini 繪圖模型可以用詳細的提示詞創造一個角色,然後在同一個對話中,要求 AI 將「同一個角色」放到另一個場景或更換動作姿勢,重新繪製圖像時,Gemini 能維持角色的主要特徵,如臉部、服裝和外觀。範例:

生成圖像「一位充滿未來感的賽博龐克風格女孩,她身穿黑色夾克,背景是霓東京街頭夜景。」

指令「現在,讓同一個女孩站在一座摩天大樓的頂樓邊緣,俯瞰著下方繁華的城市光景。」

一張賽博龐克風格女孩的對比圖,左圖她在霓虹街頭,右圖她在摩天大樓頂樓,外觀特徵保持一致。

2. 精準的局部修改

使用者可透過口語化指令,對圖片的特定部分進行精確修改,不需要重繪整個場景。範例:

指令「一間有落地窗的現代風格書房,房內有一張淺灰色布質沙發和一張深色書桌。」

指令「將沙發的顏色改成沉穩的深墨綠色」。

指令「現在,在書桌上放一台打開的筆記型電腦和一杯冒著熱氣的咖啡」。

三張現代書房的連續修改圖,從灰色沙發,到沙發變成綠色,最後在書桌上增加了筆電和咖啡。

3、融合不同的概念與風格

在生成圖像時,可以嘗試將兩個完全不同的主體或風格融合在一起,創造出超現實的驚奇畫面。範例:

指令「生成一張寫實的人物全身照片,主角是一位女士身穿中國古代唐朝服裝。」

指令「生成一張照片,描繪一個未來科技感的高速列車月台。」。

指令「讓這位唐裝女士,站在高速列車月台上,眼睛望向前方。」

三張圖片的組合過程,左邊是唐裝女士全身照片,中間是未來列車車站,右邊是兩者融合後的超現實畫面。

4、維持圖像主題改變風格

透過指令來套用另一種樣式、風格或紋理,徹底改變影像的視覺效果,同時保持原始主題完好無損。範例:

指令「生成一張停在歐洲石板路旁的復古黃銅自行車的寫實照片。」

轉換提示「將這張圖片轉換為炭筆素描風格。」

一張復古黃銅自行車的風格轉換對比圖,左邊是寫實照片風格,右邊被轉換為黑白炭筆素描風格。

5. 運用邏輯與推理生成複雜圖像

當無法一次描述出所需的圖像時,利用簡單概念+推理讓 Gemini 構建細節,適合用於創建現實活中的流程內容。範例:

生成照片「一位帥氣廚師,身穿廚師服,雙手捧著一個三層蛋糕,走進婚禮會場。」

指令(延續對話)「這位廚師因為絆到腳,身體往前傾斜,蛋糕從手中飛出去,臉上露出驚慌。」

一位廚師的動態對比圖,左圖他平穩地捧著三層蛋糕,右圖則是他絆倒後蛋糕飛出、面露驚慌的瞬間。

結語:

總結來說,將繪圖提示當成一齣戲的劇本,裡面描述場景畫面、人物動作與服裝(生成指令),這些指令可以簡單敘述或完整詳細。AI 則是依照劇本執行的演員,當 AI 收到簡單指令,由於沒有過多訊息,就只會生成基本構圖的影像,若向 AI 傳達清晰的描述,將會按照劇本呈現出各種有趣的作品!