應該有不少人都體驗過 Gemini Pro 模型強大的中文影像生成能力,無論是詳細圖文解說或廣告文宣,都能精準完成。然而,對於免費用戶來說,直接使用 Gemini 2.5 Flash 模型生成文字圖片會有明顯落差,經常出現筆畫錯誤、結構走樣,甚至產生看不懂的外星文字。
筆者利用 Gemini Canvas 建立了「XFont AI 繪字工具」,主要用來生成純文字圖片,如醒目標語、封面文字等。特色是採用圖對圖方式,解決了 Gemini 2.5 Flash 無法準確生成中文字影像的問題,讓 AI 根據文字結構與樣式範例生成文字圖片,同時兼具擴展性,操作時可上傳字體與參考圖。
XFont 核心思維
在建構初期,單純要求 AI 仿照範例圖生成指定文字,卻發現 Gemini 2.5 Flash 所生成的文字圖片不盡理想,幾乎不能呈現中文筆畫結構。歷經多次嘗試後,決定轉換思維,將處理流程改為「圖對圖 (Image-to-Image)」模式,主要步驟為:
- 建立結構:利用前端 HTML5 Canvas 渲染技術,將文字轉換為結構影像 (遮罩圖片)。
- 仿照風格:提供範例圖片供 AI 查看色彩、光影等視覺效果,連同結構影像傳送給 AI。
- 重新繪製:透過繪圖提示詞引導 AI 依樣畫葫蘆,仿照既有樣式重新繪製文字圖像。
工具特色
這種設計可讓免費版 Gemini 模型生成正確的文字圖片,並具備跨語言能力。由於文字結構是由 HTML5 Canvas 渲染,因此 XFont 支援中文、韓文、日文與其他語言,只要能夠輸入即可生成文字圖,還可自訂字體與紋理樣式。
- 自訂樣式:支援上傳樣式圖,如提供一張木頭紋理圖片,AI 會以木紋填充文字內部。
- 擴充字體:支援上傳 .ttf 與 .otf 檔案,只要擁有字體檔就能生成相應的文字圖。
名稱:XFont AI 繪字工具
XFont 使用說明:







使用註解(可能發生的情況)
筆者測試這項工具,大部分都能準確生成文字圖片,包括使用水果(草莓、榴槤、西瓜)圖片當作紋理參考圖都沒問題,但無法保證 100% 成功。若遇到下面狀況,只需重新操作一次,即可獲得理想結果。
1. 整個流程涉及文字渲染、圖片上傳、AI 運算多個步驟,Gemini 系統偶爾沒有任何反應。
2. 雖然繪圖指令明確要求仿照參考圖繪製樣式和紋理,但 AI 處理影像時可能發生視覺錯亂(幻覺),直接將參考圖當成背景。
此外,工具中提供的範例圖片存放在第三方託管空間,若有外在因素無法正常顯示,可直接上傳自備的紋理、樣式圖進行操作。
延伸閱讀:
1 留言
非常不错的分享,感谢分享
回覆刪除