DALL-E 3 使用指南
传统的绘图模型需要:
5分钟
2025-12-26
图像生成AI绘画创意工具DALL
DALL-E 3 使用指南
DALL-E 3 是 OpenAI 最新的图像生成模型。它最大的特点是“听得懂人话”。你不需要像在 Midjourney 或 SD 中那样背诵复杂的魔法咒语,只需用自然语言描述画面,DALL-E 3 就能精准执行。
1. 核心优势:语义理解
传统的绘图模型需要:
masterpiece, best quality, 1girl, blue hair, standing in rain, cyberpunk city background, neon lights, 8k wallpaper
DALL-E 3 只需要: “画一个蓝发女孩站在下雨的赛博朋克城市里,背景有霓虹灯,画面精美。”
它能精确理解物体之间的关系(谁在谁旁边)、文字内容(在招牌上写什么字)以及复杂的逻辑描述。
2. 使用渠道
2.1 ChatGPT Plus/Team
最常用的方式。
- 对话式修改: 画完后,你可以继续说:“把背景里的雨改成雪”、“给她戴上一顶帽子”、“画幅变成横屏”。
- 多图生成: 一次对话通常生成 1-2 张图。
2.2 Microsoft Designer (原 Bing Image Creator)
- 免费使用: 每天有免费生成的 Boost 点数。
- 底层技术: 同样基于 DALL-E 3。
- 网址: designer.microsoft.com
2.3 API 调用
开发者可以使用 API 将画图集成到自己的应用中。
- 价格: 标准版 $0.04/张,高清版 $0.08/张(1024x1024)。
3. 提示词技巧
尽管 DALL-E 3 很智能,但掌握技巧能画得更好。
3.1 风格指定
DALL-E 3 倾向于生成具有“数码插画感”的图片。如果想要照片级真实感,需要强调:
Photo-realistic(照片级真实)Captured by DSLR camera(单反相机拍摄)4k resolution, raw style(原始风格)
3.2 保持一致性 (Gen ID)
在 ChatGPT 中,每张图都有一个 gen_id。如果你想微调某张图:
- 问 GPT:“What is the gen_id of the first image?”
- 下一条指令带上 ID:“Keep the style of gen_id 'xyz', but change the cat to a dog.”
3.3 文本渲染
DALL-E 3 是目前渲染文字最准确的模型之一。
- Prompt:
一个霓虹灯招牌,上面写着 "OPENAI"。 - DALL-E 3 可以准确把字母拼对,而 SD/MJ 往往会画成乱码。
4. 局限性
- 修改精度: 即使是对话式修改,它往往也是重画一张,很难做到像 Photoshop 那样只修图中的几个像素。
- 版权限制: 无法直接生成受版权保护的具体角色(如米老鼠、马里奥),模型会自动改写 Prompt 来规避版权。
- 比例限制: API 和网页版通常只支持 1024x1024 (1:1), 1792x1024 (16:9), 1024x1792 (9:16) 三种比例。
最后更新:2025-12