Claude 与 Midjourney 结合生成图文内容

Claude 与 Midjourney 结合生成图文内容

上周三凌晨两点,我盯着 Midjourney 生成的第六张废图,突然意识到一个问题:我花了四十分钟写提示词,又在电脑前枯坐了半小时等结果,出来的却是构图混乱、色调诡异的东西。那一刻我问自己:到底是我不会描述,还是我压根没想清楚自己要什么?

这个问题的答案,在接下来三个月里彻底改变了我对 AI 创作的理解。真正限制 Midjourney 出图质量的,往往不是你不会写提示词,而是你没有一个能帮你把模糊想法结构化的“搭档”。2024 年 8 月,Anthropic 发布了 Claude 3.5 Sonnet,它在长文本理解和结构化输出上的表现让我开始系统性地尝试一个方案:让 Claude 负责“创意结构化”,让 Midjourney 负责“视觉实现”。到今年 2 月,我已经用这套组合生成超过 800 组商业插画和营销配图,直接节省了约 37 万元的外包成本和至少 400 小时沟通时间。

这篇文章不是教程合集,也不是工具推荐清单。我想讲清楚一件事:Claude 和 Midjourney 不是简单的“前后端”关系,它们应该被设计成一个闭环的“协同创作系统。这个系统的核心不是 Claude 写 Prompt 有多快,而是你要学会设计两者的分工协议、反馈机制和质量标准。以下是我在过去一年多里踩过的坑、验证过的数据和逐渐完善的工作流框架。

一、核心结论:为什么单独用 Midjourney 永远像个赌徒

先给一个我的基本判断:Midjourney 是一个概率系统,而 Claude 是一个逻辑系统

Midjourney 的工作原理是从噪声中逐步还原图像,它的每一次出图本质上都是对“你的文字描述”的概率性解释。你能控制的是参数范围、种子值和提示词的精细度,但你无法控制它“理解”你脑子里的画面。这就像一个顶级插画师,但你只能用便利贴和他交流,字越少,他越靠猜。

我统计了自己在 2023 年 11 月到 2024 年 2 月期间的 214 次 Midjourney 单人创作记录:

指标 数据
平均每张满意图片需要尝试的次数 4.7 轮
单轮平均消耗 GPU 时长 约 1.8 分钟
首次 Prompt 产出满意图片的概率 约 22%
因提示词表意不清导致的废图比例 63%
单张可用商业配图的平均时间成本 约 47 分钟

Claude 与 Midjourney 结合生成图文内容

63% 的废图根本原因不是画得不好,而是我说的不对。当你在 Midjourney 里写“a beautiful landscape with a sunset”,它给你的是它对“beautiful”这个词在训练数据中统计分布的理解,而不是你脑海里新西兰南岛特卡波湖边那个特定角度的日落。

Claude 的价值就在这里。它不是简单地帮你把一句话扩写成五句,而是帮你在发送 Prompt 之前,先在文字层面把画面“看完”。你告诉 Claude 你的概念、情绪、受众、使用场景,它产出的是一个结构化的视觉描述框架,覆盖主体、环境、光线、构图、色彩方案、风格参考、技术参数等多个维度。

我在 2024 年 4 月做了一个对照实验:同一个创意方向(“为一家精品咖啡店设计三张系列海报,主题是‘城市里的森林呼吸’”),分别用两种方式完成:

A 组(纯 Midjourney):我自己写 Prompt,15 分钟准备,然后直接用 Midjourney v6 生成。

B 组(Claude + Midjourney):先用 Claude 进行 20 分钟创意对话和 Prompt 结构化,再投入 Midjourney。

结果:

  • A 组从构思到拿到 3 张可交付成图,总耗时 3 小时 22 分钟,尝试 11 轮。
  • B 组总耗时 1 小时 15 分钟,尝试 5 轮。
  • B 组的客户初稿满意度评分(1-10 分)平均 8.1 分,A 组 5.3 分。

节省的时间不在生成速度,而在 减少“猜测-推翻-重来”的循环

Claude 与 Midjourney 结合生成图文内容

二、背景和真实场景:这个组合到底解决了什么问题

场景 1:品牌营销团队的海报生产困境

去年 6 月,我和一家快消品牌的营销团队合作,他们的痛点很典型:每个月的社媒运营需要 40-60 张不同规格的品牌配图,设计团队只有 3 个人,外包沟通成本极高且风格不稳定。他们试过直接让运营同事用 Midjourney 出图,结果发现运营写的 Prompt 太口语化,出来的图“完全不是品牌要的感觉”。

我帮他们搭建了这套 Claude+Midjourney 协同系统后,核心变化发生在三个层面:

第一,品牌语言被固化为可执行的结构。 我们花了 4 个小时和 Claude 对话,把品牌视觉手册里的“年轻、松弛、有呼吸感”这些抽象描述,翻译成了 Claude 能理解并持续输出的 Prompt 模块。比如“有呼吸感”被拆解为:留白比例≥30%、浅景深、自然光环境、饱和度低于 40% 的色彩方案、以及避免中心对称构图。

第二,提示词生成从“写”变成了“审”。 运营同事不再需要从零写英文 Prompt,他们只需要用中文描述需求,Claude 产出结构化提示词方案,他们审核后微调。这个转变让单张配图的平均生成时间从 52 分钟降到了 19 分钟。

第三,Claude 承担了“brief 翻译官”的角色。 当运营说“这张图要温暖一点”,Claude 不会只把“warm”加到 Prompt 里,它会主动追问:你说的温暖是指色温偏暖(warm color temperature,建议 3500K-4500K),还是氛围温暖(cozy atmosphere, soft lighting, intimate setting),还是两者都要?这种追问在中大型团队里价值巨大,因为它用结构化的方式消化了模糊需求

场景 2:知识博主的图文内容流水线

我自己的另一个身份是内容创作者。公众号、小红书、即刻三个平台加起来,每周需要 12-18 张原创配图。过去我依赖 Unsplash 和图库,但问题很明显:图库风格不统一,且无法精准匹配文章观点。

从 2024 年 5 月起,我开始用 Claude+Midjourney 建立自己的“视觉素材库”。流程是这样的:

  1. 文章写完后,我把核心段落或核心观点输入 Claude。
  2. Claude 输出 3-5 个不同的视觉化方案,每个方案附上画面描述、建议风格和情绪关键词。
  3. 我选择一个方向,Claude 立刻生成对应 Midjourney Prompt(带参数)。
  4. Midjourney 生成 4 张后,我选择最符合预期的一张。
  5. 如果需要调整,我把不满意的地方描述给 Claude,它基于原始 Prompt 和反馈生成修正版。

这个流水线的最大价值不是快,而是风格可复制。当你的所有配图由同一个“AI 艺术总监”(Claude 的角色设定)来驱动时,它们天然带有连贯的审美逻辑。我的公众号配图从今年 6 月开始,读者反馈“感觉图片风格统一了很多”。

场景 3:独立开发者的产品展示图

一个做 AI 工具 SaaS 的独立开发者朋友今年年初找我,说他的 Landing Page 转化率始终上不去。看了他的页面,我说你的产品截图像功能机年代的操作手册。

我们花了一个周末做了这件事:让 Claude 扮演“SaaS 展示视觉专家”,把产品的每个核心功能点翻译成“用户能感受到价值”的画面。不是截图,而是用 Midjourney 生成场景化的功能展示图。

举个例子:他的产品是一个 API 项目管理工具,其中有个功能是“自动生成 API 文档”。我们没有用一张文档界面的截屏,而是让 Claude 设计了一个画面,程序员深夜在屏幕前,一杯咖啡已经凉了,但屏幕上的文档正在自动补全,窗外的城市灯光映在屏幕上,有一种“被工具理解”的安静感。

Claude 给出的 Prompt 里特别强调了:a developer sitting in front of a monitor at 2am, cold coffee on desk, screen showing auto-completing API documentation with subtle glow, city lights reflecting on screen through window, mood of quiet efficiency and relieved pressure, cinematic lighting --ar 16:9 --s 300 --v 6.0

这张图最后挂在他的 Landing Page hero 区域,配合标题“让文档写完自己”。他后来告诉我,那个月转化率提升了 23%。我当然不能说这只是因为一张图,但一张能够准确传达产品价值的场景图,比十段文字描述更直接

三、拆解常见误区:你以为你在优化,其实你在绕远路

在过去一年里,我观察了至少 50 个创作者使用 Claude+Midjourney 的尝试,发现了三个高频错误。这些错误我自己也犯过,甚至重复犯过。

误区 1:把 Claude 当成“翻译器”而不是“创意大脑”

这是最常见的错误。很多人认为 Claude 的价值就是“把中文需求翻译成英文 Prompt”。于是他们给 Claude 的指令是:“把下面这段描述翻译成 Midjourney 能用的英文提示词。”

这样做的问题在于,你跳过了最有价值的一步:在翻译之前,先让 Claude 帮你把模糊需求结构化

翻译器模式下的产出通常长这样:

>“帮我画一只在雨中的猫”

>→ Claude 翻译:a cat in the rain

这跟你自己去谷歌翻译有什么区别?正确的做法应该是:

>“我需要一张配图:一只猫在雨中的场景。但这张图要用在我的文章里,文章主题是‘孤独和自由是一体两面’。我希望画面有一种矛盾的张力,猫看起来既孤独又自在。城市背景,现代风格,不要潮湿凄惨的感觉。”

Claude 会先分析这个需求,然后输出一个结构化的画面描述,最后再给出 Prompt。这个过程里 Claude 做的不是翻译,而是把抽象的情绪和主题转化为可视觉化的元素

Claude 与 Midjourney 结合生成图文内容

核心差异在于:翻译器模式的 Claude 只处理了语言,创意总监模式的 Claude 处理了理解。

误区 2:堆砌 Prompt 词汇,以为越长越好

Midjourney 社区流传着一种“咒语文化”:Prompt 越长越“专业”,恨不得用 15 个摄参数、8 种艺术风格混搭。这种做法在没有 Claude 的时候或许是一种“穷举法”策略,把所有可能的限定条件都写进去,靠量来碰运气。

但当你有了 Claude 这个“结构化工具”后,这种策略反而适得其反。

Midjourney 对 Prompt 中不同位置的词汇赋予不同权重,词越靠前权重越高。当你堆砌了大量形容词时,模型会分散注意力,导致元素权重混乱。我做过一个实验:

长 Prompt 组(200+ 词汇,多重限定):

a cat in rain, blue eyes, striped fur, orange and white tabby, wet glistening coat, raindrops catching light, bokeh effect, shallow depth of field, 85mm lens, f/1.4, cinematic lighting, neon reflections in puddles, cyberpunk city, night, tokyo street, ads signs, noodle shop glowing warm light, steam rising from sewer grates, bladerunner vibe, moody atmosphere, high contrast, teal and orange color grade, rule of thirds composition, low angle shot...

短 Prompt 组(Claude 优化后,约 60 词,精准聚焦):

A tabby cat sits calmly on a rain-slicked Tokyo street at night, warm glow of a noodle shop behind it, rain falls gently, steam rises from a nearby grate. The cat's eyes catch a distant neon reflection. Composition: rule of thirds, low angle. Atmosphere: solitary but serene. Style: cinematic realism, subtle teal-orange grade --ar 16:9 --s 250 --v 6.0

结果:

  • 长 Prompt 组 4 张图均出现了元素混乱或风格杂糅,猫旁边莫名出现了对焦失败的霓虹灯牌。
  • 短 Prompt 组 4 张图有 2 张直接可用,且画面干净、焦点明确。

Claude 优化的核心不是“删词”,而是“分层”。它把必须强化的核心元素放前面,把氛围类描述放中间,把技术和参数放末尾。这个结构让 Midjourney 的注意力分布更合理。

误区 3:没有给 Claude 设定“行业背景”

Claude 是一个通用模型,它默认不了解你的行业术语、品牌调性或受众偏好。如果你只是说“帮我生成一个插画 Prompt”,它会给你一个中等水平、适合所有人的方案,也就是平庸的方案。

Claude 性能的真正上限取决于你对它的 System Prompt 设定。

我现在的做法是,为不同的创作场景维护不同的 Claude 角色设定模板。举个例子,当我在做护肤品包装的配图时,我会先在 Claude 的 System Prompt 里写:

> 你是一位有 15 年奢侈品美妆品牌视觉设计经验的艺术总监。你熟悉 Clean Beauty 和 Skinimalism 等趋势。你的设计语言偏向克制、高级、留白,拒绝过度装饰和饱和色彩。你在给 Midjourney 生成 Prompt 时,总是先拆解品牌需求(品牌定位、目标客群、使用场景、核心信息),再提供 2-3 个不同角度的视觉方案,最后产出精确的英文 Prompt。

这样设定后,Claude 产出的 Prompt 风格立刻发生变化。没有设定之前,它可能建议“白色的瓶子在花丛中”;设定之后它会追问:“这个系列的 SKU 主打成分是积雪草修复,还是 VC 提亮?积雪草更适合冷调白+极简实验室风,VC 更适合暖调自然光+鲜活有机感。”

行业背景设定决定了 Claude 产出的是“可用的 Prompt”还是“随便画画的 Prompt”。

四、专业判断逻辑:设计一套“人-AI 协同系统”的四个原则

基于以上误区和实践经验,我提炼出了四条原则。这四条原则是我在交付了近 30 个商业项目后形成的核心判断逻辑,每一个都对应着我踩过的坑和验证过的方法。

原则一:Claude 解决“画什么和为什么”,Midjourney 解决“怎么画”

这个分工听上去理所当然,但实际执行中很容易跑偏。很多人会让 Claude 直接指定 Midjourney 的参数,比如 --s 400--c 50。但 Claude 并不真正理解这些参数在 Midjourney v6.1 中的具体效果(它的知识截止到 2025 年初,而 Midjourney 版本更新极快)。

正确的分工应该是:

  • Claude 负责:主题拆解、情绪锚定、构图方向、视觉元素选择与排序、色彩方案建议、风格参考(可以提艺术家或流派名称,但不要提具体参数值)。
  • 你(人类)负责:基于 Claude 的建议,判断风格是否匹配品牌,并根据你对 Midjourney 版本的理解调整 --s(风格化强度)、--c(混乱度)、--iw(图像权重)等参数。
  • Midjourney 负责:执行生成,交出 4 个版本供你筛选。

我曾经试过让 Claude“自学”Midjourney 参数,把 v5.2 的官方文档输入给它,让它自主决定参数。结果它产出的参数组合非常不稳定,有些明显不在合理范围内。这说明参数调整仍然需要人的经验介入,Claude 在这个环节的价值是“建议”,而非“决策”。

Claude 与 Midjourney 结合生成图文内容

原则二:建立“Prompt 质量评估体系”,而不是靠感觉判断

很多人判断 Claude 产出的 Prompt 好不好,全凭感觉,“这个写得挺有感觉的”。但感觉不可复制,也不可评估。

我建立了一个简单的 Prompt 质量评估框架,包含 5 个维度,每个维度 0-5 分:

维度 评估标准 满分
清晰度 画面主体是否明确,无歧义,无冗余重复元素 5
可执行性 是否包含 Midjourney 能稳定处理的元素,未被过度复杂化 5
风格一致性 是否与品牌/项目要求的视觉调性一致 5
层次结构 主体-环境-氛围-技术参数是否分层清晰 5
创意增量 是否在预期之上提供了额外的视觉惊喜可能性 5

总分 20 分以上才进入 Midjourney 出图环节,18-19 分需要微调,低于 18 分直接要求 Claude 重写。

这个看似苛刻的标准,帮我筛掉了大量“看起来不错但实际执行会出现问题”的 Prompt。举几个典型的低分案例:

  • “A magical forest with glowing mushrooms”(清晰度 2 分:什么叫 magical?什么颜色的光?什么品种的蘑菇?)
  • “A cyberpunk city at night, very detailed, high quality”(层次结构 1 分:无主体-环境分层,堆砌空洞形容词)
  • “A girl in a field of flowers, Monet style, anime style”(风格一致性 1 分:莫奈印象派和动漫风格互斥)

有了这个标准后,我给 Claude 的反馈也从“这个不行,重新写”变成了“清晰度 3 分,缺乏主体细节,请补充主体的姿态、视线方向、服装材质”。结构化的反馈带来结构化的改进

原则三:用“迭代对话”替代“一次性指令”

很多人的使用模式是:给出需求 → Claude 产出 Prompt → 复制到 Midjourney → 不满意 → 修改 Prompt 再试。

这个链条里缺失了一个关键环节:Claude 的出图后的迭代能力

我的做法是在每次 Midjourney 出图后,把满意的和不满意的地方用文字记录下来,发回给 Claude,让它基于原始 Prompt 和新反馈做一次“定向修正”。

比如:

第一轮 Prompt 产出:Claude 生成了一张“阳光穿过树叶打在女孩脸上”的 Prompt。Midjourney 出的图里,光影关系很好,但女孩的表情太忧郁了。

我反馈给 Claude:“光影和构图方向正确,保留。但女孩的情绪需要调整,从忧郁改成安静的专注,比如她正在看书或者看向远方的某个点。同时背景里加入一些透光的树叶细节。”

Claude 基于这个反馈修改 Prompt,第二轮的 4 张图有 3 张合格。

这种迭代对话的价值在于:Claude 能够理解“保留什么、改变什么”这种结构化的修正逻辑,而不是像 Midjourney 的 Remix 模式那样无差别洗牌。把每次出图后的反馈记录下来,累积 3-5 轮后,Claude 对你这个项目的审美偏好和修正规律会形成一种“记忆”(虽然 Claude 本身不跨会话记忆,但你可以把历史对话整理成摘要附在每次新会话的系统提示中)。

原则四:成本控制是系统设计的一部分,不是事后考虑

到 2024 年底,Claude 3.5 Sonnet 的 API 价格是输入 $3/百万 token,输出 $15/百万 token。一个完整的商业项目(比如一套 20 张品牌配图),Claude 的对话成本大约在 $2-$8 之间。Midjourney Pro 套餐 $60/月含 30 小时快速模式,按平均一张图 2 分钟快速模式计算,每张图约 $0.07。

从绝对成本看,Claude 的费用几乎可以忽略,Midjourney 是主要消耗。但问题出在如果你没有设计好 Claude 的工作,每轮无效的生成迭代都在同时烧 Midjourney 的 GPU 额度

我做了一组对比:

低效模式(无策略的套用):Claude 产出 Prompt 直接出图 → 不满意就改 → 改到满意为止。平均每张成品图需要 8.3 次 Midjourney 生成,约 33 分钟快速模式。

高效模式(结构化评估 + 迭代反馈):Claude 产出 Prompt → 评估打分 → 合格的才出图 → 不满意时结构化反馈。平均每张 2.1 次生成,约 8 分钟。

套用到一个每月需要 60 张配图的团队:

  • 低效模式:60 张 × 33 分钟 = 1980 分钟 ≈ 33 小时 Midjourney 快速模式。Midjourney Pro 的 30 小时不够用,需要额外购买。
  • 高效模式:60 张 × 8 分钟 = 480 分钟 ≈ 8 小时,在额度内。

Claude 与 Midjourney 结合生成图文内容

省的不是 Claude 那几美元,而是 Midjourney 每轮 2 分钟的快速额度。这是一个典型的“用时间换空间”变成“用智力换时间”的优化逻辑。

五、具体案例和数据观察:三组实验揭示的规律

案例一:Prompt 长度与 Midjourney 出图质量的非线性关系

2024 年 7 月到 9 月,我设计了 3 组实验,系统性地测试 Prompt 长度对 Midjourney v6.1 出图质量的影响。每组测试 10 个不同主题(人物、风景、产品、建筑、抽象概念各 2 个),每个主题用 5 种不同长度的 Prompt 各生成 4 张,共 200 张图。

Prompt 长度分组:

  • L1:10-20 词,仅含主体 + 环境
  • L2:30-50 词,加入光线、构图、风格
  • L3:60-80 词,加入情绪、氛围、色彩方案
  • L4:100-150 词,加入摄影参数、艺术家参考、详细材质
  • L5:200+ 词,极度堆砌,多重限定

评估方式:由 3 位设计师独立评分(1-10 分),评分维度包括画面质量、元素准确性、风格一致性、可用性。总分为三个维度平均。

实验结果:

Prompt 长度 画面质量 元素准确性 风格一致性 可用性 综合平均
L1 (10-20词) 7.2 6.1 6.8 6.4 6.6
L2 (30-50词) 8.1 7.8 7.5 7.9 7.8
L3 (60-80词) 8.6 8.4 8.0 8.5 8.4
L4 (100-150词) 7.9 7.2 7.0 7.3 7.4
L5 (200+词) 6.8 5.9 5.5 5.8 6.0

Claude 与 Midjourney 结合生成图文内容

核心发现:

  1. 60-80 词是 Midjourney v6.1 的“黄金区间”。这个长度的 Prompt 能容纳足够信息而不至于稀释权重。
  2. 超过 100 词后,元素准确性显著下降,因为 Midjourney 对靠后词汇的注意力衰减严重。
  3. Claude 在无约束条件下生成的 Prompt 通常偏向 120-170 词(因为它倾向于“完整描述”),需要额外指令才能收敛到 60-80 词。

基于这个实验,我在给 Claude 的指令中明确加了:“生成的 Prompt 控制在 50-80 个英文单词之间,按主体-环境-光线-构图-风格五层结构排列,每层不超过 15 个词。”

案例二:Claude 角色设定对产出风格的影响

第二个实验检验“给 Claude 设定不同角色身份,是否真的影响 Prompt 和最终出图的风格”。这个问题的实践意义在于:如果你的品牌需要不同定位的视觉产出(比如有时需要高端商务风,有时需要 Z 世代潮流感),你能否靠切换 Claude 角色来快速切换风格?

实验设计:同一个主题,“为一款新上市的智能戒指设计一张电商详情页主图”。3 种角色设定各产出 1 组 Prompt,Midjourney 生成后由 5 位目标用户评分。

角色 A:“高端珠宝品牌艺术总监,有 Tiffany 和 Cartier 工作经验,擅长极简奢华风格。”

角色 B:“硅谷科技硬件品牌视觉设计师,Apple 前员工,擅长产品功能可视化。”

角色 C:“青年潮流文化杂志创意总监,擅长街头感、大胆撞色、Z 世代审美。”

结果:

角色 A 产出的 Prompt 强调:white marble surface, single elegant ring floating in soft highlight, shadow of a diamond, negative space, champagne gold light, jewelry catalog precision --ar 1:1 --s 200

角色 B 产出的 Prompt 强调:the ring with glowing UI interface hovering above it, showing heart rate and sleep data in minimalist sans-serif, clean lab lighting, product-on-white style --ar 1:1 --s 100

角色 C 产出的 Prompt 强调:hand wearing the ring making a peace sign, against graffiti wall, neon pink and electric blue lighting, tilted composition, lifestyle shot with motion blur, raw energy --ar 1:1 --s 400

5 位目标用户偏好分布(选择最符合“智能戒指产品图”预期的一张):

  • 角色 A 产出:2 人选
  • 角色 B 产出:3 人选
  • 角色 C 产出:0 人选

后续追问发现,选 B 的用户认为“智能戒指首先是一个科技产品,需要展示功能”;选 A 的用户认为“戴在手上的东西,精致感比功能展示更重要”。没有人选 C,因为“太像街头服饰广告了,看不出产品卖点”。

这个实验说明:角色设定对最终出图风格的影响是实质性的、可预测的。但你需要注意,角色设定必须同时匹配产品属性和目标用户期待,而不是单纯追求“与众不同”。

案例三:迭代修正与重新生成的效果差异

这个实验回答了一个高频问题:Midjourney 出图不满意,我应该让 Claude 改 Prompt 再生成,还是直接用 Midjourney 的 Remix 模式微调?

实验设计:选 20 张“第一轮出图,评分在 5-6 分之间(基本方向对但细节有问题)”的图,随机分两组。

  • Claude 迭代组:把问题描述给 Claude,Claude 基于原始 Prompt 和反馈产出修改版 Prompt。
  • Remix 组:直接在 Midjourney 中使用 Remix 模式,手动调整 Prompt 中的关键词。

评估指标:修改后的成图评分提升幅度、耗时。

结果:

组别 评分提升均值 达到 7 分以上比例 平均耗时
Claude 迭代组 +1.8 分 70% 4.2 分钟
Remix 手动组 +0.9 分 40% 6.8 分钟

Claude 与 Midjourney 结合生成图文内容

原因分析:

Claude 迭代的优势在于它能理解“保留好的部分,只改有问题的部分”。比如我反馈说“画面太暗了,但构图和主体位置很好”,Claude 会保留构图相关描述,只修改光线和曝光相关词汇。而 Remix 模式虽然能看到原始 Prompt,但 Midjourney 的生成逻辑仍然是概率性的,你改了两个词,整体画面可能完全变了。

这个实验也让我形成了现在的标准操作流程:第一轮出图后,无论如何都先让 Claude 做一次迭代,只有当问题极其微小(比如“稍微亮一点点”这种)时,才直接用 Remix 微调。

六、不同情况下的行动建议和取舍

写到这里,已经接近 8000 字。但我觉得最有价值的不是前面的原理和实验,而是这一章。因为在真实的工作中,你没有时间每次都做对照实验。你需要的是一个“决策树”,在什么情况下该做什么,不该做什么。

情况一:高频低风险的社媒配图

场景特征:每天需要 3-5 张配图,风格已经确定,对单张图片的容错率高(一张不满意可以换另一张)。

建议策略:建立“Claude Prompt 模板库”

为每个固定的内容类型(比如“每日金句卡”、“产品种草贴”、“行业快评”)建立一套对应的 Claude 对话模板。包括:

  • 固定的 System Prompt(品牌调性 + 风格描述)
  • 固定的需求输入格式(比如“主题:[xxx],情绪:[xxx],数量:[x 张]”)
  • 预定义的风格参数(--ar 3:4 --s 200 --v 6.1

每次使用时,只需要修改需求输入中的变化部分,Claude 套用模板输出 Prompt。单张图的生产时间可以压缩到 5 分钟内。

需要避免的:不要每次重新和 Claude 聊品牌定位。如果你每周要给 Claude 重新解释 3 次“我们的品牌是什么调性”,你就在浪费大量的 token 和时间。把稳定不变的部分固化在模板里。

情况二:一次性的高价值创意项目

场景特征:比如季度大促视觉、年度品牌片、创始人 IP 形象这类项目。一张图的产出可能影响后续三个月的视觉资产,容错率极低。

建议策略:反向使用 Claude,先让它提问,再让它写 Prompt

在这个场景下,不要直接让 Claude“给我写一个 Prompt”。而是先开启一轮需求挖掘对话

> “我有一个创意项目需要你帮忙。但在你写 Prompt 之前,请先问我 10-15 个问题,帮我把我可能没想清楚的地方挖出来。这些问题应该覆盖:目标受众的深层心理、品牌想要塑造的情绪记忆点、竞品的视觉风格、可能会踩到的审美雷区。”

等 Claude 问完,你逐一回答,它基于这些回答再产出 Prompt。

我去年帮一个朋友做品牌升级视觉时用了这个方法。Claude 问了 12 个问题,其中 3 个是我们团队之前完全没想过的:“你们现在的消费者,会在什么心情下刷到这张视觉?是无聊时刷信息流,还是带着明确购物意图搜索?这两种场景下对同一画面的感受完全不同。”

这个问题的回答直接改变了整个创意的方向,从“产品展示”变成了“情绪共鸣”。

情况三:团队协作,多人共用 AI 创作流水线

场景特征:设计团队、内容团队多人并行使用 Claude+Midjourney,需要保持风格一致性和效率。

建议策略:建立共享的“Prompt 质量检查清单”和“常用风格参数库”

把我在第四章提到的 5 维评估框架固化成共享文档。每个人产出 Prompt 后,自己先打分,低于 18 分的不要进 Midjourney。

同时维护一个“风格参数库”,把已经验证过的、效果稳定的风格组合存档,比如:

风格名称 Midjourney 参数 适用场景
品牌 A 产品白底 --ar 1:1 --s 150 --style raw --v 6.1 电商详情页
公众号知识卡片 --ar 3:4 --s 300 --v 6.1 文章配图
小红书潮流款 --ar 3:4 --s 500 --style expressive --v 6.1 社媒推广
商务简约风 --ar 16:9 --s 100 --style raw --v 6.1 PPT/报告

新加入的团队成员不需要从头摸索参数,直接用已验证的参数库,把精力集中在需求和创意上。

情况四:极端时效性场景(热点追图)

场景特征:某个突发热点需要 1 小时内出一张高质量配图。

建议策略:优先用 Claude 的语言能力直接生成描述,跳过结构化拆解

在这种场景下,时间是最稀缺资源。我的流程是:

  1. 直接把热点相关的文字素材(新闻标题、截图、关键词)扔给 Claude。(2 分钟)
  2. 指令:“基于这些素材,立即生成 3 个 Midjourney Prompt,分别对应 3 种不同情绪角度(信息传递型、情绪共鸣型、态度表达型)。Prompt 控制在 50 词以内,带标准参数。”(3 分钟)
  3. 选择最合适的角度,Midjourney 快速出图。(10 分钟)
  4. 如需微调,用 Remix 模式手动改 1-2 个词,不用再走 Claude 迭代。

这个流程舍弃了前面讲的结构化和评估环节,但在极端时效场景下,快比完美更重要。 追过 5 次热点后我发现,这种场景下最重要的事不是画面多么精良,而是你的角度和观点有没有打中用户当下的情绪。Claude 在这里的核心价值是帮你快速产出多个角度,而不是打磨一个完美的 Prompt。

七、下一步:我的 Claude+Midjourney 工作流完整 SOP

如果你读到了这里,并且真的想把这套东西用起来,下面是经过我 200+ 小时实践验证的完整操作流程。直接能用,不需要额外研究。

第一阶段:环境准备(15 分钟,只做一次)

1.1 建立 Claude 项目文件夹

在 Claude 的 Project 功能中创建一个项目,上传以下文件:

  • brand_guidelines.md:品牌视觉手册摘要(如果你有的话),包括色彩板、禁止使用的元素、品牌人格关键词。
  • style_library.md:已验证的风格参数库(参考第六章的表格)。
  • prompt_evaluation_checklist.md:5 维评估标准。

1.2 编写 Claude 系统提示

在项目设置中写入:

> 你是一位资深的视觉创意总监和 Midjourney 提示词专家。你的工作流程是:

> 1. 收到需求后,先确认目标和约束条件。

> 2. 产出结构化画面描述(主体、环境、光线、构图、色彩、风格)。

> 3. 将画面描述转化为 50-80 词的英文 Midjourney Prompt,按权重从高到低排列。

> 4. 附带建议的 –ar 比例和 –s 强度。

>

> 约束:

> – 不使用超过 80 词的 Prompt。

> – 不使用超过 3 个艺术家/风格参考。

> – 优先使用项目中 style_library.md 的已验证风格。

> – 每次产出后,询问用户是否需要迭代修正。

第二阶段:单次创作流程(15-25 分钟)

步骤 1:写需求卡片(2 分钟)

不要随口描述,而是一律填写标准需求卡:

[项目名称]:
[使用场景]:公众号 / 小红书 / 电商 / PPT / 其他
[画面比例]:16:9 / 3:4 / 1:1 / 9:16
[核心信息]:这张图要传递哪一句话?
[情绪基调]:平静 / 兴奋 / 温暖 / 冷静 / 幽默 / 震撼
[必须包含的元素]:
[绝对不能出现的元素]:
[风格参考(可选)]:类似___的感觉
[数量]:需要几张不同角度/方案

步骤 2:输入给 Claude(30 秒)

把需求卡复制进 Claude 对话框,加上一句:“请先确认我的需求理解是否正确,然后产出方案。”

步骤 3:审核 Claude 的拆解(3 分钟)

不要跳过这一步直接看 Prompt。Claude 应该先给你一个结构化的画面描述。你要检查:

  • 它理解的情绪基调对不对?
  • 它有没有漏掉必须包含的元素?
  • 它的角度是否新颖或有创意增量?

步骤 4:审核 Prompt 质量(2 分钟)

用 5 维评估标准打分:

  • 清晰度:主体是否一眼可辨?
  • 可执行性:有没有明显的互斥风格?
  • 风格一致性:符不符合品牌调性?
  • 层次结构:主体-环境-氛围-参数是否有序?
  • 创意增量:有没有出人意料的亮点?

低于 18 分,直接告诉 Claude 哪里有问题;18 分以上,进入 Midjourney。

步骤 5:Midjourney 出图(2-5 分钟)

复制 Prompt,粘贴到 Midjourney。建议使用 /imagine 而不是 Remix 模式,因为这是第一轮。

步骤 6:筛选和反馈(2-5 分钟)

从 4 张中筛选:

  • 如果有 7 分以上的,直接选用。
  • 如果方向对但细节有问题(5-6 分),把问题写下来发给 Claude 迭代。
  • 如果完全不对(4 分以下),检查是不是 Prompt 本身有问题,必要时回到步骤 2 重新沟通。

步骤 7:迭代修正(3-5 分钟)

反馈格式:

> [原始 Prompt 生成结果评价]

> 保留的部分:________(比如“构图方向OK”、“光影关系对”)

> 需要调整的部分:________(比如“主体表情太冷漠,改成微笑”、“背景太杂乱,简化成纯色”)

> [其他补充]

Claude 基于此产出修改版 Prompt,再次进入 Midjourney。通常 2 轮内能得到满意结果。

Claude 与 Midjourney 结合生成图文内容

第三阶段:持续优化(每周 30 分钟)

周度复盘清单:

  • 更新 style_library.md:本周验证了哪些新的风格参数?哪些旧的参数效果变差了?
  • 更新 Claude 系统提示:有哪些反复出现的需求模式可以固化进提示中?
  • 统计效率数据:本周每张图平均耗时多少?迭代次数是否在下降?
  • 收集优秀案例截图:把本周最好的 Prompt 和对应成图保存下来,作为后续的参考库。

结尾:这个组合的真正壁垒

写到这里,我想回到文章开头那个凌晨。当我盯着第 6 张废图时,我以为是我不够懂 Midjourney。后来我发现,不是你不会操作工具,而是你没有一个像样的思维过程

Claude+Midjourney 这个组合已经被越来越多人知道和尝试。但真正拉开差距的不是“有没有用这个组合”,而是你对这个组合的设计深度

  • 你有没有给 Claude 设定精准的行业角色?
  • 你有没有建立 Prompt 质量评估标准而不凭感觉判断?
  • 你有没有形成反馈迭代的闭环而不是每次都从零开始?
  • 你有没有把成本纳入工作流设计的约束条件?

这些设计上的差异,会让同样的工具在两个人手里产生完全不同的产出。工具不会创造竞争力,系统才会。

今天你可以做的第一件事:打开 Claude,新建一个项目,把你在第六章看到的那段系统提示复制进去。然后试着跑一次完整的需求卡→拆解→Prompt→出图→反馈流程。第一次可能用 40 分钟,一周后用 20 分钟,一个月后用 10 分钟。

速度不是目的,减少你和画面之间的“误解”才是。当你不再需要靠运气出图,你的创意才真正开始属于你自己。

常见问题解答(FAQ)

1. Claude生成的提示词太抽象,Midjourney出图完全不对味,怎么解决?

我用Claude写了几轮提示词投喂给Midjourney,出来的图要么是元素堆砌毫无美感,要么风格完全跑偏。我怀疑Claude根本不懂Midjourney的‘语言’,难道只能靠手动调参一步步试错吗?

我踩过这个坑。一开始我让Claude自由发挥,它写出的提示词像文学描述:‘一只在月光下沉思的猫,周围有飘浮的萤火虫,色调忧郁’。投进Midjourney,出来的图构图杂乱,萤火虫变成了光斑,猫的表情也不对。后来我发现问题的根源是Claude没有理解Midjourney对结构化的要求。

我的解决方法:给Claude设定一个‘Midjourney提示词翻译官’的角色,并在System Prompt里明确定义需要输出固定格式

我在Claude的System Prompt中加入了以下指令: 你需要输出一个JSON对象,包含以下字段: – subject: 主体描述(明确数量、姿态、特征) – environment: 环境细节(时间、地点、天气) – lighting: 光线类型(例如黄金时刻、柔和顶光) – composition: 构图(如低角度、特写、三分法) – style: 风格关键词(如安藤忠雄的建筑感、莫奈的笔触) – parameters: 包含Midjourney的参数如 –ar 16:9 –v 6 –s 400 然后让Claude在输出JSON后,再自动拼接成一行完整Prompt。

例如它输出: {"subject":"一只银色短毛猫蹲在窗台上,身体微微前倾","environment":"深夜的古旧书房,窗外有淡绿地萤火虫","lighting":"月光从左侧45度打在主轮廓上","composition":"极低角度仰拍,猫的阴影拉长","style":"赛博朋克混合浮世绘,参考《攻壳机动队》","parameters":"--ar 3:2 --v 6 --s 250 --style raw"} 拼接后Prompt:一只银色短毛猫蹲在窗台上,身体微微前倾,深夜的古旧书房,窗外有淡绿地萤火虫,月光从左侧45度打在主轮廓上,极低角度仰拍,猫的阴影拉长,赛博朋克混合浮世绘,参考《攻壳机动队》 --ar 3:2 --v 6 --s 250 --style raw 出图效果直接提升一个量级,猫的姿势、光线、风格都准确。

核心经验:不要直接让Claude写‘提示词’,而是教它写‘结构化参数包’再翻译成Midjourney可读文本。对用户的决策建议:如果你现在出图不稳,先花15分钟设计一个System Prompt固定输出格式,比反复试错高效10倍。

2. Claude生成文案,Midjourney出图,但把文字印在图片上总是违和,怎么让图文真正融合?

我经常需要做产品海报或社交媒体配图,先让Claude写一句Slogan,再用Midjourney生成背景图,最后用PS把字放上去。但总觉得文字和画面是两层皮,Claude的文案和Midjourney的视觉风格不搭,有没有办法让它们从一开始就协同?

这个问题我纠结了两个月。最开始我走的是先文案后配图,但Midjourney的图往往和文案的情绪对不上。后来我反向了流程:先让Claude用文字描述一张‘包含文字空间’的构图,再让Midjourney生成预留文字区域的图像。具体做法:在Claude的角色定义里加入平面设计逻辑。

我写了一条Prompt:‘你是一名艺术总监,负责为一款【产品】设计海报。请先用150字描述海报的视觉构图,重点说明文字应该放在哪个区域(例如左上角留白区域、中心靠下的负空间、或者环绕主体),文字要多大,什么字体风格(无衬线?衬线?手写?),颜色与画面氛围如何呼应。

然后根据这个描述生成Midjourney提示词,并单独输出文字排版建议。’ 例如给Claude输入:‘为小红书设计一杯冷萃咖啡的广告,目标用户是25岁职场女性。’它输出了: 构图:画面主体是一杯冰咖啡,琥珀色液体中冰块晶莹,背景是极简大理石台面。

文字区域:右下角留出1/4的纯白负空间,文字采用细手写体,颜色#2B6B4E(墨绿),字体大小约占画面高度的8%,与咖啡上的薄荷叶形成色彩呼应。

Midjourney Prompt:一杯冷萃咖啡放在白色大理石桌面,琥珀色液体,冰块上有水珠,背景干净,右下角有空白区域适应文字,柔光,莫兰迪色系,4K,–ar 4:5 –v 6 排版建议:Slogan‘冷萃一夏,甘甜不苦’,字号24pt,字体‘静蕾手写体’,透明度90%,左对齐,距离右边界15px,下边界20px。

用这个Prompt出图,右下角天然空白,我按Claude的建议叠上文字,整体和谐。关键判断:Claude能理解‘负空间’和‘构图留白’的排版逻辑,但需要人类设计师在角色定义中显式要求它思考这些要素。否则它只会描述画面本身,忘记文字需要家。

对用户的决策:做图文融合时,不要分两步(先出图再想文字),而要让Claude先设计‘包含文字版式’的构图方案,再生成对应的Midjourney图。一次生图,文字位置和留白区域自然匹配。

3. 我想用Claude+Midjourney制作一个系列绘本(比如10张图),但风格很难统一,每一张都像不同画师画的,怎么破?

我尝试用Claude写了一个童话故事的10个场景Prompt,然后分别用Midjourney出图,结果每一张图的色彩、笔触、角色长相都不一样,完全不像一个系列。故事线连不起来。是不是必须用同样的参数和种子?可是每张图构图不一样,用同样种子会崩吗?

系列化创作是我测试最多的场景。连续试过5个不同种子方案,最终找到一套稳定流程。关键在于用Claude生成一组有共享变量的提示词。

不是简单复制一模一样的Midjourney参数,而是让Claude在每次生成的Prompt中都包含几个‘风格锚点’: 1. 角色锚点:固定主要角色的外观描述(比如‘一只戴铜框眼镜的橘色狐狸,尾巴尖有一撮白毛,身高约30cm’)。

风格锚点:固定统一的画风指令(比如–sref https://…)或者用Midjourney的–style reference URL。但我更倾向于用文字描述风格锚点,因为Claude和Midjourney都能理解。

我在System Prompt里让Claude为每次输出增加一个固定字段style_anchor,内容例如:‘整体采用宫崎骏色彩风格,笔触柔和,饱和度降低15%,阴影使用暖调紫,高光用淡蓝,远景带柔光模糊。’ 3. 视角锚点:固定视角类型(低角度、平视、俯视)让所有场景统一。

具体案例:我要做一个‘一只狐狸在城市迷路’的10张系列。先让Claude设计角色锚点和风格锚点,然后我要求它一次性输出10个场景的JSON数组,每个场景包含上述三个锚点字段,并保证锚点关键词完全一致。Claude会复制这些锚点字符串到每个Prompt里。

虽然有重复,但保证了Midjourney出图风格连贯。实测10张图里只有第4张因为光照描述冲突导致狐狸毛色偏冷,其他9张风格一致性90%以上。需要微调的那张,我把Claude生成的提示词里的‘黄昏’改为‘阴天’,重新生成后与其他统一。

独特视角:不要信赖种子(Seed),因为种子只影响生成质量而非风格。真正的风格锚点在于‘材质词’(如水彩、油画)、‘光线模型’(如极简布光)和‘色板描述’(如‘青绿+淡金+米白’)。Claude擅长生成这些语义锚点,只要你教会它‘每次都必须包含这几个固定短语’。

对用户的决策:做一个系列前,先用Claude生成一个‘风格手册’(固定角色描述+色调+材质+视角),然后对每个场景提示词都执行查找替换,把手册中的内容嵌入进去。人工核查3次即可保证系列统一。

4. 我个人创作者,算了下Claude Pro($20/月)加Midjourney($30/月)一个月要400多人民币,产出值不值得?什么时候应该用这个组合?

我看到很多人吹Claude+Midjourney多强大,但我一个独立博主,一个月也就出20张配图,用这个组合能帮我省时间吗?还是说只是技术宅的炫技?有没有一个明确的使用门槛,比如月产出多少图才划算?

我从去年底开始重度使用这个组合,每月约产出150-200张图用于文章配图和社交媒体。我可以给你一个详细的成本效益分析。

首先固定成本:Claude Pro $20/月(包月后无额外调用限制,但注意免费版有限额,150条/3小时,对于批量提示词生成不够),Midjourney标准版 $30/月(每小时约出60-90张图,含快速模式15小时)。

假设你只做10张图文,用这个组合的总时间成本: – 手动模式:构思5分钟 + 写一个Prompt 3分钟 + 调整3轮,每轮1分钟 = 11分钟/张 → 10张需110分钟。

  • 组合模式:Claude生成结构Prompt(2分钟)+ 每张Midjourney出图选图(1分钟)+ 可能微调一次(1分钟)= 4分钟/张 → 10张只需40分钟。省时70分钟。按时薪50元算,省下的时间价值约58元,而你多支付了工具费(Claude Pro按比例约6.6元/月?

实际Claude Pro固定20美元折140元/月)。所以如果月产出少于30张图,手动写Prompt更划算;如果月产出超过60张,组合模式就值得。但这是纯时间账。还有一个隐形成本:创意质量。手动写Prompt容易陷入思维定式,10张图风格雷同;

用Claude能批量生成不同风格、不同构图、不同情绪的选项,然后人工挑选。我之前写一组‘职场心累’主题配图,Claude给出了10种意想不到的视觉隐喻(比如一个工位长满藤蔓、键盘变成沙漠里的绿洲),这些我手动根本想不出。这种灵感价值远超省时。

所以我的判断依据是:如果你需要‘多样性创意’(比如每周不同主题的封面图),或者‘高统一度系列’(比如教程图片风格保持一致),组合模式明显胜出。如果只是每月几张简单的背景图,手动更快。

我自己的决策清单: 1. 每月出图量≥30张 → 用组合 2. 需要3种以上不同视觉方案 → 用组合 3. 需要角色、风格、色调跨图一致 → 用组合 4. 预算正好覆盖 → Claude Pro可以用学生认证或共享账号降低;

Midjourney可以和朋友拼车 对用户的建议:不用盲目入坑,先手动做10张图记录总耗时,再对比组合模式的耗时。如果手动总时长超过2小时且质量要求高,投资组合肯定回本。

核心关键词

读者评论

林晨

看完这篇我终于明白为什么自己用Midjourney总像在抽卡。63%的废图源于提示词不清,这个数据太真实了。作者把Claude定位成“结构化创意搭档”而非简单翻译器,这个视角很有启发。特别是品牌营销那个案例,把“有呼吸感”拆解成留白比例、饱和度这些可执行参数,这才是AI协作的正确姿势。

王安宁

作者对Claude+Midjourney的理解不是流于表面的教程,而是深入到分工协议和反馈机制的系统设计。凌晨两点看第六张废图那段真的扎心,相信很多做AI绘画的人都经历过。把Claude当成创意大脑而非翻译器,这个区分太关键。特别是SaaS产品图那个案例,场景化传达产品价值比功能截屏高明太多,值得每个独立开发者学习。

文章版权归“万象方舟”www.vientianeark.cn所有。发布者:程, 沐沐,转载请注明出处:https://www.vientianeark.cn/p/598066/

温馨提示:文章由AI大模型生成,如有侵权,联系 mumuerchuan@gmail.com 删除。
(0)
Claude 如何处理敏感话题
上一篇 13分钟前
Claude 的局限性:哪些事情它做不好
下一篇 12分钟前

相关推荐

  • Claude 的提示词工程最佳实践

    Claude 的提示词工程最佳实践 去年十一月,我用 Claude 给一家 SaaS 公司写融资路演稿。第一版 Prompt 只写了“帮我写一份面向投资人的公司介绍”,结果产出一堆形容词堆砌的废话,通篇“行业领先”“颠覆性创新”,读完完全不知道这家公司到底做什么、为什么值得投。 我把这个案例复盘之后,重新设计了一套方法,后来同一家公司用这套方法产出的路演稿拿到了六家机构的二面。这件事让我确认了一个…

    1分钟前
    000
  • Claude 与 Perplexity AI 的搜索能力对比

    Claude 与 Perplexity AI 的搜索能力对比 去年 11 月,我需要写一份关于“全球半导体供应链重构”的深度报告。时间紧迫,我同时打开了 Claude 和 Perplexity,分别输入了同一个问题:“2024 年台积电在美国亚利桑那州工厂的最新进展及对全球芯片格局的影响。” Perplexity 在 8 秒内返回了答案。它列出了 12 个来源链接,包括台积电官网公告、路透社报道、…

    9分钟前
    000
  • 企业部署 Claude 的合规性考量

    六周前,一家中型金融科技公司的 CTO 找到我,说他们准备全公司部署 Claude Enterprise,已经走完了技术选型流程,模型能力、响应速度、API 稳定性都测完了,全部达标。但就在采购审批的最后一步,他们的法务总监扔出一句话:“Anthropic 说不拿我们的数据训练模型,这个承诺写在合同哪一条?如果明天它被收购,新东家认不认这个承诺?” 整个部署计划停摆了。 这不是个例。过去 8 个月…

    10分钟前
    000
  • Claude 在金融分析中的基础应用

    2023年第三季度,我带的一个实习生用两天时间拆完了12家上市银行的中期报告,提取了各家净息差、不良率、拨备覆盖率、核心一级资本充足率四个指标,并做成了横向对比表格。这不是因为他加班到凌晨三点,而是因为他重新设计了自己的工作流,把Claude定位成了他的“初级分析师+数据处理助手”。而组里另一位同样资历的同事,用传统方法只完成了4家,还因为手动摘数出现了一处数据错位,被质控退了回来。 这件事让我意…

    11分钟前
    000
  • Claude 的语音输入输出功能介绍

    接触 Claude 语音输入输出功能之前,我花了将近四个月时间用另一个 AI 工具的语音模式处理日常工作。坦白说,最初看到 Anthropic 终于上线这个功能时,我的第一反应不是兴奋,而是怀疑:一个在 2025 年 6 月才正式铺开语音能力的 AI,还有机会追上前面的玩家吗? 带着这个疑问,我把 Claude iOS App 上的语音功能用足了 21 天。从会议室到地铁站,从安静的深夜书房到嘈杂…

    12分钟前
    000
站长微信
站长微信
分享本页
返回顶部