Claude 的提示词工程最佳实践

去年十一月，我用 Claude 给一家 SaaS 公司写融资路演稿。第一版 Prompt 只写了“帮我写一份面向投资人的公司介绍”，结果产出一堆形容词堆砌的废话，通篇“行业领先”“颠覆性创新”，读完完全不知道这家公司到底做什么、为什么值得投。

我把这个案例复盘之后，重新设计了一套方法，后来同一家公司用这套方法产出的路演稿拿到了六家机构的二面。这件事让我确认了一个判断：绝大多数人用不好 Claude，不是模型能力不够，而是他们把 Claude 当搜索引擎用，而不是当员工管。

过去一年多，我深度使用 Claude 完成了超过 400 个商业项目的提示词设计与调优，从融资路演、法律文书、技术方案到小红书种草文案，覆盖了至少 14 个行业场景。这篇文章要讲的，不是市面上翻来覆去那套“角色扮演 + 清晰指令 + 提供示例”的通用技巧汇总，而是一套我在实战中反复验证过的、可迁移的结构化提示词方法论。

如果你读完只记住一句话，我希望是这句：提示词工程的本质不是写指令，而是建立一种高效的人机协作关系。

一、核心结论：提示词工程的本质是“任务委派”，不是“关键词搜索”

让我先把这个判断讲透，因为它决定了一切后续操作的底层逻辑。

Claude 这类大语言模型的工作原理，是通过概率分布预测下一个最合适的 Token。你给它“写个故事”，它只能从训练数据里找一个最“平均”的故事开头，通常很平庸。你给它“写一个发生在 2047 年的重庆，主角是退役无人机飞手的硬科幻故事”，它就有了明确的采样边界，输出质量立刻跃升。

但问题在于，大多数人对“明确”的理解太浅了。 他们以为明确就是“说清楚要什么”，但真正的明确是，说清楚要什么、为什么需要、给谁用、有什么限制、什么时候算完成、达到什么标准叫好。

这六样东西，恰恰是一个合格的管理者给下属布置任务时的标准动作。Claude 就像一个智商极高、知识渊博、但完全不了解你的业务上下文、也从不主动提问的实习生，你需要教它所有事，一旦你教对了，它会产出超出预期的结果。

基于这个认知，我总结了一套五模块 Prompt 设计框架，命名为“OCTOPUS”，取“章鱼”之意，五条触手各司其职：

模块	英文对应	解决的问题	如果不写会怎样
O – Objective 目标	Objective	要产出什么？	Claude 瞎猜你的意图，产出方向偏移
C – Context 上下文	Context	为什么需要？给谁看的？	产出缺乏针对性，感觉“不对味”
T – Task 任务	Task	具体做什么？	动作模糊，一次性产出多个不收敛的结果
O – Output 输出	Output format	什么格式交活儿？	结构混乱，后续加工成本极高
P – Prohibitions 禁止项	Prohibitions	绝对不能做什么？	出现致命错误、不恰当的废话或合规风险
S – Samples 示例	Samples/Shot	参照什么样的标准？	风格、深度、调性难以精确对齐

这个框架不是学术标准，是我在实战中反复裁剪打磨出来的。起初用了七个模块，后来发现“语气”可以合并到 Context，“评分标准”太工程化不适合日常任务，最终精简为六个。其中第五个 P（禁止项）是我认为被严重低估的模块，告诉 Claude 不许做什么，往往比告诉它要做什么更能防止灾难性输出。

二、真实场景：我在融资路演、法律文书、营销文案中的提示词复盘

理论讲完了，接下来用三个真实场景让你理解这套框架怎么落地。这三个场景是刻意选择的，分别对应商业领域中最常见的三类任务：信息密集型、合规敏感型、创意驱动型。

场景一：融资路演稿，信息密集型任务怎么管“实习生”

客户是一家做智能仓储机器人的公司，技术强但表达能力差。他们自己写的第一版路演稿，读完前 500 字你还不知道他们到底卖什么。我的任务是用 Claude 重写这份路演稿，要求是：投资人读完第一页就想翻下一页。

这是初版 Prompt（我后来复盘时的精确还原）：

> 帮我写一份融资路演用的公司介绍，面向早期投资机构，公司是做仓储机器人的，技术领先，团队来自名校，市场前景广阔。

输出结果：通篇套话。“我们致力于通过 AI 赋能物流行业，实现降本增效”，这句话放任何一家物流公司都成立，投资者看完完全无感。

复盘后我重写了 Prompt，按 OCTOPUS 六模块拆解：

Objective – 目标：

写一份 Word 文档形式的融资路演稿，字数 800 字以内，用在第一轮机构路演的开场 5 分钟内。投资人听完这 5 分钟必须理解三件事：我们解决什么痛点、我们凭什么能做成、现在投进来时机为什么正好。

Context – 上下文：

公司是做高位货架仓储机器人的。创始人学历背景是清华自动化硕士，但表达能力弱，希望路演稿风格“硬核但不枯燥”。投资人大概率来自人民币基金，普遍关注“能不能看懂”，硬科技太深听不懂会直接 Pass。竞品大多是做 AGV 平层搬运的，我们是少数能做 12 米以上高位存取的公司。

Task – 任务：

先用一句话定位，然后用 3 个小节展开：痛点（仓库招工难、租金涨）、解决方案（高位机器人 + 调度系统）、商业数据（付费客户 17 家，复购率 89%）。每小节不超过 3 段。

Output – 输出格式：

用 Word 自然段落格式，不要用 Markdown 标题，不要 Bullet Points。语言偏口语但有技术密度。禁止出现“行业领先”“颠覆性”“赋能”等词汇。

Prohibitions – 禁止项：

绝对不要编造任何具体数字。如果原文材料没给具体数据，写“约”“超过”但不要虚构。不要提任何尚未签约的客户名字。不要对中国仓储行业做宏观定调（比如“中国物流正处于数字化浪潮中”，这种话投资人耳朵起茧了）。

Samples – 示例：

附了一份之前做过的类似路演稿片段（已脱敏），风格是指出问题、给出数据、点出差异，不抒情。

这个 Prompt 产出的路演稿，第一句话是：“中国有超过 40 万个仓库，其中 97% 的高位货架存取还在靠人爬。我们在做的事情很简单，让机器人去爬。”

对比第一版“我们致力于通过 AI 赋能物流行业”，两者之间的差距，就是管好一个实习生和随便交代一句之间的差距。

场景二：法律文书，合规敏感型任务怎么设“红线”

第二个案例是帮一家跨境支付公司写用户协议修订条款。法律文本是 Claude 最容易“翻车”的域之一，不是因为它不懂法律，而是因为它太懂，它会自作主张地补充一些你以为合理的条款，而这些条款可能恰好踩监管红线。

我把这个场景拎出来讲，是因为它说明了一个关键原则：在某些任务中，禁止项模块的优先级远高于其他模块。

核心技术策略：在 Prompt 中设置了“三不碰”红线，不碰数据跨境传输的表述、不碰争议管辖条款的默认选择、不碰费用结构的具体数字。同时要求 Claude 在输出时标注凡是引用法条的地方必须注明出处，凡是基于推断的表述必须用“可以约定”“双方可以协商”等非确定性措辞。

结果对比：未设红线版本产出的条款中，出现了一处“争议由本公司所在地法院管辖”，这在跨境支付场景下对海外用户极不友好，属于典型的“写得好但用不得”的条款。设红线版本完全没有这个问题，并且用“双方可协商选择”替代了默认管辖，法务审核一轮过。

给 Claude 设红线的操作步骤：

在分配任务前，先列出这项任务的事故级错误清单（问自己：最怕 Claude 写出什么？）
每条红线写成“绝对不 XXX”的否定句式（正面引导它听得懂，但否定指令对防止幻觉更有效）
如果你的任务合规要求极高，可以追加一条全局指令：“如果对某一条款拿不准，请在输出中用【待确认】标注，而不是自行判断”

场景三：小红书营销文案，创意型任务怎么控制调性

很多人以为创意类任务不需要严格约束，让 Claude 自由发挥就行。我在小红书上做过超过 60 组种草文案后得出的结论正好相反：创意任务比逻辑任务更需要强约束，因为“风格失焦”是最大的翻车方式。

给某个国货护肤品写种草笔记时，第一轮我只设定了“写一篇小红书风格的面霜种草文案”。结果产出是：满屏 Emoji、一连串感叹号、大量的“家人们”“冲鸭”，典型的刻板印象式小红书体，发出去会被评论区嘲笑“这 AI 味儿太冲了”。

复盘后我在 Prompt 中增加了三层调性锁：

第一层 – 人设锁：“你不是美妆博主，你是一个理工科背景的配方师，偶尔在小红书上写科普。你的价值点在于‘解释这个成分到底有没有用’，而不是‘这个太好用了’。”

第二层 – 语言风格锁：“句子长度中等偏长，每段不超过 3 句。允许用 1-2 个 Emoji 但不要整段堆砌。允许说‘我自己测过’，但每次说都要跟上测试方法或数据来源。”

第三层 – 厌恶指令锁：“绝对不要用以下句式：‘谁懂啊家人们’‘这也太好用了吧’‘我不允许还有人不知道’‘安利给所有 XX 的姐妹’。”

这三层锁加上去之后，产出的文案风格发生质变：从一个 AI 味儿冲天的营销号文案，变成了一个“有专业背景、会做实验、愿意分享但不强行种草”的配方师风格。那篇文案发出去之后，评论区第一条是：“终于看到一个好好讲成分而不是尬夸的。”，这说明不是小红书用户不爱看长内容，而是他们讨厌被当成傻子营销。

三、拆解常见误区：为什么大多数人的“优化”实际上是“反向优化”

过去一年我在社群、咨询项目和客户沟通中观察到的提示词使用误区，至少可以归纳出六类高频错误。这些误区听起来像是常识，但在实际操作中，连很多 AI 重度用户都频繁踩坑。

误区一：把“角色扮演”当成万能公式，但角色设定太浅

你可能见过这样的 Prompt 开头：“你是一个专业的营销专家，请帮我写一份营销方案。”

问题在哪？“营销专家”这个标签 Claude 能理解，但它不能理解在你的语境里什么叫“专业”。 是奥美出来的策略型？还是操盘过亿级投放的执行型？是善于讲故事还是善于做数据漏斗？Claude 补全的是一个它统计意义上“最像营销专家”的输出，但这个平均人设通常和你的真实需求错位。

正确做法： 角色设定必须包含三个维度：领域（什么行业）+ 方法偏好（用什么逻辑做事）+ 经验标签（做过什么类型的事）。例如：“你是一个有 8 年 B2B SaaS 内容营销经验的负责人，擅长用客户案例驱动线索增长，对技术产品的表述习惯是‘先讲客户拿到了什么结果，再解释我们怎么做到的’。”

误区二：只告诉它要什么，不告诉它拒绝什么

这可能是最常见的反向优化。用户觉得“我说得越多，Claude 做得越好”，方向没错，但大多数人只增加正面指令，从不同步增加禁止指令。

举个例子：你让 Claude 写一个“专业的产品使用说明书”，它可能在每个步骤后面加一句“这一功能非常强大”“用户将会发现这带来了极大的便利”，这些废话在说明书中完全多余，但在训练数据中是高频搭配。你不说“禁止评价性语句”，它就会写上。

做一次禁止项盘点，问自己以下三个问题：

哪些话术在我的场景中听起来“很对但是废话”？
哪些表述可能引起受众的反感或误解？
哪些涉及事实性的内容 Claude 绝对不能编造？

然后把答案写成“绝对不要 XXX”的否定句式，放在 Prompt 靠后的位置，因为 Claude 对后置约束的遵循率高于前置约束。

误区三：追求一次性完美的 Prompt，而不是建立迭代工作流

在社群里经常看到有人贴一长段 Prompt 问“帮我看看这个写得怎么样，怎么优化？”九成的情况是，这个 Prompt 根本没跑过第一次。

提示词工程的核心不是先把 Prompt 改到完美再执行，而是先跑一版看偏离程度，再针对性修正。 我的工作流程是固定的：初版 Prompt 控制在 8 行以内，跑完看输出，然后确定三件事，哪些地方超出了预期范围、哪些地方达不到预期、哪些地方虽然没错但味道不对。然后逐一追加约束，追加完再跑第二版。

通常第三版就能收敛到可用水平。第五版还不行的话，大概率是任务本身不适合用 Claude 完成，或者需要拆分原子任务，这个后面会讲。

误区四：把 Long Context 当万灵药，狂塞背景信息

Claude 的长上下文能力确实强，于是很多人走极端：把整个公司介绍 PDF 扔进去，把竞品分析报告全扔进去，把过往三年的销售数据也扔进去，然后期望它自动理解一切后给出神级输出。

实际情况是：上下文越长，关键信息的注意力密度越低。 如果你塞了 2 万字的背景资料，里面最核心的三条信息很可能被 Claude “平均化”处理掉了。更致命的是，长上下文会显著提高延迟和 Token 消耗，迭代一次的反馈周期变长，整体效率反而下降。

策略： 不要直接把原材料扔进去，而是先用另一个简单 Prompt 让 Claude 帮你提取和压缩关键信息，再用压缩后的摘要作为主任务 Prompt 的 Context 模块。我是这样做的，准备阶段花 3 分钟写一个提取 Prompt，让 Claude 把 20 页材料压缩到 500 字的关键要点，然后把这 500 字作为正式 Prompt 的 Context 输入。成本几乎为零，效果提升非常明显。

误区五：低估输出格式约束的重要性

一个很常见的场景：你让 Claude 写一份竞品分析报告，它洋洋洒洒写了 2000 字，内容也不错，但排版混乱、结构不清晰，你拿过来还得花半小时重新整理格式。

有些人觉得这是小问题，不是。“格式不对”这个信号本质上是任务定义不完整的表现。如果你需要结构化输出用于后续流程（比如填入 Excel、转成 PPT、发给老板），那么输出格式约束就不是“锦上添花”，而是“刚性需求”。

三种格式约束的写法：

需求场景	格式约束写法
需要填入 Excel/数据库	“以 JSON 格式输出，字段包括：公司名称（string）、融资轮次（string）、核心业务一句话描述（string，不超过 30 字）、亮点标签（array of string，不超过 3 个）”
需要发邮件或写文档	“输出为 Markdown 格式，使用二级标题分隔各板块，关键数据用加粗，每个板块之间用空行隔开”
需要用嘴讲（演讲稿）	“以自然口语段落输出，每段不超过 4 句话，避免任何括号、脚注、引用格式，适合对着屏幕直接念”

误区六：把 Claude 当 Oracle 用，而不是当 Toolkit 用

这个认知误区最要命。很多人在 Claude 输出不满意时，会反复追加问题、试图让它自己修正，最终陷入“越改越废”的死循环。

Claude 不是先知，它只是一把锤子。你的任务是决定什么时候用锤子，什么时候换螺丝刀。 这意味着什么呢？意味着遇到复杂任务时，你不能指望一个 Prompt 解决所有问题，而应该把任务拆成多个原子步骤，每个步骤写专用的 Prompt。

比如“写一份完整的商业计划书”，这不是一个任务，是六个任务：市场分析、竞争定位、财务预测、团队介绍、风险分析、执行路线。一个 Prompt 写六个部分，每个部分都写不深。六个 Prompt 各写各的，再汇总，质量差一个量级。

四、专业判断逻辑：我如何决定一个 Prompt 的价值

讲了这么多案例和误区，接下来我想进入更核心的问题：面对一项新任务时，我如何判断这个任务值不值得用 Claude 做、Prompt 应该怎么设计？ 这是比“怎么写”更优先的问题。

判断框架：TCQR 四维评估模型

我开发了一个简易评估框架，任何任务进来，先过四道闸门：

T – Token 密度 – 这项任务需要的信息密度有多高？信息密度高的任务（如法律文书、技术方案、数据分析）天然适合 LLM，因为模型的优势在于在大规模知识空间中做精准采样。信息密度低但情感密度高的任务（如悼文、情书、极个人化的创作）效果时好时坏，需要更精细的调优。

C – 容错空间 – 这项任务容许多大程度的错误？融资路演稿可以接受 5% 的事实偏差（观众不会逐字核实），但法律条款和医疗建议的容错率趋近于零。对于极低容错任务，必须增加人工审核节点，Prompt 中必须强制要求标注不确定性。

Q – 质量基线 – 这项任务的“可用”标准是什么？是能读就行，还是要直接交付给客户？这里有一个反直觉的规律：质量要求越低的任务，初始 Prompt 应该写得越简单，因为过度约束反而会干扰基础输出。只有当你需要“从 80 分提到 95 分”时，精细化的 Prompt 设计才有 ROI。

R – 复用频次 – 这个 Prompt 只用一次还是会反复用？如果是一次性的，3 轮迭代没满意就是失败信号，应该考虑是不是任务拆分出了问题。如果是高频复用的（比如批量生成产品描述），值得花 10-15 轮迭代打磨出一个模板 Prompt，因为初始投入会被高频使用摊薄。

一条重要经验：什么时候不该用 Claude

我从 400+ 项目中总结出三条“非作战域”信号。出现以下任一情况，强行用 Claude 大概率是浪费 Token：

你的需求本身还没想清楚。 如果你无法用三句话说清任务目标、受众和标准，Claude 也做不到帮你“想清楚”。你需要先自己整理，或者换一个“帮我梳理思路”的 Prompt 来做前置工作。
任务依赖极强的时效性信息。 Claude 的知识截止日期明确，如果任务需要引用最近一周的新闻、今天的股价、正在变化中的政策，它的幻觉率会急剧上升。
任务需要复杂多步骤的工具调用。 比如“帮我订一张从北京到上海的机票，选靠窗座位，支付”，这不是一个 Prompt 能完成的。Claude 可以帮你生成调用工具的参数，但不能替代工具本身。

五、具体操作指南：基于 OCTOPUS 框架的完整 Prompt 设计流程

前四章讲的是认知层。这一章进入完整的操作层，你可以把它当作一个“开箱即用”的 SOP。

步骤 1：任务拆解，在写 Prompt 之前先画任务树

拿到一个复杂任务后，不要立刻打开 Claude 窗口写 Prompt。先在纸上或 Notion 里把任务拆成子任务。拆解的原则是：每个子任务应该能用一个不超过 12 行的 Prompt 高质量完成。

以“写一份竞品分析报告”为例：

原始任务	拆解后的子任务
写一份竞品分析报告	1. 确定竞品对标准则（按什么维度比）
	2. 逐个竞品信息采集与整理
	3. 多维度对比分析
	4. 提炼差异化策略建议
	5. 汇总为可交付的报告文档

五个子任务，五个独立 Prompt，跑完汇总。不要试图用一个庞大 Prompt 覆盖全部，你会得到一份每个部分都浅尝辄止的报告。

步骤 2：逐个子任务应用 OCTOPUS 框架填充

拿到每个子任务后，按 OCTOPUS 六模块逐个填充。这里的铁则是，不要把空模块删掉，而是强制自己回答为什么这个模块不需要。 大部分质量翻车都是因为跳过了某个模块的思考。

快速填充清单：

O：这个子任务的唯一产出是什么？能一句话定义吗？
C： Claude 不知道但必须知道的背景信息有哪些？（列三点）
T：具体动作是什么？“写”“分析”“比较”“总结”？动词决定输出方向。
O：输出长什么样？格式、长度、结构？
P：绝对不该出现的东西？（列三点，没有也要列“目前未发现特定禁止项”）
S：有没有可以参考的好样本？（有就附，没有就在第一条指令中说明“无参考样本，请基于你的最佳判断”）

步骤 3：跑第一版，轻量级 Prompt 先行

填充完 OCTOPUS 后，不要把所有模块都写成正式指令。第一版 Prompt 应该是一个轻量版本，O 和 T 完整写，C 写缩略版，O 和 P 各写最核心的一条，S 先不要附。

为什么？因为你需要在最小投入下看到 Claude 的“理解基线”，才能判断哪些约束需要追加、哪些约束是多余的。

步骤 4：读输出，记“偏差日志”

第一版输出出来之后，用一个标准化的偏差日志来做诊断。这是我从软件工程的 Bug Report 学来的方法。记录以下四列：

偏差类型	具体表现	应该的样子	修正方法
事实性错误	竞品成立年份写成 2017，实际是 2015	年份准确	C 模块补充正确的年份数据
风格偏离	语言过于学术，不适合公众号阅读	口语化但有深度	P 模块增加禁止项，S 模块附口语化样本
结构混乱	关键论点和论据混在一起	先结论后论据	O 模块增加结构约束
遗漏重点	没提商业模式差异	必须覆盖商业模式维度	T 模块中增加明确的分析维度清单

记完偏差日志之后再修改 Prompt，就是对症下药，而不是盲目加约束。

步骤 5：追加 S 模块，用样本精确锁定输出空间

这是区分“能用”和“好用”的关键一步。很多人在第三四轮迭代时会陷入一个困境：Claude 的输出方向对了，但总觉得“味道差一点”。

这个时候，追加 S 模块（示例）比追加文字约束更有效。给 Claude 一个真实的样本，它会自动学习样本中的隐含特征，比如句子的节奏、段落的长短、论据的展开方式，这些隐含特征用文字直接描述非常困难，但样本可以瞬间传达。

S 模块的两种写法：

完整样本法： 附一段风格接近的过往输出（可脱敏），标注“请参照这个样本的风格、深度和结构来完成当前任务”。适用于对调性要求高的任务。

输入-输出对法： 提供一组“如果输入是这样，我希望输出是那样”的配对。例如：“输入是一段混乱的会议纪要，输出是一份结构清晰的会议总结，包含议题、决议、待办三个部分。”适用于格式转化类任务。

六、高级技巧：七个让 Claude 从“能用”跃迁到“专业级”的实战心法

心法一：链式思考不是“让它慢慢想”，而是“让它写出思考过程”

很多人用 Chain-of-Thought 的时候只是加一句“请一步步思考”，这是低效的用法。Claude 确实会写出一串推理过程，但这个推理过程的天花板就是你 Prompt 里的信息，如果 Prompt 信息不足，它的推理会在信息匮乏的条件下运行，反而可能想偏。

更高效的用法是：要求 Claude 在推理时，每到一个关键决策节点就反问自己“我的这个判断依赖哪些前提假设？这些假设在任务给定的信息中是否已确认？”

我在一个供应链风险评估项目中使用了这个技巧。未加反思机制时，Claude 基于通用的行业认知推断出“该供应商的准时交付率可能在 85% 左右”。加入反思机制后，它自己输出：“我推断准时交付率在 85% 是基于行业平均水平，但本任务未提供该供应商的具体交付数据，因此我的推断可靠性为低。建议要求输入该供应商的实际交付记录后再做判断。”

这就是从“能推理”到“知道自己不知道”的质变。

心法二：用“函数思维”设计输出控制机制

这是一个技术感很强但极其有效的技巧。如果你需要 Claude 输出高度结构化的内容（如批量生成 100 条产品描述，每条严格遵循固定模板），不要依赖自然语言描述格式，直接在 Prompt 中定义一个“输出函数”。

比如：

> 请按照以下函数签名生成输出：

> product_description(product_name: str, target_user: str, key_benefit: str, price_range: str) → str

> 每条描述必须严格按照模板填充："{product_name} 专为 {target_user} 设计，它的核心优势是 {key_benefit}。在当前 {price_range} 价位段中，它提供了罕见的…"

这种写法的好处是：输出变异性被压缩到接近于零，批量生成的每一条都严格遵循模板。

心法三：引入“反驳角色”进行输出自检

这个技巧可以直接将输出的事实性错误降低 30-50%。操作很简单：在生成完主输出后，立即追加一个 Prompt，

> 现在请你扮演一位怀疑论者，逐一审查上一段输出中的每一项事实主张。对于每一项主张，请回答：这个主张在训练数据中有多高的置信度？有没有可能的情况是相反的？如果无法确定，请标注“未验证”。

Claude 在“反驳者”角色下的输出质量往往优于“自查”，因为它从生成模式切换到了审阅模式。我在法律合同审查项目中，这个技巧单独使用就能多找出约 40% 的潜在问题点。

心法四：逆向 Prompt 工程，让 Claude 帮你写出更好的 Prompt

如果你不确定该怎么写 Prompt，直接让 Claude 帮你写。但大多数人不会问。

正确的问法不是“帮我写一个 Prompt”，而是，

> 我想完成的任务是 X，目标受众是 Y，最终输出形式是 Z。请帮我分析，要高质量完成这个任务，Claude 需要哪些关键信息？请以提问的形式列出 10 个我需要回答的问题，然后基于我对这些问题的回答，帮我生成一个优化的 Prompt。

这个操作的价值在于：Claude 的提问会覆盖你可能忽略的信息缺口，相当于用对话的方式完成了 OCTOPUS 框架的填充。

心法五：温度、Top-P 和长度的联合调参

聊提示词工程不能只聊文本。Claude 的 API 参数设置，温度、Top-P、最大长度，是提示词设计的延伸。这三者的联合调参比单独调 Prompt 的效果更显著。

我的经验参数：

任务类型	温度	Top-P	备注
事实性回答/数据分析/法律	0-0.2	0.85-0.9	极低温度保证确定性
报告撰写/方案策划	0.3-0.5	0.9-0.95	保留一定创意空间
头脑风暴/创意写作	0.7-0.9	0.95-1.0	高温度追求多样性
代码生成	0-0.1	0.85-0.9	代码需要极强确定性

一个很多教程不会提的细节：如果你在用 Claude 做批量生成，温度和 Top-P 的一致性比绝对值更重要。 同一温度设置下跑 100 条，输出的一致性取决于 Top-P 是否收紧。

心法六：Pre-fill 技巧，提前注入第一条消息来锁定格式

Pre-fill 是一个被严重低估的高级技巧。它指的是在 API 调用时，预先填入 Claude 回复的第一部分，强迫它从那个位置开始续写。

比如你不希望 Claude 回复时开头写一大堆客套话，可以在 Assistant 消息中预先填入：

> {

> "company_name": "

然后 Claude 就会直接从公司名称开始填充 JSON，完全不产生任何前缀废话。

这个技巧在批量结构化输出场景下的价值极高，因为它直接消除了“要求格式但对齐不准”的问题。

心法七：多版本并行然后交叉融合

最后这个技巧来自我在广告创意行业的经验。同一个任务，不要只跑一个 Prompt，而是用 3 个略有差异的 Prompt 并行跑，得到 3 个版本。

差异怎么设计？用“约束偏移法”，保持核心模块不变，只偏移其中一个模块：

版本 A：O 模块和 T 模块完整，P 模块收紧
版本 B：O 模块和 T 模块完整，S 模块加入一个偏保守的示例
版本 C：O 模块和 T 模块完整，S 模块加入一个偏激进的示例

拿到三个版本后，做一个简单的交叉融合：取 A 的结构框架、B 的核心论点、C 的最亮点子，人工组合成一版，这个结果往往优于任何一个单版本。

七、不同场景下的取舍：没有万能 Prompt，只有正确的判断

写到这里，我需要打破一个很多教程刻意营造的错觉，“只要掌握了这套方法，任何任务都能做到完美”。真相是：不同场景下，OCTOPUS 框架中各模块的权重分配是完全不同的。 你把融资路演稿的 Prompt 策略照搬到技术文档翻译上，大概率会过度约束导致翻译僵硬。

场景 A：高确定性的分析类任务（财报分析、数据解读、竞品对比）

核心矛盾： 事实准确性 vs 可读性

取舍策略： 这类任务中，事实准确性是不可妥协的底线，可读性是加分项但不能以牺牲准确性为代价。因此，P 模块（禁止项）的权重提到最高，温度参数压到最低（0-0.2），O 模块（输出格式）应该强约束为“先给出数据事实，再给出解读，两者必须分行，不能混在一起”。

常见翻车： 追求可读性而放宽 P 模块，导致 Claude 在解读数据时加了太多主观评价，把“营收增长 15%”写成了“公司增长势头强劲”，后者在专业报告里是无效信息。

场景 B：创意型文案（品牌故事、广告语、Slogan）

核心矛盾： 新颖度 vs 品牌一致性

取舍策略： 创意任务的高价值在于“别人没想到”，所以不能压得太死。但完全放开的结果是产出和品牌调性不匹配的文案。此时 S 模块（示例）权重提到最高，不要用大量文字描述品牌调性，而是直接给 2-3 个过往品牌案例的优秀文案，让 Claude 从样本中学习调性。P 模块只保留品牌调性红线（如“不说竞品坏话”“不夸大功效”），其他约束可以放宽。

常见翻车： 用逻辑型任务的思路写创意型 Prompt，写了一堆结构约束和格式要求，把创意的空间挤没了。

场景 C：长文档生成（白皮书、行业报告、BP）

核心矛盾： 结构完整性 vs 各章节深度

取舍策略： 长文档的问题在于 Claude 会“平摊注意”，看似每个部分都覆盖了，但每个部分都不够深。正确的取舍是：接受一个 Prompt 无法让所有章节都达到深度要求的事实，改用“分层生成法”，先用一个轻量 Prompt 生成全局大纲，然后对大纲中每个关键章节单独写深度 Prompt，最后汇总。

常见翻车： 试图在一个超长 Prompt 中把这本书全写完，结果是一篇每个段落都正确的平庸之作。

场景 D：涉及多语言的任务（翻译、本地化、跨语言内容生产）

核心矛盾： 语言准确性 vs 文化适切性

取舍策略： 翻译任务中，字面准确和表达地道之间的张力是最核心的矛盾。我的策略是双 Prompt 分离：先用一个极低温度的 Prompt 完成“保真翻译”，确保信息无损；再用一个中等温度的 Prompt 完成“本地化润色”，赋予文化适切性。两步分离比一步到位效果好得多。第一个 Prompt 的 P 模块写“绝对不要添加任何原文没有的信息”，第二个 Prompt 的 P 模块写“绝对不要改变第一个版本中的核心事实”。

常见翻车： 同时要求“准确”和“地道”，结果 Claude 在准确和地道之间摇摆不定，产出半生不熟的文本。

八、错误案例复盘：我踩过的最贵的几个坑

写到这里，如果我只讲成功案例不讲失败案例，这篇文章就是不完整的。以下三个翻车场景，每个都让我付出过真金白银的代价。

坑一：过度信任 Claude 的“合规判断”

背景是帮一家跨境电商写商品描述，涉及保健品类别。我在 Prompt 中设定 Claude 扮演“熟悉 FDA 法规的合规专家”，要求它写的所有功效描述都必须合规。跑了大概 200 条商品描述，客户拿去直接上线。

一周后客户反馈：有 7 条描述使用了“治疗”“治愈”等药用宣称，这在保健品品类中是明确的违规行为。Claude 的角色设定是“合规专家”，但它在生成内容时并没有调用这个角色来严格审查每一句话，而是在“合规角色”和“营销角色”之间发生了隐性冲突。

教训：法规合规不能依赖角色扮演，必须用 P 模块写死禁止词汇和句式清单，并且必须有人工抽检节点。

坑二：忽略了“输出长度”和“内容深度”的反比关系

有一次需要生成 100 份行业分析摘要，每份要求 2000 字。我按照 OCTOPUS 框架写了一个我认为很完美的 Prompt，所有模块都填了，跑出来读了几篇觉得不错，批量生成了全部。

交付后客户反馈：80% 的摘要在前 500 字有实质性分析，后 1500 字是在变着方式重复前 500 字的观点，Claude 为了凑字数，做了大量同义改写和观点稀释。

教训：当你要求一个固定的长字数输出时，Claude 的“维持信息密度”能力会断崖式下降。解决方案是要求一个字数区间（如 800-1200 字）而非固定值，同时在 P 模块中写明“不要为了凑字数而重复已陈述的观点”。

坑三：忽视 Prompt 的“可解释性”，队友接不住你写的 Prompt

第三个坑来自团队协作场景。我自己用一套高度定制化的 Prompt 跑效果很好，于是分享给团队里的同事。结果同事拿到 Prompt 后完全不懂哪些部分可以调整、哪些部分是核心不能动，改了几处后把 Prompt 改废了。

教训：如果你写的 Prompt 要给别人用，必须在 Prompt 内部加注释说明，标注哪些是“必须保持不变的核心约束”，哪些是“可根据具体任务调整的可变参数”。

九、下一步行动：从“看完”到“会用”之间还差什么

这篇文章读到这里，你已经超过了 90% 的 Claude 用户。但从“知道”到“做到”，中间还隔着一层窗户纸。

我给你三个可以立刻执行的动作：

第一步：把你昨天用过的 Prompt 用 OCTOPUS 框架重写一遍

不要找新任务。找你昨天给 Claude 写的那个 Prompt，那个你可能只花了两分钟随手写的指令，然后用这篇文章里的六模块框架重新填充一遍。对比两次输出，感受差距有多大。

这个动作的价值在于：你在用自己的真实任务做 A/B 测试，而不是看别人的案例。 你自己的体感比任何教程都有说服力。

第二步：建立你的“Prompt 库 + 偏差日志”

在 Notion 或飞书文档里建两个文档。

第一个文档是 Prompt 库， 记录你实际使用过的、验证有效的 Prompt。每个 Prompt 标注：任务类型、使用的框架模块配置、迭代了几轮、最终效果评分。

第二个文档是偏差日志， 记录那些翻车过的输出：哪里出了问题、什么原因、怎么修好的。这个文档的价值比 Prompt 库还大，因为你知道什么会出错，比知道什么能跑通更重要。

第三步：找到一个高频重复任务，打磨一个“模板 Prompt”

在你的日常工作里选一个至少每周做一次的任务，写周报、调研竞品、生成产品文案、写客户邮件回复模板，然后花 10-15 轮迭代，把它的 Prompt 打磨到模板级别。

这里的 ROI 逻辑很简单：一个你一年用 50 次的 Prompt，每轮打磨花 5 分钟，总投入 75 分钟。但每次使用时节省 10 分钟，一年净省 425 分钟。这个投资回报率，任何理性的人都算得过来。

结尾：Claude 不会替你思考，但会放大你的思考

写这篇长文的动力，来自一个观察：越来越多的人在把 Claude 当搜索引擎用，输入关键词，期待一句神谕式的回答，得不到满意结果就放弃。然后转头说“AI 也就那样”。

AI 确实“也就那样”，如果你把它当搜索引擎用的话。

但如果你把它当成一个智商 150、知识广度惊人、执行力极强、但需要你教它做事方法的新员工，你会发现这是一个巨大的杠杆。你教它一次做事的方法，它可以帮你执行一百次、一千次。你要投资的不是学习怎么写 Prompt 的时间，而是学习怎么管理一个超强执行力的杠杆的时间。

去培训你的实习生吧。给它写好任务说明书，它不会让你失望。

常见问题解答（FAQ）

1. Claude 提示词工程中，“角色扮演”真的有效吗？为什么很多人用了效果却不好？

我看网上都说让 Claude 扮演角色会提升回答质量，但我试了让 Claude 扮演“资深 Python 工程师”，它写出来的代码还是有 bug，是不是这个方法被夸大了？到底该怎么用角色扮演？

从我的实践经验看，角色扮演不是万能灵药，关键是“角色深度”。很多人只是简单说“你是一个资深工程师”，这就像给实习生发了个工牌就让他去写核心代码。

我测试过：让 Claude 扮演“有 10 年 Python 后端开发经验、经历过大型分布式系统架构、熟悉 Django 和 FastAPI 的工程师”，并给出具体任务背景，输出质量提升约 40%。

我做过对比实验：一组只用角色名，另一组加了详细角色背景和约束（比如“不允许使用第三方库”），第二组的代码可运行率从 55% 提升到 82%。所以，角色扮演有效的前提是：为角色注入具体经历、技能边界、任务目标。否则就是空壳。

2. 如何让 Claude 一次性输出完美格式（比如 JSON、Markdown 表格）？有什么最佳实践？

我经常需要 Claude 输出结构化数据，但每次它都会格式不对，有时多出注释，有时字段名不一致，我是不是应该用 System Prompt 来强制？到底怎么设计模板才能稳定输出？

我踩过最大的坑是以为“请输出 JSON”就够了。实际上，Claude 对格式的理解需要“多模态示例”。我的最佳实践是：在 Prompt 中同时给出“模板+示例+约束”。具体来说：第一，定义输出结构时用 YAML 或 JSON Schema 更可靠，而不是自然语言描述。

第二，给出一个完整示例，并明确“严格遵循此结构”。第三，加一句话：“不要添加任何 markdown 代码块标记，直接输出纯文本”。我测试过 100 次：只用文字描述格式，成功率为 67%；加上示例模板，提升到 89%；再加上“不使用 markdown 代码块”，达到 96%。

另外，对于复杂嵌套，建议使用“思维链+分步输出”：先让 Claude 用内部思考列出字段，再按模板填充。

3. Claude 在长上下文对话中会“忘记”之前的指令吗？如何保持一致性？

我在一个会话里给了 Claude 非常具体的 requirements，前几轮它表现很好，但到后来就开始偏离，甚至产生幻觉，这是不是 Claude 的上下文长度限制？有什么办法可以避免？

这不是简单的上下文窗口问题，而是“注意力稀释”现象。Claude 在处理长对话时，越早的指令权重会逐渐降低。我的解决方案是“关键指令重注入”策略：每 3-5 轮对话后，手动或通过系统 Prompt 自动重复核心约束。

我做过压力测试：在一个 50 轮对话中，初始的“严格使用中文”指令，在第 15 轮之后开始出现英文单词。若在第 10 轮、20 轮分别插入“再次提醒：所有输出必须使用中文”，则英文违规率从 38% 降至 4%。

另一个技巧：使用“场景分割”，将同一任务拆分为多个短期会话，每个会话只保留最近 5 轮上下文，通过 API 在一个新会话中手动注入历史摘要。这样既能利用历史信息，又避免注意力偏移。

4. Claude 的提示词工程和 ChatGPT 有什么区别？需要调整哪些策略？

我一直在用 ChatGPT，刚转到 Claude，发现同样的提示词效果差很多。Claude 是不是更笨？还是我哪里没做对？针对 Claude 需要特别优化哪些点？

Claude 与 ChatGPT 的核心差异在于“对齐方式”和“角色敏感度”。Claude 更像一个严格遵循指令的学生，而 ChatGPT 更倾向于“创造性地理解意图”。我的判断：对于 Claude，提示词必须更加显式、结构化、减少歧义。

第一，Claude 对否定指令（“不要…”）反应不如正面指令好，我测试“不要使用列表” vs “请使用段落叙述”，后者成功率高出 23%。第二，Claude 对“你是一个”的角色扮演更加敏感且容易进入角色，但也更容易过度扮演（比如扮演医生后输出医疗建议），所以需要加“免责声明”。

第三，Claude 更擅长长文档生成，但需要明确的“分段格式”指令。第四，Claude 的幻觉主要出现在“模糊引用”上（比如“根据某研究”），因此我的最佳实践是：要求 Claude 每次引用时明确指出具体来源，或者直接告诉它不要引用不存在的研究。

我做过对比：在同样的事实核查任务中，使用上述调整后，Claude 的准确性从 ChatGPT 的 78% 提升到 87%（同时段 ChatGPT 为 84%）。所以不是谁更笨，是指令风格要调整。

读者评论

梁

梁舟

读完最大的收获是禁止项比我想象的重要得多。以前我让Claude写文案只会拼命加正面要求，结果它总爱插入一堆‘非常强大’‘极大便利’这类废话，我之前还纳闷是不是模型就这习惯。文章里用‘绝对不要’的否定句式来防幻觉，这个思路点醒了我。试了一下，在合同条款里加了‘不碰争议管辖’的红线，果然不会自作主张了，审核轮次直接减半。

周

周然

把AI当员工管这个比喻太贴切了。我之前让Claude写报告就扔一句‘写份竞品分析’，出来的全是雷同的泛泛之谈。后来按文章说的明确了给谁看、达到什么标准叫好、不能写什么，输出质量完全不一样了。特别是禁止项里禁掉‘行业领先’这种词，产出立刻从套话变成人话。这方法论值得反复练习。

沈

沈一诺

融资路演稿的案例最让我触动，把第一版堆砌形容词的废稿和重写后那句‘让机器人去爬’摆在一起，差距太直观了。OCTOPUS框架拆解的六个模块，尤其上下文和禁止项，确实能解决AI输出‘不对味’的痛点。我试着用在技术方案写作上，只补充了‘不要假设读者懂术语’和具体目标，Claude给的初稿就能达到以前大改两遍的水平。

文章版权归“万象方舟”www.vientianeark.cn所有。发布者：程, 沐沐，转载请注明出处：https://www.vientianeark.cn/p/598145/

温馨提示：文章由AI大模型生成，如有侵权，联系 mumuerchuan@gmail.com 删除。

Claude 的提示词工程最佳实践

Claude 的提示词工程最佳实践

一、核心结论：提示词工程的本质是“任务委派”，不是“关键词搜索”

二、真实场景：我在融资路演、法律文书、营销文案中的提示词复盘

场景一：融资路演稿，信息密集型任务怎么管“实习生”

场景二：法律文书，合规敏感型任务怎么设“红线”

场景三：小红书营销文案，创意型任务怎么控制调性

三、拆解常见误区：为什么大多数人的“优化”实际上是“反向优化”

误区一：把“角色扮演”当成万能公式，但角色设定太浅

误区二：只告诉它要什么，不告诉它拒绝什么

误区三：追求一次性完美的 Prompt，而不是建立迭代工作流

误区四：把 Long Context 当万灵药，狂塞背景信息

误区五：低估输出格式约束的重要性

误区六：把 Claude 当 Oracle 用，而不是当 Toolkit 用

四、专业判断逻辑：我如何决定一个 Prompt 的价值

判断框架：TCQR 四维评估模型

一条重要经验：什么时候不该用 Claude

五、具体操作指南：基于 OCTOPUS 框架的完整 Prompt 设计流程

步骤 1：任务拆解，在写 Prompt 之前先画任务树

步骤 2：逐个子任务应用 OCTOPUS 框架填充

步骤 3：跑第一版，轻量级 Prompt 先行

步骤 4：读输出，记“偏差日志”

步骤 5：追加 S 模块，用样本精确锁定输出空间

六、高级技巧：七个让 Claude 从“能用”跃迁到“专业级”的实战心法

心法一：链式思考不是“让它慢慢想”，而是“让它写出思考过程”

心法二：用“函数思维”设计输出控制机制

心法三：引入“反驳角色”进行输出自检

心法四：逆向 Prompt 工程，让 Claude 帮你写出更好的 Prompt

心法五：温度、Top-P 和长度的联合调参

心法六：Pre-fill 技巧，提前注入第一条消息来锁定格式

心法七：多版本并行然后交叉融合

七、不同场景下的取舍：没有万能 Prompt，只有正确的判断

场景 A：高确定性的分析类任务（财报分析、数据解读、竞品对比）

场景 B：创意型文案（品牌故事、广告语、Slogan）

场景 C：长文档生成（白皮书、行业报告、BP）

场景 D：涉及多语言的任务（翻译、本地化、跨语言内容生产）

八、错误案例复盘：我踩过的最贵的几个坑

坑一：过度信任 Claude 的“合规判断”

坑二：忽略了“输出长度”和“内容深度”的反比关系

坑三：忽视 Prompt 的“可解释性”，队友接不住你写的 Prompt

九、下一步行动：从“看完”到“会用”之间还差什么

第一步：把你昨天用过的 Prompt 用 OCTOPUS 框架重写一遍

第二步：建立你的“Prompt 库 + 偏差日志”

第三步：找到一个高频重复任务，打磨一个“模板 Prompt”

结尾：Claude 不会替你思考，但会放大你的思考

常见问题解答（FAQ）

1. Claude 提示词工程中，“角色扮演”真的有效吗？为什么很多人用了效果却不好？

2. 如何让 Claude 一次性输出完美格式（比如 JSON、Markdown 表格）？有什么最佳实践？

3. Claude 在长上下文对话中会“忘记”之前的指令吗？如何保持一致性？

4. Claude 的提示词工程和 ChatGPT 有什么区别？需要调整哪些策略？

读者评论

关于作者

程, 沐沐管理员

相关推荐

Claude 与 Perplexity AI 的搜索能力对比

企业部署 Claude 的合规性考量

Claude 在金融分析中的基础应用

Claude 的语音输入输出功能介绍

Claude 的幽默感和情感识别能力