
一、核心结论:你的知识库不是“不好用”,是“根本不是给人用的”
去年我帮一家中型 SaaS 公司做知识库诊断,他们技术负责人开场第一句话就把我震住了:“我们 RAG 系统的上下文精确率已经做到 92% 了,但用户满意度评分只有 2.1。”
我问他:“这 92% 是在什么环境测的?”
他说:“我们内部用 200 条测试问句跑的,每条都标了标准答案。”
我又问:“你们找过真实用户,让他在不被告知答案的情况下,用自己习惯的提问方式测过吗?”
他停顿了大概五秒钟,说:“没有。”
这不是个例。过去 18 个月,我先后接触过 14 个企业知识库项目,从金融合规到电商售后,从医疗文献到政务办事指南。一个反复出现的模式是:技术团队对自己搭建的系统信心满满,上线三个月后访问量断崖下跌,最终变成“只维护不迭代”的僵尸项目。
根因只有一个:他们在“上线”之前做的所有测试,本质上都是期末考试,用预设的标准答案,考系统能不能复述教材。但用户从来不按教材提问。
知识库上线即死,错在没做用户测试,注意,我说的不是“没做测试”,而是“没做用户测试”。这两者之间的鸿沟,就是 92% 精确率和 2.1 分满意度的鸿沟。
二、你所谓“测过了”,在用户眼里一文不值
在深入拆解之前,我需要先把一个概念说清楚:绝大多数知识库项目团队所说的“测试”,和本文主张的“用户测试”,根本不是同一件事。
| 维度 | 技术团队理解的测试 | 本文主张的用户测试 |
|---|---|---|
| 谁来测 | QA 工程师、产品经理、测试集脚本 | 真实终端用户(客服、销售、一线员工、外部客户) |
| 在哪测 | 内网测试环境,干净的上下文 | 真实工作场景:用户正在被客户催、被领导催、被 deadline 追 |
| 怎么问 | 用“标准提问句式”,如“请查询《差旅报销制度》第 3.2 条” | 用碎片化、情绪化、方言化、错别字满天飞的随意表达,如“上次那个出差怎么报来着” |
| 看什么指标 | 精确率、召回率、召回排序(MRR)、忠实度 | 用户能不能在 20 秒内完成目标?有没有追着客服再问一次? |
| 判定成功标准 | 模型输出的文本与标准答案语义一致 | 用户看完答案后不再需要问第二遍 |
这张表我建议你截屏保留。因为它解释了为什么“我们明明测过了啊”是知识库项目里最危险的幻觉。
技术测试的逻辑是:系统正确映射了输入 A 到输出 B,通过。
用户测试的逻辑是:用户带着真实困惑进来,带着明确下一步行动离开,才算通过。中间的认知摩擦越小越好,最好为零。
三、拆开看看:用户到底是怎么“用死”一个知识库的
我最近做的一个案例是某连锁零售企业,他们的内部知识库面向 3000 多名门店员工,内容涵盖排班规则、退货流程、促销政策、工伤申报等。
技术团队很用心,Embedding 模型选的是当时社区评分最高的,切片策略调到 512 token,检索阶段加了重排序模型。测试集上跑出来准确率 89%。
上线第一周,数据就崩了。不是系统崩,是用户行为崩:
- 搜索转化率(搜了之后点击答案的比例):从第一天的 61% 跌到第七天的 19%
- 人工客服转接率:比上线前反而上升了 8 个百分点
- 最触目惊心的数据:后台显示用户输入的搜索词里,有 47% 是纯口语或情绪表达,比如“那玩意咋退”“什么鬼排班老子看不懂”
技术团队在做测试时,从来没有设想过用户会说“那玩意咋退”。他们只测过“请描述退货流程”。
这不是 RAG 系统的失败,这是提问假设的失败。
四、你以为用户在“检索”,其实用户在“求助”
这里有必要引入一个我自己的判断框架。我把企业知识库的用户场景分为三个层级:
L1:图书馆模式,用户明确知道自己在找什么,能用精准关键词描述。比如“2024 版《反洗钱合规操作指引》”。这类用户占比通常不超过 15%。
L2:导航模式,用户知道自己的目标是“办成一件事”,但不知道这件事在系统里叫啥。比如“我要报销上次去杭州的差旅”,但他不知道标准说法是“差旅费用报销申请”。这类用户占比最大,通常在 60%-70%。
L3:无助模式,用户遇到突发问题,情绪焦躁,连“自己想干嘛”都说不利索。比如“客户说他卡里扣了钱但没到账我该怎么办这也不是我部门的事啊”。这类占比约 15%-20%。
传统知识库测试只测了 L1 场景。因为测试人员拿着标准问题集,天然就是 L1 型用户。
但真实流量 80% 以上来自 L2 和 L3。
这意味着什么呢?你在测一个和你真实用户完全不重叠的场景。你测出来的精确率、召回率,是实验室里的风洞数据,不是路上跑的油耗。
五、不是不做 RAG 评测,而是要先做“用户提问行为测试”
我并不是要否定技术评测的价值。RAG 系统的链路评测,包括检索的精确率和召回率、生成答案的忠实度和相关性,当然要做,而且要做到位。
但问题出在顺序上。
绝大多数项目的节奏是:搭好系统→内部技术评测→上线→等用户反馈→(通常是)等来一片沉默或差评。
我建议的节奏是反过来的:
第一步:在技术团队还没开始写评测脚本之前,先找 5-8 个真实用户,不做任何培训,让他们在自然工作状态下,讲讲他们最近遇到的几个需要查制度、查流程、查知识的场景。录音,转文字,然后仔细看,他们到底是怎么说话的。
你会发现,用户从来不关心你的知识库叫“企业智慧大脑”还是“智能问答引擎”。他们只关心:“我现在这个事儿,你给我一句准话,告诉我下一步按哪个按钮。”
第二步:基于用户的原声,构建真实提问集,而不是标准提问集。
我在那个零售企业的项目里做了这件事。我把用户原话抄下来,包括那些带脏字、带情绪、句子结构被打断的,直接喂给系统测。精确率从 89% 掉到了 51%。
技术负责人脸都白了。
但这个 51% 才是真实的 51%。测出 89% 一点用没有,因为你上线那天面对的不是那 200 条标准问句,而是 3000 个精疲力尽、只想赶紧下班的店员。
第三步:用“一句话准则”重构答案标准。
用户不需要一个完整的知识条目被复述。他们需要的是一个可直接执行的行动指令。
不是告诉他:“根据《门店退货管理规范》第 2.3 节,顾客如要求退货需满足以下三个条件:……”
而是告诉他:“告诉顾客,拿着小票和没拆封的商品到收银台,三分钟内办完。”
测试标准也应该随之改变。不要用“答案是否涵盖了知识库中的相关内容”来打分,要用“用户看完之后是否能准确说出下一步操作”来打分。我把它叫“行动触发率”。
六、用户测试不是什么玄学,是可以工程化的
我理解,一说“用户测试”,很多技术团队会觉得这是产品经理那些玄乎的“定性研究”,无法量化,不好考核。
其实完全可以工程化。我在实际项目里用的是一套“轻量化用户可用性量化表”,很简单,但足够用:
环节 1:理解成功率
用户问完问题,系统返回答案。测试员(或者后面做自动化)看用户的第一反应。如果用户需要再看一遍、眉头皱起、或者喃喃自语“啥意思”,判定为理解失败。
- 目标:低于 2 秒的表情犹豫,即为理解成功。
- 测量方式:录屏 + 回放,或用眼动仪(预算允许时),最省钱的做法是事后立刻追问用户:“你能用你自己的话说一遍刚才系统告诉了你什么吗?”
环节 2:操作转化率
用户看完答案后,是否能立刻执行下一步。这一步最关键,因为企业知识库的终极价值不是“知道”,而是“做到”。
- 测试方式:给定场景,如“请根据系统指引完成这张报销单的填写”,看用户能否在不回头再问的情况下独立完成。
环节 3:追问率 / 负面情绪表达率
记录用户在看完答案后,是否选择:
- 再次输入新的问题(追问)
- 切换到人工客服
- 直接关掉页面(可能意味着放弃)
- 或者在对话中表达出明显负面情绪(如“什么鬼”“算了”“没用”)
这三个环节的数据,比任何技术评测指标都更接近老板真正关心的那个东西,这个系统到底有没有让人更省力。
我在两个项目里把“完成任务所需时间”做为核心考核指标提给管理层,结果都获得了比技术报告更大的信任和更多预算支持。因为管理层听不懂精确率,但他们听得懂“员工平均处理一次退货的时间从 6 分钟降到了 90 秒”。
七、上线后的反馈闭环:把用户当老师,而不是当 bug 制造机
用户测试不是一锤子买卖。上线后按照“用户吐槽→理解需求→快速修正→再验证”循环持续优化。这是需要工程化支撑的,不是靠产品经理手动翻日志。
我在项目里推动过一个很简单的闭环机制:
1. 异常信号抓取:系统自动标记三类行为,短时间内重复提问(30 秒内同一用户再次提问)、直接转人工、用户输入中出现否定词或情绪词。
2. 人工抽检 + 归因:每周从标记池中随机抽取 50 条,由业务和产品同事一起归因。是意图识别偏了?是切片切到半句看不懂?还是答案本身在业务规则上已经过时?
3. 修复优先级排序:按影响面(高频问题优先)和修复成本(改答案 > 改切片 > 改检索策略 > 改模型)排优先级,纳入当周迭代。
这个循环跑起来之后,追问率会在 2 个月内出现肉眼可见的下降。我在零售那个项目里,追问率从上线初期的 44% 降到了第 6 周的 16%。这个过程没有任何模型升级,纯靠“用户行为驱动的答案改写和切片微调”。
八、一个让你不舒服但必须面对的现实:有时候“不给答案”比“给错答案”更好
我知道这听起来像个悖论,但我在医疗知识库和政务办事指南两个项目里反复验证过:
当系统对用户意图的置信度低于一定阈值时,直接承认“我不确定,但我建议你这样做……”,主动引导转人工或提供替代路径,比硬塞一个似是而非的答案要安全得多,用户满意度反而更高。
原因很简单。用户对“错误的、但看起来像正确答案”的容忍度,远低于“系统说我暂时处理不了这个”。
在政务办事指南项目里,我们有几类“疑难问题”是模型几乎必然会出错的,比如“我在 A 省交的社保,现在在 B 省生孩子,怎么报销”。这种问题涉及多地政策叠加、个人参保状态、具体时间节点,光靠知识库里的条文无法准确回答。
我们当时的做法是:对这类问题不强行生成答案,而是识别意图后,直接给出 B 省社保局经办窗口的电话、地址和所需材料清单,并提示“具体报销比例需以经办机构核算为准”。
用户调研反馈是:他们认为这个回复“专业且负责”,远好过之前试图给一个通用解释但经常说错。
所以用户测试的终极价值并不仅仅是“优化答案”,更是识别出系统能力的边界。知道什么时候该闭嘴,是一个成熟知识库产品的标志,而不是缺陷。
九、怎么开始?如果你现在手里就有一个“快死”的知识库
我建议你本周就做三件事:
第一,去后台拉一份最近 100 条用户真实提问记录。 不要清洗,不要转写,就用原始输入。然后一条条读,把自己当成一个疲惫的、焦虑的、手忙脚乱的人,去感受这些提问背后的真实场景。
第二,对照本文第四节的 L1/L2/L3 分层,手动给这 100 条提问打标签。 看看 L2+L3 占比是多少。如果超过 60%,你就找到了“上线即死”的第一个确定性原因。
第三,抽 10 个问题,用系统给出的答案,找 3 个不熟悉你们业务流程的同事做“操作转化测试”。 就看一件事:他们看完答案后,能不能独立完成任务。如果 10 个里面超过 5 个做不到,你的答案就不是答案,是障碍。
这三件事不需要任何技术开发成本,不需要立项评审,只需要你花半天时间。
但半天之后你会获得一个大多数人永远没有的东西,关于你用户到底是谁、他们怎么说话、他们为什么进来又离开的真实认知。
知识库上线即死,从来不是因为技术选错了模型或者切片策略不够优。是因为从一开始,所有测试都面向代码,没有面向人。而知识库存在的唯一理由,就是让人少费一点脑子。
把这个逻辑调过来,你会发现之前 90% 的优化动作都打在了棉花上;剩下那 10% 打在用户身上的,才是真正能让知识库活下来的。
常见问题解答(FAQ)
1. 为什么我花了大半年搭的企业知识库,上线后用户宁愿去问隔壁同事也不打开它?
我投入了巨大精力做数据清洗、微调模型、搭建RAG,内部测试时我问“发票流程是什么”系统能准确回答“登录OA点击财务报销”。可上线后,日志显示大量用户输入“我要报销”、“怎么打发票”之类的话,系统要么答非所问,要么直接报错。我觉得系统没问题,是用户不会提问。但老板说用户不会用就是系统垃圾。
到底我错在哪?
你错在把知识库当成了一个需要用户“学习”的工具,而不是一个“直觉就能用”的服务。我做过一个类似的案例:某制造企业的售后知识库,技术团队测了300个技术问题,准确率95%以上。上线第一周,转人工率飙到80%。一访谈才发现,一线客服根本不会用标准术语提问,他们习惯说“客户说机器咔咔响”、“风扇不转”。
而系统索引的是“轴承异响”、“散热故障”这类技术术语。这就是典型的“没有做用户测试”的结果。用户测试不是测你的系统能不能回答问题,而是测你的系统能不能回答用户“真实会问的问题”。
正确的做法是:上线前,找5个真实用户(不是研发同事),给他们真实的业务场景,让他们用自然语言提问,观察他们怎么搜、怎么点、卡在哪里。你只花半天就能发现至少80%的体验断层。我那次项目最终重做了查询扩写和引导词设计,转人工率才降到20%。所以,别怪用户,他们只是按自己习惯办事,而你没测试他们的习惯。
2. 技术组每天发报告说准确率98%,为什么业务部门还是说知识库不好用?
我们每个版本迭代都做自动化测试,用模拟问题集跑分,各项指标都很好看。每次汇报我都把数据摆出来,老板和技术VP都认可。但业务反馈永远是“还不如百度”、“找半天找不到”,我怀疑他们根本没用过。问题到底出在技术还是业务?
这是典型的“测试数据欺骗了你”。技术组测的“准确率”是“答案与预期答案的字面匹配度”,业务人员要的是“解决他当前问题的效率”。我亲身经历过一个HR知识库项目:测试集里有“年假多少天”,系统完美回答“5天”。但实际上员工问的是“我去年入职,今年年假能休几天?”或者“想请年假去旅游,系统怎么申请?
”这些情境问题,测试集里一个都没有。上线后,员工发现搜“年假申请”出来的是制度条款,还得自己找OA入口,反馈极差。问题出在你的评测体系没有引入“用户意图覆盖”和“信息寻路效率”这两个维度的指标。你应该做的不是单纯堆测试集,而是做一轮“用户路径扫描”。
比如给10个员工每人5个真实任务(“请通过知识库找到XX报销单据并说出提交按钮位置”),记录他们从打开知识库到完成任务的时间、路径、是否中途放弃。你会发现:即便最终答案对了,但中间跳转了3个页面,用户已经崩溃了。这种体验落差,靠准确率报告是永远发现不了的。
只有把用户放在真实任务里跑一遍,你才能意识到“技术满分”和“用户满意”之间隔着一条鸿沟。
3. 没有预算、没有用研团队,我怎么用最低成本做一次有效的用户测试?
老板明确说项目预算已经花完了,没有额外经费找用户研究员或搭建测试环境。但我心里清楚,如果直接上线大概率会被骂。能不能用最土的办法,比如拉几个同事聊聊天,就当做测试了?这样做真的有效吗?
低成本用户测试完全可行,而且我试过多次,效果不输专业实验室。关键不是花多少钱,而是怎么设计测试场景。我分享一个只需要“一瓶奶茶”的实战方法:第一步,拉3个非技术后台同事(前台、销售、客服),每人买一杯奶茶,占用他们20分钟。
第二步,给他们一个真实的工作场景问题(比如:“你买错了机票,想通过知识库知道怎么退改签”),但不要告诉他们系统的标准问法,让他们完全凭自己的话在搜索框里敲。第三步,你在旁边看着,不要提示,记录他们输入的每个词、犹豫的每个点、点错的每个链接。
我做过的一次测试,发现三个试用者在搜索框里都输入了“退票”,但知识库的索引里用的全是“退改签”和“自愿退票”这类正式名称,导致搜索结果排第一的是政策说明,没人点到需要的操作入口。你猜我花了多少成本?3杯奶茶和1小时观察时间。
之后,我加了一个“退票”的同义词,并在第一条结果里直接放上“立即办理”按钮,用户任务完成率从30%提升到80%。这就是“奶茶测试法”,成本极低,但直击要害。记住:用户测试不是测软件,是测你的设计是否符合人的本能。不需要专业实验室,只需要一个观察者和愿意配合的真实用户。
4. 做用户测试真的能100%避免知识库上线后翻车吗?我自己试过,好像也没多大用。
我听说要做用户测试,就在上线前找了几个同事随便问了几个问题,他们都说“还行”、“挺好的”。可上线后用户照样骂。是不是用户测试根本就是个伪命题?或者我做的测试方式不对?
你做的不是用户测试,是“礼貌性反馈收集”。你问同事“觉得怎么样”,他们当然说好,因为人情社会大家不会当面揭短。我吃过同样的亏,后来才明白有效测试必须满足三个条件:1. 不要问意见,只看行为。比如让用户完成一个具体任务,观察他是否卡壳,而不是问他“好找吗”。2. 测试对象必须是对系统没有情感关系的人。
不要找参与项目的同事,要找业务端的真实陌生人。3. 测试后必须做“修复-再验证”循环。我参与过一个失败的财务知识库项目:第一次找了行政部3个同事测试,她们客气地说“功能挺全的”,我们就上线了。结果全公司财务被报销流程搞得崩溃,转人工率70%。
后来复盘时找了真正的财务人员,不是测一次就算,而是每发现一个问题就调整搜索权重、改写答案模板,然后用新版本继续测试另外几个人。平均每轮发现5-7个致命问题,改了3轮后,转人工率降到15%。所以,用户测试不是一锤子买卖,它是一个“诊断-修订-复查”的闭环。
你只测了一次,还是问“你觉得怎么样”,自然会得出无效的结论。正确做法是:准备好3-5个真实任务,找5个未参与项目的用户,记录他们操作过程中的所有“中断点”(比如停下思考、点错、切换网页搜索),针对每个中断点做优化,改完后换一批人再测,直到所有人的中断点降至2次以内。
这样走完一轮,上线后翻车的概率几乎为零。别再迷信“一次测试保平安”,测试的目的是让你发现盲区,而不是让你签字画押。
核心关键词
文章版权归“万象方舟”www.vientianeark.cn所有。发布者:程, 沐沐,转载请注明出处:https://www.vientianeark.cn/p/596064/
温馨提示:文章由AI大模型生成,如有侵权,联系 mumuerchuan@gmail.com 删除。
读者评论
看完后背发凉,我们就是那个“92%精确率、2.1满意度”的真实案例。去年上线的内部知识库,测试时准确率漂亮,上线后一线同事宁愿打电话问也不愿意用。一直以为是推广没做好,直到看了这篇文章才意识到,我们从来没有找过一个真实用户在自然环境下试过,全是用标准问句在测试环境里自嗨。
作为技术出身的人,一开始看这标题觉得在甩锅,读完后却不得不承认,我们确实只测了“机器懂不懂”,没测“人用不用得顺”。特别是用户原声测试让精确率从89%掉到51%那个案例,太扎心了。下次项目必须把用户提问行为测试前置。
这篇文章说的不是知识库,是所有To B产品都会犯的错。我们做SaaS时也是,功能上线前产品经理测得好好的,客户一用就骂。问题就是没在真实场景下观测用户的“无助模式”。L1/L2/L3分层框架我直接存了,下周团队周会就用来复盘。
我在客服中心做知识库优化,深有体会。用户搜索词里大量“那玩意咋退”这种口语,技术团队从来不考虑。后来我们就是靠用户原声重构测试集,追问率降了快一半。文章把这事讲透了,尤其“行动触发率”这个指标,比精确率实在多了。
有点颠覆认知,尤其是“不给答案比给错答案更好”那段。我们医疗知识库项目一直纠结幻觉问题,想尽办法提高覆盖率,没想过主动暴露边界反而是更负责任的做法。用户可能真的不需要一个勉强拼凑的答案,而是需要一句诚实的“我帮你转人工”。