我是怎么把 AI 训练成一个合格的语篇规整编辑的

8 分钟,一篇会议笔记从逐字稿变成可读文章。

这不是 AI 一开始就能做到的。这是把流程跑通、把坑踩完之后才有的结果。这篇文章想说的,就是这个流程怎么建起来的——以及为什么流程建立之前和之后,效率完全不在一个量级。

任务背景

QCon 录了 9 场分享,加起来将近 8 小时。录音转出来的逐字稿质量很差——说话人会绕话、会引用专有名词、会用口语指代行业术语,ASR 识别出来的结果有大量错误。

我想让 Claude Code 把这些东西整理成 9 篇带配图的可读笔记,发布到学城。

最终全部完成,但中间踩了不少坑。

第一步走错了

第一个坑,是 AI 对任务的理解和我的理解完全不同。

我说”进行语篇规整”,AI 写了一个 Python 脚本:合并同一说话人的连续短句,清理口水话,按正则表达式删除 filler words。

这不是我要的。规整不是字符串处理,是语义理解——原始文本里”歌儿很强,大家想一下歌是什么时候火的?24年8月份,8岁小女孩儿在推特上和他爸爸一块儿完成攻略”,正确的处理是把”歌儿”还原成 Cursor,而不是删掉口水话。

我纠正了一句:不是让你用脚本规整,而是你读取内容重写,处理逐字稿中的错误,尽量还原真实语句。

AI 明白了。这句纠正是后续所有事情能走通的前提。

第一场(快猫星云的 AIOps 分享)规整完成后,AI 报告说把”灭火图”改成了”拓扑图”——它推断这是知识图谱可视化,通用词更准确。

我发现了问题。原文有一句:”那中间我们有一个叫做灭火图的这么一个东西,它其实就是一个可视化的知识库”。有明确解释,说明是他们自己起的名字。AI 纠正了一个不该纠正的地方。

又是一句话,AI 建立了一条规则:上下文里有明确解释的词,即使听起来奇怪也保留,不要用通用词替换。

AI 推断能力的边界

纠正完任务定义之后,AI 的语义理解能力展现出来了。

前四场我没有提供任何参考资料,全靠 AI 从上下文推断。

推断的效果出乎意料地好。”歌儿” → Cursor,靠的是”24年8月爆火”+”8岁小女孩推特故事”两个线索,这是真实事件,AI 认出来了,推断正确。”3毛” → Sam Altman,正确。

但同一场,”他最早在这个 TDC 里面”,AI 推断成了 TED 演讲,实际是 ChatGPT 产品里(我人工听录音确认的)。

再往后,第四场(百度)里,AI 把”COI化”推断成了”MCP化”,理由是”钉钉/悟空在做 MCP 化,时间线完全吻合”。

我看到这个推断就知道不对。演讲内容明显涉及命令行工具,COI 和 CLI 发音相近(C-O-I / C-L-I),应该是 CLI。

但 AI 不知道这场演讲在讲什么,只能靠已有知识猜。它的猜测是有道理的,只是信息不够。

关键转折:信息比提示词更重要

我把 QCon 官网的演讲摘要粘给了 AI——每场演讲都有官方介绍文字,有讲师姓名、演讲提纲、关键术语。

AI 立刻反应:

“明白了。有了这些演讲摘要作为参考,’COI’ 的正确映射应该是 CLI(Command Line Interface):演讲摘要里明确提到’CLI化’。”

然后它主动回溯,把前几场靠猜测得出的推断重新过了一遍,发现并修正了更多错误。

这是整个过程里最重要的一步。我没有改提示词,没有换模型,只是给了它更好的信息。后续五场的规整质量,明显高于前四场。

这是一个普适规律:给 AI 更好的信息,比给 AI 更好的提示词更有效。 提示词能优化的,是 AI 用已知信息做推断的方式;信息本身不够,提示词再好也有天花板。

又踩了一个坑:OCR

语篇规整完成后,我把拍的幻灯片照片也交给 AI 处理,用 OCR 提取数字和专有名词来辅助校对。

OCR 读出了一个数字:35%。AI 用这个数字修改了文章——“Agent 发现 35% 的工具调用是无效的”。

我人工看了原图,是 8%。

问题出在 OCR 参数。默认的 --psm 3 在处理有图表的幻灯片时,会把坐标轴数字和标题数字错误拼接。图表坐标轴上的”35”和标题里的”8%”被拼在一起,读出了不存在的”35%”。

调整为 --psm 6(把图片当作单一文字块处理),重新 OCR,读出了正确的 8%。

这个教训当场写进了图片编辑的 SOP 文件:使用 --psm 6,OCR 数字用于辅助校对时要结合上下文判断合理性,不要直接覆盖人工记录。

独立审校:看出自己看不出的问题

规整完成后,我用了一个独立的 agent 做审校——和做规整的不是同一个上下文。

审校发现了规整阶段没发现的问题:

  • 快猫星云那篇,末尾混入了网易那场的 Q&A(逐字稿录入时串行,内容完全不属于这个话题)
  • 淘宝闪购那篇,讲师名字”邓立山”,ASR 错误识别成了”邓丽莎”——主 agent 有了演讲摘要之后执行了替换,但有的地方改漏了,自己没有发现
  • PayPal 那篇,版本号被推断成了”Llama 3 Pro”——这个模型根本不存在,我听了录音确认是 Claude Opus 4.6、GPT-5.2 Codex、Gemini 3 Pro

这就是 “生成与验证分离” 的价值。主 agent 带着大量上下文做了很多工作,它的判断会受到自己已有推断的干扰。上下文干净的独立 agent 重新读,反而能发现这些盲区。

流程建好之后

把上面这些坑踩完、规则写进 SOP 之后,流程就稳了。

有了官方摘要,AI 处理每一场的节奏明显紧凑,我的介入越来越少。最后两篇,从逐字稿入库到规整完成——8 分钟。

这个数字说明了什么?流程建立之前,每一场都要反复纠错,方向错了要重来,推断错了要手动修;流程建立之后,执行层可以完全交出去。8 分钟不是 AI 更聪明了,而是它掌握的规则和信息更完整了。

整个过程中,我的实际介入只有这几次:

  • 一句话纠正任务定义(脚本 vs 语义重写)
  • 一次素材投喂(粘贴官方摘要)
  • 人工看了一张图(发现 8% 不是 35%)
  • 人工听了一段录音(确认 PayPal 那篇的版本号)

执行层——读文件、重写九篇、跑 OCR、调用审校 agent、写 SOP——全部是 AI 在做。

还有一类问题流程解决不了

流程解决了大部分问题,但不是全部。

有几处是 AI 无论如何还原不了的——录音质量太差,又没有任何参考资料,那几个词就是永久丢失了,信息在进入 ASR 之前就已经消失了。这不是流程问题,是信息的物理限制。

还有另一类:文稿质量很难量化,没有可观测指标。这带来两个问题——独立审校 agent 发现了问题,怎么改、改到什么程度,仍然需要人来判断;更棘手的是,有些问题连审校 agent 也发现不了,AI 推断出了一个”听起来合理”的错误,没有参照物。

这个问题有一个不完美但可用的解法:在规整 SOP 里要求 AI 对不确定的地方主动标注 [?],不要强行猜。人工审校时只需要重点看这些标注,不用通读全文。这不能发现所有问题,但至少把已知的不确定性暴露出来了,闭环是成立的。

所以人工审校暂时少不了——但工作量已经完全不在一个量级了。

结论

AI 时代,重要的不是会写代码,而是会建流程。

流程的建立需要人的参与,而且不能跳过:先跑一遍,发现 AI 在哪里卡住,给它更好的信息,纠正错误模式,把踩过的坑写进规则。这个过程本身,就是流程建立的过程。没有这个过程,AI 的输出质量会停在”勉强能用”。

流程建好之后,执行层交给 AI,人退到少数几个关键节点:提供素材、人工核实、处理边角情况。

但建流程这件事本身,是你不能外包给 AI 的那部分工作。