我是怎么把 AI 训练成一个合格的语篇规整编辑的

发布： 2026-04-19 分类： AI Engineering 阅读：

8 分钟，一篇会议笔记从逐字稿变成可读文章。

这不是 AI 一开始就能做到的。这是把流程跑通、把坑踩完之后才有的结果。这篇文章想说的，就是这个流程怎么建起来的——以及为什么流程建立之前和之后，效率完全不在一个量级。

任务背景

QCon 录了 9 场分享，加起来将近 8 小时。录音转出来的逐字稿质量很差——说话人会绕话、会引用专有名词、会用口语指代行业术语，ASR 识别出来的结果有大量错误。

我想让 Claude Code 把这些东西整理成 9 篇带配图的可读笔记，发布到学城。

最终全部完成，但中间踩了不少坑。

第一步走错了

第一个坑，是 AI 对任务的理解和我的理解完全不同。

我说”进行语篇规整”，AI 写了一个 Python 脚本：合并同一说话人的连续短句，清理口水话，按正则表达式删除 filler words。

这不是我要的。规整不是字符串处理，是语义理解——原始文本里”歌儿很强，大家想一下歌是什么时候火的？24年8月份，8岁小女孩儿在推特上和他爸爸一块儿完成攻略”，正确的处理是把”歌儿”还原成 Cursor，而不是删掉口水话。

我纠正了一句：不是让你用脚本规整，而是你读取内容重写，处理逐字稿中的错误，尽量还原真实语句。

AI 明白了。这句纠正是后续所有事情能走通的前提。

第一场（快猫星云的 AIOps 分享）规整完成后，AI 报告说把”灭火图”改成了”拓扑图”——它推断这是知识图谱可视化，通用词更准确。

我发现了问题。原文有一句：”那中间我们有一个叫做灭火图的这么一个东西，它其实就是一个可视化的知识库”。有明确解释，说明是他们自己起的名字。AI 纠正了一个不该纠正的地方。

又是一句话，AI 建立了一条规则：上下文里有明确解释的词，即使听起来奇怪也保留，不要用通用词替换。

AI 推断能力的边界

纠正完任务定义之后，AI 的语义理解能力展现出来了。

前四场我没有提供任何参考资料，全靠 AI 从上下文推断。

推断的效果出乎意料地好。”歌儿” → Cursor，靠的是”24年8月爆火”+”8岁小女孩推特故事”两个线索，这是真实事件，AI 认出来了，推断正确。”3毛” → Sam Altman，正确。

但同一场，”他最早在这个 TDC 里面”，AI 推断成了 TED 演讲，实际是 ChatGPT 产品里（我人工听录音确认的）。

再往后，第四场（百度）里，AI 把”COI化”推断成了”MCP化”，理由是”钉钉/悟空在做 MCP 化，时间线完全吻合”。

我看到这个推断就知道不对。演讲内容明显涉及命令行工具，COI 和 CLI 发音相近（C-O-I / C-L-I），应该是 CLI。

但 AI 不知道这场演讲在讲什么，只能靠已有知识猜。它的猜测是有道理的，只是信息不够。

关键转折：信息比提示词更重要

我把 QCon 官网的演讲摘要粘给了 AI——每场演讲都有官方介绍文字，有讲师姓名、演讲提纲、关键术语。

AI 立刻反应：

“明白了。有了这些演讲摘要作为参考，’COI’ 的正确映射应该是 CLI（Command Line Interface）：演讲摘要里明确提到’CLI化’。”

然后它主动回溯，把前几场靠猜测得出的推断重新过了一遍，发现并修正了更多错误。

这是整个过程里最重要的一步。我没有改提示词，没有换模型，只是给了它更好的信息。后续五场的规整质量，明显高于前四场。

这是一个普适规律：给 AI 更好的信息，比给 AI 更好的提示词更有效。 提示词能优化的，是 AI 用已知信息做推断的方式；信息本身不够，提示词再好也有天花板。

又踩了一个坑：OCR

语篇规整完成后，我把拍的幻灯片照片也交给 AI 处理，用 OCR 提取数字和专有名词来辅助校对。

OCR 读出了一个数字：35%。AI 用这个数字修改了文章——“Agent 发现 35% 的工具调用是无效的”。

我人工看了原图，是 8%。

问题出在 OCR 参数。默认的 --psm 3 在处理有图表的幻灯片时，会把坐标轴数字和标题数字错误拼接。图表坐标轴上的”35”和标题里的”8%”被拼在一起，读出了不存在的”35%”。

调整为 --psm 6（把图片当作单一文字块处理），重新 OCR，读出了正确的 8%。

这个教训当场写进了图片编辑的 SOP 文件：使用 --psm 6，OCR 数字用于辅助校对时要结合上下文判断合理性，不要直接覆盖人工记录。

独立审校：看出自己看不出的问题

规整完成后，我用了一个独立的 agent 做审校——和做规整的不是同一个上下文。

审校发现了规整阶段没发现的问题：

快猫星云那篇，末尾混入了网易那场的 Q&A（逐字稿录入时串行，内容完全不属于这个话题）
淘宝闪购那篇，讲师名字”邓立山”，ASR 错误识别成了”邓丽莎”——主 agent 有了演讲摘要之后执行了替换，但有的地方改漏了，自己没有发现
PayPal 那篇，版本号被推断成了”Llama 3 Pro”——这个模型根本不存在，我听了录音确认是 Claude Opus 4.6、GPT-5.2 Codex、Gemini 3 Pro

这就是 “生成与验证分离” 的价值。主 agent 带着大量上下文做了很多工作，它的判断会受到自己已有推断的干扰。上下文干净的独立 agent 重新读，反而能发现这些盲区。

流程建好之后

把上面这些坑踩完、规则写进 SOP 之后，流程就稳了。

有了官方摘要，AI 处理每一场的节奏明显紧凑，我的介入越来越少。最后两篇，从逐字稿入库到规整完成——8 分钟。

这个数字说明了什么？流程建立之前，每一场都要反复纠错，方向错了要重来，推断错了要手动修；流程建立之后，执行层可以完全交出去。8 分钟不是 AI 更聪明了，而是它掌握的规则和信息更完整了。

整个过程中，我的实际介入只有这几次：

一句话纠正任务定义（脚本 vs 语义重写）
一次素材投喂（粘贴官方摘要）
人工看了一张图（发现 8% 不是 35%）
人工听了一段录音（确认 PayPal 那篇的版本号）

执行层——读文件、重写九篇、跑 OCR、调用审校 agent、写 SOP——全部是 AI 在做。

还有一类问题流程解决不了

流程解决了大部分问题，但不是全部。

有几处是 AI 无论如何还原不了的——录音质量太差，又没有任何参考资料，那几个词就是永久丢失了，信息在进入 ASR 之前就已经消失了。这不是流程问题，是信息的物理限制。

还有另一类：文稿质量很难量化，没有可观测指标。这带来两个问题——独立审校 agent 发现了问题，怎么改、改到什么程度，仍然需要人来判断；更棘手的是，有些问题连审校 agent 也发现不了，AI 推断出了一个”听起来合理”的错误，没有参照物。

这个问题有一个不完美但可用的解法：在规整 SOP 里要求 AI 对不确定的地方主动标注 [?]，不要强行猜。人工审校时只需要重点看这些标注，不用通读全文。这不能发现所有问题，但至少把已知的不确定性暴露出来了，闭环是成立的。

所以人工审校暂时少不了——但工作量已经完全不在一个量级了。

结论

AI 时代，重要的不是会写代码，而是会建流程。

流程的建立需要人的参与，而且不能跳过：先跑一遍，发现 AI 在哪里卡住，给它更好的信息，纠正错误模式，把踩过的坑写进规则。这个过程本身，就是流程建立的过程。没有这个过程，AI 的输出质量会停在”勉强能用”。

流程建好之后，执行层交给 AI，人退到少数几个关键节点：提供素材、人工核实、处理边角情况。

但建流程这件事本身，是你不能外包给 AI 的那部分工作。