上周在 QCon 2026 北京 AI Coding 专场,9 场演讲,来自淘宝、蚂蚁、百度、PayPal、网易、京东。表面上讲的是各自的工具和方案,但底下在卷的是同一件事:如何让 AI 在整个研发流程里越来越自主,同时越来越可控

这两个词放在一起是有张力的。”自主”意味着 AI 自己决策,”可控”意味着结果符合预期。各家踩的坑、交的学费,大部分都在这个张力里。

这篇文章想梳理一下:大家在做什么,做到了什么程度,以及我们自己的工作方式可能会往哪个方向变。

8 分钟,一篇会议笔记从逐字稿变成可读文章。

这不是 AI 一开始就能做到的。这是把流程跑通、把坑踩完之后才有的结果。这篇文章想说的,就是这个流程怎么建起来的——以及为什么流程建立之前和之后,效率完全不在一个量级。

2026-04-18,QCon 北京,首府分会场,AI Coding 专场。9 场演讲,录音转写 + 现场照片,整理成了 9 篇笔记。

这篇是导读,帮你决定看哪几篇。

主讲:李卓豪(网易智企,数帆 EasyData 技术负责人)
时长:约 47 分钟

数据开发治理平台的 AI 演进四阶段:从单点操作到 DataAgent,以及为什么选择 CLI 而非 MCP(Token 效率差 35 倍)。重点分享了 SQL 生成的三阶段流程(问题改写→表识别→生成校验)和优先做智能运维而非数据开发的决策逻辑。

主讲:郁丁鑫(PayPal,Senior Manager - Software Engineering)
主讲:耿树朋(PayPal,Staff Machine Learning Engineer)
时长:约 54 分钟

把 1-1.5 个月的支付迁移工作缩短到 10 分钟——PayPal MAIA 项目的完整实践。核心是 EERO 循环(执行→评估→反思→优化),以及通过 Noise Injection 构建 150+ 种噪声类型的测试数据工厂,让 Agent 在对抗性测试中持续进化。

主讲:牛万鹏(百度文心快码 Comate,研发经理)
主持:臧志(百度,Coding Agent 驱动的研发新范式专场出品人)
时长:约 53 分钟

Agent 框架的”感冒”,就是没跟上模型变化。百度 Comate 分享了如何通过 Feedback Loop(MCP 渐进式加载、智能上下文压缩、Tool 执行网络)、场景化 Benchmark(四象限异常值分析)和全员 Agent Engineers 转型,构建一个能持续适配模型演进的飞轮。

主讲:彭佩乔(蚂蚁集团支付宝体验技术部,前端工程师,花名乔洋)
主持:臧志(百度,Coding Agent 驱动的研发新范式专场出品人)
时长:约 56 分钟

蚂蚁内部 Vibe Coding 平台(代号 Muse)落地半年、月活过万的真实踩坑记录。从 search & replace 到 KV Cache 的 token 优化路径,到”文件即记忆”和”一切用 git 管理”的架构理念,再到五个关于 AI 时代基建的”暴论”。

主讲:熊飞宇 博士(记忆张量 MemTensor,创始人 & CEO)
时长:约 49 分钟 + 12 分钟答疑

记忆从效率工具变成了 Agent 能否正常运行的生死线。MemTensor 分享了 memOS 的三层记忆分层架构(明文/KV Cache/参数)、两条技术路径的对比选择,以及企业级多 Agent 产品 ClawForce 在部署、经验沉淀和安全治理上的实践。

主讲:邓立山(淘宝闪购,高级技术专家)
时长:约 50 分钟

让 AI 写出可控代码,本质是对软件工程的深刻实践。淘宝闪购分享了从”差那么点意思”到 AI 编码率 89.2% 的完整演进路径:双端约束减少幻觉、工程架构作为”宪法”、AI 自我审查闭环,以及如何把经验复制给整个团队。

主讲:姜天意(网易智企,CodeWave & CoreAgent 技术负责人)
时长:约 50 分钟

Vibe Coding 解决了速度问题,但带来了质量和可控性问题。网易 CodeWave 通过 Spec Driven Development + Harness Engineering 的组合,把需求标准化(EARS 语法)、技术设计约束、沙箱验证串成完整流程,并用自研 NASL DSL 和代码大模型训练形成闭环。

主讲:裴彤(快猫星云,AI 产品研发负责人)
主持:秦晓辉(快猫星云创始人)
时长:约 54 分钟

用 Agent 来解决 Ops 的问题,而不是用 Ops 管理 Agent。快猫星云分享了可观测知识图谱 + AI Agent 做故障定位的完整实践,包括图谱自动化构建、四种 Agent 使用策略、Harness 工程和多 Agent 协作架构。

Claude Code 有个 /buddy 命令,会根据你的账户 ID 孵化一只陪你写代码的小动物。稀有度五档,legendary shiny 的概率是万分之一。

我的默认宠物是一只 common axolotl——最低档,无闪光。我想要传说闪光卡皮巴拉。

于是我把这个系统的漏洞原理告诉了 Claude,让它去 190MB 的 Claude Code 二进制里找算法。它自己定位到了打包进去的 JS bundle,读懂了压缩混淆的代码,写了枚举脚本,还在第一版算法出错后自己设计实验修正。最终 14400 次枚举,0.04 秒,传说闪光卡皮巴拉出来了。

软件开发领域有两本经典:《代码整洁之道》和《架构整洁之道》。前者讲怎么写好一个函数,后者讲怎么组织一个系统。

AI 时代来了,编码交给 AI 了,《代码整洁之道》的直接受益者变成了 AI——在函数命名、结构分层这个层面,AI 的输出已经相当稳定,你只需要给它提示和约束。

但《架构整洁之道》的命运不同。它没有被 AI 取代,而是在一个新的层面上重新活了一遍

XPTI 是最近在传的另一个人格测试,20道题,16种人格类型,界面比 SBTI 精致很多——React + Framer Motion,题目切换有滑动动画,结果页有雷达图。

测完之后页面底部会出现一行字:**”全国有 X.X% 的人拥有和你一样的极品 XP。”**

把源码下载下来看了一眼,这个数字是这样生成的:

1
2
const count = Math.floor(Math.random() * 8000) + 1000;
const percent = (Math.random() * 3 + 1).toFixed(1);

每次刷新都不同。没有任何统计数据支撑,纯粹是让结果看起来”稀有”的心理设计。

SBTI 是一个最近在传的人格测试,27种人格全是互联网黑话:CTRL(拿捏者)、Dior-s(屌丝)、DRUNK(酒鬼)……整个网站三个静态文件,没有后端,部署在 Cloudflare Pages。

把源码扒下来看了一遍,核心算法很简单:用户的答题结果转成一个15维向量,然后和25种人格的标准向量逐一比距离,最近的就是你的人格。

但把 3^15 = 1400万种可能的输入全部枚举一遍之后,发现了一个问题:15.8% 的情况下,结果由代码里的数组顺序决定,而不是你的答案。

背景

想给博客配置语义化 URL,比如 posts/hexo-permalink-deep-dive/,于是在 _config.yml 里配置:

1
permalink: /posts/hexo-permalink-deep-dive/

然后在文章 front matter 里加上:

1
slug: hexo-permalink-deep-dive

结果预览时 URL 变成了 posts/20260326-hexo%E6%B7%B1%E5%BA%A6%E8%A7%A3%E6%9E%90/——中文文件名被 URL encode 了,slug 字段完全没生效。

背景

Anthropic 工程师 Prithvi Rajasekaran 在官方博客发表了一篇 harness 设计指南,介绍他们如何用多智能体架构突破单 agent 编程的天花板。

这篇文章的核心洞察来自 GAN(生成对抗网络):把生成评估分离成两个独立的 agent,通过反复迭代驱动质量提升。这个思路先在前端设计任务上验证,再扩展到完整的全栈应用开发。

一个意外的弹窗

最近在用 gstack 的 /office-hours 功能,走完一整个 session 之后,它弹出了这样一个问题:

你会考虑申请 Y Combinator 吗?

我第一反应是:这是个广告。但仔细看了一下代码,发现它背后有一套完整的评判逻辑——它不是无差别地问所有人,而是根据整个对话过程中观察到的信号,分三个层级给出不同强度的邀请。

这套逻辑,让我想到了面试。

一个人,一天一万行代码

Garry Tan 在 X 上说他用 AI 60 天写了 60 万行代码,平均每天 1 万行。

这个数字听起来像在吹牛。但他把工具流程开源了,叫 gstack。我最近用了一次,觉得值得认真介绍一下。

0%