执行层在消失,研发团队要做什么
上周在 QCon 2026 北京 AI Coding 专场,9 场演讲,来自淘宝、蚂蚁、百度、PayPal、网易、京东。表面上讲的是各自的工具和方案,但底下在卷的是同一件事:如何让 AI 在整个研发流程里越来越自主,同时越来越可控。
这两个词放在一起是有张力的。”自主”意味着 AI 自己决策,”可控”意味着结果符合预期。各家踩的坑、交的学费,大部分都在这个张力里。
这篇文章想梳理一下:大家在做什么,做到了什么程度,以及我们自己的工作方式可能会往哪个方向变。
上周在 QCon 2026 北京 AI Coding 专场,9 场演讲,来自淘宝、蚂蚁、百度、PayPal、网易、京东。表面上讲的是各自的工具和方案,但底下在卷的是同一件事:如何让 AI 在整个研发流程里越来越自主,同时越来越可控。
这两个词放在一起是有张力的。”自主”意味着 AI 自己决策,”可控”意味着结果符合预期。各家踩的坑、交的学费,大部分都在这个张力里。
这篇文章想梳理一下:大家在做什么,做到了什么程度,以及我们自己的工作方式可能会往哪个方向变。
8 分钟,一篇会议笔记从逐字稿变成可读文章。
这不是 AI 一开始就能做到的。这是把流程跑通、把坑踩完之后才有的结果。这篇文章想说的,就是这个流程怎么建起来的——以及为什么流程建立之前和之后,效率完全不在一个量级。
2026-04-18,QCon 北京,首府分会场,AI Coding 专场。9 场演讲,录音转写 + 现场照片,整理成了 9 篇笔记。
这篇是导读,帮你决定看哪几篇。
主讲:李卓豪(网易智企,数帆 EasyData 技术负责人)
时长:约 47 分钟
数据开发治理平台的 AI 演进四阶段:从单点操作到 DataAgent,以及为什么选择 CLI 而非 MCP(Token 效率差 35 倍)。重点分享了 SQL 生成的三阶段流程(问题改写→表识别→生成校验)和优先做智能运维而非数据开发的决策逻辑。
主讲:郁丁鑫(PayPal,Senior Manager - Software Engineering)
主讲:耿树朋(PayPal,Staff Machine Learning Engineer)
时长:约 54 分钟
把 1-1.5 个月的支付迁移工作缩短到 10 分钟——PayPal MAIA 项目的完整实践。核心是 EERO 循环(执行→评估→反思→优化),以及通过 Noise Injection 构建 150+ 种噪声类型的测试数据工厂,让 Agent 在对抗性测试中持续进化。
主讲:牛万鹏(百度文心快码 Comate,研发经理)
主持:臧志(百度,Coding Agent 驱动的研发新范式专场出品人)
时长:约 53 分钟
Agent 框架的”感冒”,就是没跟上模型变化。百度 Comate 分享了如何通过 Feedback Loop(MCP 渐进式加载、智能上下文压缩、Tool 执行网络)、场景化 Benchmark(四象限异常值分析)和全员 Agent Engineers 转型,构建一个能持续适配模型演进的飞轮。
主讲:彭佩乔(蚂蚁集团支付宝体验技术部,前端工程师,花名乔洋)
主持:臧志(百度,Coding Agent 驱动的研发新范式专场出品人)
时长:约 56 分钟
蚂蚁内部 Vibe Coding 平台(代号 Muse)落地半年、月活过万的真实踩坑记录。从 search & replace 到 KV Cache 的 token 优化路径,到”文件即记忆”和”一切用 git 管理”的架构理念,再到五个关于 AI 时代基建的”暴论”。
主讲:徐翔(京东科技,JoyCode AI 架构师)
时长:约 47 分钟
检索得准,才是上下文工程的关键。JoyCode 分享了六类检索引擎的选型逻辑(ripgrep/向量/倒排/稀疏/RepoGraph)、RepoWiki 代码知识图谱的闲时构建方案,以及多 Agent 协同架构在 15 天紧急交付中的实战验证。
主讲:熊飞宇 博士(记忆张量 MemTensor,创始人 & CEO)
时长:约 49 分钟 + 12 分钟答疑
记忆从效率工具变成了 Agent 能否正常运行的生死线。MemTensor 分享了 memOS 的三层记忆分层架构(明文/KV Cache/参数)、两条技术路径的对比选择,以及企业级多 Agent 产品 ClawForce 在部署、经验沉淀和安全治理上的实践。
主讲:邓立山(淘宝闪购,高级技术专家)
时长:约 50 分钟
让 AI 写出可控代码,本质是对软件工程的深刻实践。淘宝闪购分享了从”差那么点意思”到 AI 编码率 89.2% 的完整演进路径:双端约束减少幻觉、工程架构作为”宪法”、AI 自我审查闭环,以及如何把经验复制给整个团队。
主讲:姜天意(网易智企,CodeWave & CoreAgent 技术负责人)
时长:约 50 分钟
Vibe Coding 解决了速度问题,但带来了质量和可控性问题。网易 CodeWave 通过 Spec Driven Development + Harness Engineering 的组合,把需求标准化(EARS 语法)、技术设计约束、沙箱验证串成完整流程,并用自研 NASL DSL 和代码大模型训练形成闭环。
主讲:裴彤(快猫星云,AI 产品研发负责人)
主持:秦晓辉(快猫星云创始人)
时长:约 54 分钟
用 Agent 来解决 Ops 的问题,而不是用 Ops 管理 Agent。快猫星云分享了可观测知识图谱 + AI Agent 做故障定位的完整实践,包括图谱自动化构建、四种 Agent 使用策略、Harness 工程和多 Agent 协作架构。
Claude Code 有个 /buddy 命令,会根据你的账户 ID 孵化一只陪你写代码的小动物。稀有度五档,legendary shiny 的概率是万分之一。
我的默认宠物是一只 common axolotl——最低档,无闪光。我想要传说闪光卡皮巴拉。
于是我把这个系统的漏洞原理告诉了 Claude,让它去 190MB 的 Claude Code 二进制里找算法。它自己定位到了打包进去的 JS bundle,读懂了压缩混淆的代码,写了枚举脚本,还在第一版算法出错后自己设计实验修正。最终 14400 次枚举,0.04 秒,传说闪光卡皮巴拉出来了。
软件开发领域有两本经典:《代码整洁之道》和《架构整洁之道》。前者讲怎么写好一个函数,后者讲怎么组织一个系统。
AI 时代来了,编码交给 AI 了,《代码整洁之道》的直接受益者变成了 AI——在函数命名、结构分层这个层面,AI 的输出已经相当稳定,你只需要给它提示和约束。
但《架构整洁之道》的命运不同。它没有被 AI 取代,而是在一个新的层面上重新活了一遍。
XPTI 是最近在传的另一个人格测试,20道题,16种人格类型,界面比 SBTI 精致很多——React + Framer Motion,题目切换有滑动动画,结果页有雷达图。
测完之后页面底部会出现一行字:**”全国有 X.X% 的人拥有和你一样的极品 XP。”**
把源码下载下来看了一眼,这个数字是这样生成的:
1 | const count = Math.floor(Math.random() * 8000) + 1000; |
每次刷新都不同。没有任何统计数据支撑,纯粹是让结果看起来”稀有”的心理设计。
SBTI 是一个最近在传的人格测试,27种人格全是互联网黑话:CTRL(拿捏者)、Dior-s(屌丝)、DRUNK(酒鬼)……整个网站三个静态文件,没有后端,部署在 Cloudflare Pages。
把源码扒下来看了一遍,核心算法很简单:用户的答题结果转成一个15维向量,然后和25种人格的标准向量逐一比距离,最近的就是你的人格。
但把 3^15 = 1400万种可能的输入全部枚举一遍之后,发现了一个问题:15.8% 的情况下,结果由代码里的数组顺序决定,而不是你的答案。
Anthropic 工程师 Prithvi Rajasekaran 在官方博客发表了一篇 harness 设计指南,介绍他们如何用多智能体架构突破单 agent 编程的天花板。
这篇文章的核心洞察来自 GAN(生成对抗网络):把生成和评估分离成两个独立的 agent,通过反复迭代驱动质量提升。这个思路先在前端设计任务上验证,再扩展到完整的全栈应用开发。