QCon 2026·网易智企:从 Copilot 到 DataAgent——企业级智能数据开发治理平台的技术演进和实践

主讲:李卓豪(网易智企,数帆 EasyData 技术负责人)
时长:约 47 分钟

数据开发治理平台的 AI 演进四阶段:从单点操作到 DataAgent,以及为什么选择 CLI 而非 MCP(Token 效率差 35 倍)。重点分享了 SQL 生成的三阶段流程(问题改写→表识别→生成校验)和优先做智能运维而非数据开发的决策逻辑。


开场说明

本来今天要讲的是我们 BI 方向的分享,但同事因为不可抗力没能来,我来替他分享一个不同的话题——数据开发治理平台的 AI 演进。以后还会有机会分享 BI 那个方向,大家可以保持关注。

今天的结构:背景 → 技术架构 → 关键实现 → 落地挑战 → 未来展望。


一、背景:部门业务与痛点

部门定位

我们部门分三层:

  • 底层:基础设施平台,统一 AI 能力
  • 中层:数据开发治理平台(EasyData),今天分享的重点
  • 上层:数据应用场景,包括 BI、智能数分等,过去一年重点在数智金融方向

三层之间有业务关联:中层的标准化数仓建设,是上层 BI 和智能数分的基础;中层做好了,上层才能快速体现 AI 价值。我们也在规划把这个平台打造成对外的 AI 应用门户。

我们不只服务网易内部,还有大量对外的 to B 客户,覆盖各行各业。

数据开发治理平台在数据价值链路中的定位

AI 浪潮下的需求爆发

痛点一:to B 实施效率
不断有新项目合作,如何提高实施效率、压缩成本?包括批量数据标准挖掘、批量入仓、核心指标发现。

痛点二:核心业务基线保障
重点业务(音乐、团队等)如何在承接新任务或业务调整后,保证数据产出时间不变?系统性降低风险。

痛点三:资源治理
硬件价格持续上涨,每年做运动式治理(Spark 迁移、资源下线),但上任务容易下人难,持续有难点。

痛点四:研发效率
新人如何快速熟悉数据架构?数仓同学遇到问题时,不应该还要去关注 Spark 特性、底层存储架构——这些对数仓同学太不友好了,知识负担太重。


二、平台 AI 演进的四个阶段

阶段一(2024 年):短链路单一场景

用自然语言快速实现单点操作:表权限申请、表的服务 API 创建等。在数据开发的表单页面上直接嵌入,减少操作切换。

阶段二:深度开发提效

数仓开发一直在模仿服务端开发的链路。当时 AI Coding 很火,我们也尝试了模型微调,做整个数据开发内容的补全提示。

阶段三:具体场景独立解决

在具体场景下实现独立解决:SQL 生成、优化建议,数据指标任务配置自动生成,词典提取等。这个阶段投入比较多。

同时做了模板化数仓构建(AutoDM):针对标准化的业务场景(比如财务数仓),实施同学已经非常熟练,流程很清晰——从财务系统把表拿出来、做分析、建指标,一套固定流程。我们把这个流程模板化,在 Excel 里描述字段映射和加工模式,当遇到新的数据源系统时,通过 AI 做语义等价替换,快速把 A 场景迁到 B 场景。在 to B 的 PoC 场景上得到了大量应用。

阶段四(今年):DataAgent

今年明显感受到 Agent 需求爆发:

  1. 业务自建冲动:我们之前开放了 OpenAI API 和部分 MCP,业务部门开始自建 AI 应用,包括做 Vibe Coding 和 SDD 的尝试
  2. 场景爆发:以前只有技术部门用,现在职能部门也需要——周报自动生成、报表自动构建、数据分析 API,各种比赛和分享也在推动
  3. 产品内嵌的必要性
    • 通过 MCP 挂外部客户端,无法把所有产品功能开放出来
    • 金融、国企客户对安全要求非常严格,外部客户端不可接受
    • 需要端到端的场景应用

从Copilot到Agent可控的自主化演进


三、DataAgent 技术架构

整体分层

  • 应用层:各产品业务入口
  • 接入层(对话层):通过 SSE 做流式展示,做一层框架无关的抽象(不绑定特定框架,便于未来切换更强的框架),处理安全、权限、上下文管理
  • 工具层:大量工具抽象,渐进式加载(比直接全量注入 token 消耗更低、效果更好)

DataAgent架构分层客户端接入安全编排记忆执行反馈模型

核心能力模块

SQL 生成(最大投入)

质量任务规则自动生成 + 标准分层

元数据智能描述:以前描述基于表,但业务人员问问题时用的是业务黑话和行话,传统方式效果不好

数据安全:敏感字段识别,自动数据分类分级

智能运维:任务出错时自动诊断失败原因,给出优化建议

知识库体系

知识库是效果好坏的核心,分两部分:

用户知识(用户维护)

  • 行业数据定义(不同业务部门对 DAU 的定义可能不同)
  • 业务流程知识(可以用工具或 AI 从现有文档中抓取)
  • SQL 模板(有些用户对 SQL 格式有强偏执,必须按特定模板)
  • 时间参数等自定义配置

系统知识(自动生成)

整个平台所有数据业务都跑在平台上,我们可以自动生成系统知识库。最初希望靠数据治理人员来完善,但实践发现根本推不动,最终还是靠机器自动化生成。

具体做法:

  • 从业务数据中自动抓取,做搜索片段化
  • 多表关联、表名数据结合指标的分析
  • 系统内置函数和系统字典

知识库更新:定期 + 实时双链路(表变更、任务调整都能感知到)。

更新后推送到召回管理,统计用户评价和召回情况,反哺召回策略。同时推一份到 ES,用于关键词匹配。


四、为什么选择 CLI 化

在设计 DataAgent 时,我们花了很多时间考虑:要不要做 CLI?

为什么不用 GUI 方案

  • GUI 识别能力弱,虽然现在有工具能基于页面元素做识别,但还是不够好
  • CLI 在输入控制、token 消耗、让模型发挥主动性方面都更好。以 50 台设备管理场景为例,MCP 方案约需 4,150 tokens,CLI 方案约需 800 tokens,差距约 35 倍

为什么不直接用 MCP

  • MCP 一上来就把所有工具描述全部拉回来,上下文消耗大
  • 每次调用都重新拉取,网络调用量大

我们的方案:先把 CLI client 做好,然后:

  • 可以把 CLI 挂到 OpenAI 或 Claude Code 上,做质量基线对比
  • 对结构化组织要求很高——接口参数虽然嵌套,但要维护这种嵌套结构(打平后验证效果不好)
  • CLI 的描述(help text)要写得非常好,这是让 AI 学习的关键

验证时间点:我们内部讨论完不久,钉钉、飞书、企业微信在 72 小时内争相把自己的方案切换到了 CLI 化——这印证了我们的判断。

CLI vs MCP核心差距Schema注入token消耗对比

CLI 设计:分成约 10 个模块,高频操作做短平快的封装,同时维护前端 API 管理(非正式版,用于典型场景验证,稳定后再转成正式版)。做好缓存管理,定期刷新,必要时做实时更新。


五、SQL 生成的关键实现

为什么要做 SQL 片段提取

直接用真实 SQL 学习,有几个问题:

  1. 会生成不存在的表名和字段(幻觉)
  2. 大模型训练是通用的,不了解内部数据、业务关系、业务规则
  3. 无法感知新业务变动(数据架构调整、表关联关系迁移)

解决方案:从真实 SQL 中提取结构化的 SQL 片段

SQL 片段提取流程

  1. 使用线上真实 SQL:平台数据在我们这里,这是优势
  2. 裁剪:去掉注释、测试相关片段,只保留核心逻辑,索引关系打散,控制在合理长度
  3. 关联元数据:解析 SQL 中的表,了解上下游血缘关系,知道哪些表会受影响
  4. 富化描述:用大模型对 SQL 片段做描述补充,完善注释(原始 SQL 可能有业务描述但不完整)
  5. 去运行态信息:最终得到结构化的数据服务,而不是嘈杂的原始结构

SQL 生成流程

三个阶段

阶段一:问题明确与改写

  • 判断问题是否全面:表信息是否挖掘充分,参数是否足够
  • 风险规避:某些岗位的查询如果做全表扫描会消耗大量资源,要提前识别
  • 访问控制:结合业务改写模板对问题进行改进

阶段二:表识别与参数提取

  • 做语义 + 关键词双路召回
  • 找到业务上血缘关系更近的表
  • 从指标关联关系推导计算公式

阶段三:SQL 生成与校验

  • 生成 SQL 后不直接使用,先做语法判断
  • 不同引擎(Spark/Hive)语法特性不同,需要注入引擎差异,自动纠错
  • 最终做完整校验

示例:用户问一个复杂的数据查询问题 → 改写为标准查询意图 → 生成处理条件 → 做假设性回复验证 → 识别所需表 → 召回关联表和计算公式 → 生成 SQL → 语法纠错 → 输出。

SQL代码生成问题改写知识召回代码生成三阶段流程


六、DataAgent 落地的优先级选择

我们先做智能运维,而不是数据开发,原因:

智能运维的使用频率和闭环价值比数据开发现阶段更高。

典型场景:数据开发同学值班,晚上某个 Spark 任务报警挂了,下游差 3 个小时。以前需要打开电脑排查,现在通过 Agent 自动判断——评估任务在平台上的重要性,自动调用接口获取日志,和底层 Spark 做交互,给出推荐的处理类型,自动调整。

以前运维同学晚上睡觉手机开震动,随时可能被叫起来处理。现在这部分工作越来越多地被 Agent 接管,随着场景不断完善,Agent 处理的比例会越来越高。

DataAgent智能运维用户与Agent工具调用链路


七、未来展望

CLI 化是基础:所有能力都要 CLI 化,让 AI Agent 能方便调用。

DataAgent 的核心价值:不只是 Copilot(辅助),而是能端到端交付——这才是 to B 客户的决策者真正想看到的。很多客户不在乎技术细节,他们要的是”数字员工”能直接交付结果。

Skill 的持续抽象:把数据开发治理领域的各种能力不断抽象成可复用的 Skill,构建数据开发治理领域的 Skill 生态。

自动化评估体系:人工做回归成本太高,必须建立自动化评估体系,这是整个 AI 效果持续提升的关键环节。

EasyData全景SKILL架构基于CLI构建的大数据开发治理平台智能能力矩阵