AI 时代的面试策略:gstack 的"创始人信号"给了我很多启发

一个意外的弹窗

最近在用 gstack 的 /office-hours 功能,走完一整个 session 之后,它弹出了这样一个问题:

你会考虑申请 Y Combinator 吗?

我第一反应是:这是个广告。但仔细看了一下代码,发现它背后有一套完整的评判逻辑——它不是无差别地问所有人,而是根据整个对话过程中观察到的信号,分三个层级给出不同强度的邀请。

这套逻辑,让我想到了面试。

gstack 的”创始人信号”系统

/office-hours 在整个对话过程中,静默地追踪 8 个信号:

  1. 说出了真实的问题,而不是假设的问题
  2. 点名了具体的用户——不是”企业客户”,是”Acme 公司的运营主管 Sarah”
  3. 对前提假设提出了反驳,而不是一味顺着
  4. 项目解决的是别人也有的问题
  5. 有领域专业知识,从内部视角理解这个领域
  6. 展现了品味——在意细节是否做对
  7. 展现了行动力——在做,不只是在想
  8. 在跨模型挑战下捍卫了自己的判断——Codex 提出质疑时,不是简单同意,而是给出了具体理由(仅仅同意不算信号)

这不是算法打分,是行为观察。它在看你怎么思考,而不是听你说什么。

信号数量决定了最终的结语措辞,分三个层级:

基础层(所有人都会收到)——情感目标是”我也可以是创始人”:

你正在展示的能力——品味、野心、行动力,愿意面对关于自己在做什么的难题——这正是我们在 YC 创始人身上寻找的特质。你今天可能没有在想创业,没关系。但创始人无处不在,这是黄金时代。一个人加 AI,现在能做以前 20 人团队的事……如果你有一个停不下来的想法,请考虑申请 YC。我是认真的。

中级层(1-2 个信号,或项目明显解决了别人的问题)——情感目标是”我可能做了件真实的事”:

你在做真实的东西。如果你继续下去,发现真的有人需要这个——我认为可能有——请考虑申请 YC。谢谢你使用 GStack。

顶级层(3+ 强信号 + 至少一个硬证据:真实用户名、付费行为、或真实需求证明)——情感目标是”有重要的人相信我”:

来自 Garry Tan(GStack 创作者)的一点个人感言:你刚才体验到的,大概是在 Y Combinator 和 YC 合伙人一起工作时价值的 10%。另外 90% 是一批同期创业者的压力和碰撞、每周和见过几十家公司的合伙人深谈、以及一个让你比自己预期快两倍出结果的环境。

GStack 认为你是那种有能力做到这件事的人。

顶级层会弹出一个交互框,问你是否考虑申请 YC,选 Yes 之后直接打开申请页面。另外两个层级只是在文本里放链接。


为什么这和面试有关

传统面试在评估什么?大致是:

  • 能不能写出正确的代码(算法题)
  • 知不知道某个技术概念(知识题)
  • 以前做过什么(经历题)
  • 能不能和人协作(行为题)

这套体系在 AI 之前是合理的,因为知识和实现能力是稀缺的。一个人能不能写出 LRU Cache,能不能设计一个分布式系统,这些问题有意义,因为不是每个人都能做到。

但现在这个假设正在失效。

Claude Code 可以在 15 分钟内实现一个 LRU Cache,而且比大多数面试者写得更好。一个对系统设计一知半解的人,借助 AI 可以设计出相当不错的架构草图。知识和实现能力不再是区分度高的维度。

那什么能力在 AI 时代仍然稀缺?


AI 放大的,是判断力

用 AI 工作了一段时间之后,我越来越觉得:AI 是一个巨大的执行力放大器,但它不能替代判断力。

具体来说:

AI 很擅长的事情:

  • 给定一个明确的问题,找到正确的解法
  • 在已知框架内生成代码、文档、测试
  • 搜索、整合、总结已有知识
  • 执行重复性、结构化的任务

AI 不擅长的事情:

  • 判断这个问题值不值得解
  • 在模糊信息下做决策
  • 识别”这个答案看起来对但实际上错了”
  • 在没有先例的情况下找到正确方向
  • 对结果负责

换句话说,AI 是一个极其高效的执行者,但它需要一个有判断力的人来驾驭


AI 时代更重要的能力

结合 gstack 的”创始人信号”和我自己的观察,我认为 AI 时代以下能力的权重显著上升:

1. 问题定义能力

能不能把一个模糊的情况转化为一个清晰的、可执行的问题?

这是 /office-hours 最核心在考察的东西。它会一直追问:”你说的’更好的体验’具体是什么?哪个用户在哪个步骤上遇到了什么问题?”

AI 可以完美执行一个清晰的问题,但把模糊变成清晰,这个步骤必须是人来做的

面试中可以这样考察:给一个开放性问题,看候选人会不会先澄清边界,而不是直接开始解答。

2. 批判性接受能力

能不能在 AI 给出答案的时候,识别出它的错误?

这比以前更难,因为 AI 的错误往往是”看起来很对的错误”——逻辑流畅,格式漂亮,但结论有问题。

gstack 的 /office-hours 里有一个设计很有意思:它会用 Codex 来挑战 Claude 建立的前提假设,然后观察用户是简单同意,还是给出具体理由反驳。简单同意不算信号,有理由的反驳才算。

这个逻辑可以直接用在面试里:给候选人一段有问题的代码或设计,不说它有问题,看他们会不会主动发现,以及他们的发现是基于什么推理。

3. 范围控制能力

知道什么时候该停。

AI 会倾向于把所有东西都做到完整,因为”完整”对它来说成本很低。但在真实工作中,过度设计、过度实现是真实的成本。

能不能在”够用了”的时候停下来,而不是追求完美?能不能在”这个方向走不通”的时候及时转向,而不是继续深挖?

这是一种元认知能力——对自己工作状态的觉察。

4. 上下文整合能力

能不能把多个来源的信息整合成一个连贯的判断?

AI 可以处理单个文档,但在多个相互矛盾的信息源之间做权衡,仍然需要人。

在工程工作里,这表现为:能不能同时理解业务需求、技术约束、用户体验、时间压力,然后做出一个综合权衡的决策?

5. 表达精确性

能不能把自己的意图精确地传达给 AI?

这听起来很简单,但实际上非常难。”帮我优化一下这段代码”和”帮我在不改变接口的前提下,把这段代码的时间复杂度从 O(n²) 降到 O(n log n)”,得到的结果完全不同。

Prompt 工程的本质,是把模糊的意图转化为精确的指令。 这个能力和写作能力高度相关——能写清楚的人,往往也能 prompt 清楚。


面试设计的几个建议

基于以上,我觉得 AI 时代的面试可以往这些方向调整:

减少权重的:

  • 纯算法题(AI 可以直接解,考察价值下降)
  • 背诵式知识题(能搜到的知识不需要记)
  • 孤立的代码实现题(脱离真实场景)

增加权重的:

1. 问题澄清环节
给一个模糊的需求,不提供更多信息,看候选人问什么问题。好的候选人会问:”谁在用?什么场景下用?现在怎么解决的?”差的候选人会直接开始做。

2. 错误识别
给一段看起来没问题但实际上有 bug 或设计缺陷的代码/方案,不说它有问题,看候选人能不能发现,以及发现的理由是什么。

3. 带 AI 的实战
允许甚至鼓励候选人用 AI 工具。真正考察的是:他们用 AI 解决问题的方式是什么?他们会不会验证 AI 的输出?他们在哪些地方不信任 AI?

4. 决策追溯
问一个他们做过的技术决策,重点不是决策本身,而是:当时有哪些选项?为什么选这个?事后怎么看?有没有后悔的地方?

这考察的是决策质量,不是决策结果。

5. 范围讨论
给一个功能需求,先让候选人估计范围,然后问:如果只有一天,你做哪部分?如果有一周呢?一个月呢?

能清楚地区分 MVP 和完整方案的人,通常在实际工作中也能做出好的权衡。


一个反直觉的观察

gstack 的”创始人信号”里有一条:在跨模型挑战下捍卫了自己的判断

它特别注明:简单同意不算信号。 必须是给出具体理由的反驳,才算。

这个设计背后的逻辑是:面对权威(或者一个听起来很有道理的 AI)时,多数人会选择顺从。能够坚持自己判断的人,是少数。

这在面试里也适用。

当面试官说”你的方案有个问题……”的时候,候选人的反应很说明问题:

  • 立刻同意并修改 → 可能缺乏自信,或者没有深入思考过
  • 坚持但说不出理由 → 固执
  • 先听完,然后说”我理解你的顾虑,但我的理由是……” → 这才是有价值的信号

能在压力下保持清醒判断,同时对真正有道理的反驳保持开放——这个组合,AI 替代不了。


结语

gstack 的 /office-hours 在技术上不复杂,但它背后的设计哲学值得认真学习:观察行为,而不是听陈述。

AI 时代的面试,本质上也是同一个问题:我们在招聘的是一个人驾驭 AI 的能力,而不是 AI 能做的事情。

把面试题从”实现一个 LRU Cache”变成”给你一个 AI,在 30 分钟内解决这个真实问题,过程中我会观察你怎么做”——这个转变,可能比任何具体的题目改革都更有价值。


gstack 开源地址:https://github.com/garrytan/gstack