谷歌DeepMind CTO罕见坦白：我们曾大幅落后！Gemini 3两年逆袭内幕全揭秘

文 / 第三方供稿 2025-11-28 10:11:01 来源：第三方供稿

承认落后才是重新起跑第一步

根据 www.Todayusstock.com 报道，在最新近一小时深度专访中，谷歌首席AI架构师、DeepMind CTO Koray Kavukcuoglu罕见公开承认：“在很长一段时间里，这都是一场追赶。”他直言，ChatGPT爆发时，谷歌确实被甩在后面，但正是彻底承认落后，才让Gemini项目真正起跑。

Koray强调：“当我们启动Gemini时，我们知道自己落后。你必须足够诚实面对现实，然后才可能创新。”这种高层罕见的坦诚，直接推动了谷歌内部共识：仅靠传统研究节奏已无法跟上时代，必须全面转向产品驱动。

多模态不是功能，而是底层架构

Koray反复强调：多模态不是锦上添花，而是构建通用智能的必然。世界本身就是多维的，单一文本模型永远无法真正理解现实。

谷歌从Gemini 1.0起就选择最难路线——从架构层面统一文本、图像、音频、视频，在同一个模型内共同训练，重写token化、损失函数、优化器与推理路径。这直接带来Gemini 3在文档理解、图表解析、视频分析等跨模态任务上的系统性领先。

组织重构：从串行到全并行系统

Gemini最大逆袭不是技术，而是组织方式彻底重写。过去谷歌像传统流水线：研究→工程→产品→安全，链路割裂、迭代极慢。

现在已全面转向“并行系统”：

旧模式	新模式（Gemini 3起）
研究团队先训练	产品经理Day 1参与任务设计
工程最后优化部署	工程同步优化推理成本
安全上线前补丁	安全策略嵌入预训练
用户数据层层上报	真实用户信号直连训练

这种变革让20万员工的谷歌第一次实现“同日上车”：Gemini 3发布当天同步落地搜索、YouTube、地图、Android全产品矩阵。

可用性跃迁才是真正质变

用户感知到的Gemini体验质变，Koray认为核心不是“更聪明”，而是可用性成为首要目标：

指令理解大幅提升
国际化与多文化语料系统性纳入
工具调用与代码执行能力跃升（Agent基础）

这些系统工程成熟后，带来的不是单点Demo，而是整体“像产品一样好用”。

基础设施重新激活成最大底气

Koray最强调的竞争壁垒不是模型参数，而是基础设施：自研TPU、全球数据中心、跨产品分发能力、成熟安全体系、Search Android的亿级调用入口。

一旦与统一多模态模型结合，就形成难以复制的网络效应。这也是谷歌能在两年内从落后者重回行业中心的核心原因。

下一战：从语言智能到行动智能

Koray对未来判断毫不含糊：下一阶段竞争不是谁更会聊天，而是谁能完成真实多步骤任务。

战场将集中在：

工作流自动化
开发者工具链
企业级Agent
系统级AI（Android、Chrome、Workspace）

AI正从“对话模型”转向“任务操作系统”，Gemini的目标正是成为这一代操作系统的底层能力。

编辑总结

谷歌用两年时间完成了一场教科书式的系统反转：从公开承认落后，到多模态底层重构、组织并行化、可用性优先、基础设施全面激活，最终以Gemini 3实现行业级领先。这不是某个天才灵感，而是20万人组织重新找回节奏的必然结果。下一阶段，行动智能与任务操作系统将成为决胜点，谷歌凭借全栈基础设施与产品矩阵，已悄然占据最有利位置。资本市场需重新认知：对话模型只是产品，行动模型才是平台。