
承认落后才是重新起跑第一步
根据 www.Todayusstock.com 报道,在最新近一小时深度专访中,谷歌首席AI架构师、DeepMind CTO Koray Kavukcuoglu罕见公开承认:“在很长一段时间里,这都是一场追赶。”他直言,ChatGPT爆发时,谷歌确实被甩在后面,但正是彻底承认落后,才让Gemini项目真正起跑。
Koray强调:“当我们启动Gemini时,我们知道自己落后。你必须足够诚实面对现实,然后才可能创新。”这种高层罕见的坦诚,直接推动了谷歌内部共识:仅靠传统研究节奏已无法跟上时代,必须全面转向产品驱动。
多模态不是功能,而是底层架构
Koray反复强调:多模态不是锦上添花,而是构建通用智能的必然。世界本身就是多维的,单一文本模型永远无法真正理解现实。
谷歌从Gemini 1.0起就选择最难路线——从架构层面统一文本、图像、音频、视频,在同一个模型内共同训练,重写token化、损失函数、优化器与推理路径。这直接带来Gemini 3在文档理解、图表解析、视频分析等跨模态任务上的系统性领先。
组织重构:从串行到全并行系统
Gemini最大逆袭不是技术,而是组织方式彻底重写。过去谷歌像传统流水线:研究→工程→产品→安全,链路割裂、迭代极慢。
现在已全面转向“并行系统”:
| 旧模式 | 新模式(Gemini 3起) |
|---|---|
| 研究团队先训练 | 产品经理Day 1参与任务设计 |
| 工程最后优化部署 | 工程同步优化推理成本 |
| 安全上线前补丁 | 安全策略嵌入预训练 |
| 用户数据层层上报 | 真实用户信号直连训练 |
这种变革让20万员工的谷歌第一次实现“同日上车”:Gemini 3发布当天同步落地搜索、YouTube、地图、Android全产品矩阵。
可用性跃迁才是真正质变
用户感知到的Gemini体验质变,Koray认为核心不是“更聪明”,而是可用性成为首要目标:
指令理解大幅提升
国际化与多文化语料系统性纳入
工具调用与代码执行能力跃升(Agent基础)
这些系统工程成熟后,带来的不是单点Demo,而是整体“像产品一样好用”。
基础设施重新激活成最大底气
Koray最强调的竞争壁垒不是模型参数,而是基础设施:自研TPU、全球数据中心、跨产品分发能力、成熟安全体系、Search Android的亿级调用入口。
一旦与统一多模态模型结合,就形成难以复制的网络效应。这也是谷歌能在两年内从落后者重回行业中心的核心原因。
下一战:从语言智能到行动智能
Koray对未来判断毫不含糊:下一阶段竞争不是谁更会聊天,而是谁能完成真实多步骤任务。
战场将集中在:
工作流自动化
开发者工具链
企业级Agent
系统级AI(Android、Chrome、Workspace)
AI正从“对话模型”转向“任务操作系统”,Gemini的目标正是成为这一代操作系统的底层能力。
编辑总结
谷歌用两年时间完成了一场教科书式的系统反转:从公开承认落后,到多模态底层重构、组织并行化、可用性优先、基础设施全面激活,最终以Gemini 3实现行业级领先。这不是某个天才灵感,而是20万人组织重新找回节奏的必然结果。下一阶段,行动智能与任务操作系统将成为决胜点,谷歌凭借全栈基础设施与产品矩阵,已悄然占据最有利位置。资本市场需重新认知:对话模型只是产品,行动模型才是平台。
常见问题解答
Q1:谷歌真的曾经大幅落后吗?
是的。Koray亲口承认,ChatGPT爆发时谷歌在产品化速度、用户体验、迭代节奏上全面落后,甚至内部都认为“被甩在后面”。但正是这种危机感促成了Gemini项目的诞生。
Q2:Gemini 3为何能在发布当天同步上车所有产品?
因为组织已彻底并行:产品经理从训练第一天参与,工程实时优化部署,安全嵌入预训练,用户数据直连训练管线。这种“全栈协同”在大厂中绝无仅有。
Q3:多模态为什么这么重要?
因为现实世界不是纯文本的。图像有空间结构、音频有时间线索、视频是多维融合。只有统一多模态训练的模型,才能真正理解世界,而非停留在语言层面。
Q4:谷歌最大的护城河是什么?
基础设施 分发能力。TPU、全球数据中心、Search Android的亿级入口、成熟安全体系,一旦与领先模型结合,就形成难以复制的网络效应。
Q5:Gemini下一步要打什么仗?
行动智能。Koray明确:未来不是比谁更会聊天,而是谁能真正完成复杂多步骤任务。Agent、工作流自动化、系统级AI将成为下一阶段主战场。
来源:今日美股网