在世界移动通信大会(MWC 2025)期间,参观者蜂拥至谷歌展位,讨论该公司最新的产品。半岛电视台有机会与谷歌云卡塔尔、巴林、阿曼和伊拉克区域总经理加桑·科斯塔会面并交谈,了解谷歌最新的人工智能产品Gemini 3.0。

半岛电视台就Gemini 3.0及其最近受到的专家和用户的好评向他提问,并询问谷歌是否找到了重返人工智能竞赛的秘诀。

阅读更多

list of 4 itemsend of list

科斯塔在接受半岛电视台采访时坦诚而详尽地谈到了谷歌多年来一直在研发的“人工智能系统”的构想。以下是采访详情。

科斯塔首先说道:“Gemini不是凭空出现的突破,而是27年的研究成果,它被整合为一个完整的系统,而不仅仅是一个新的人工智能模型。”

科斯塔补充道:“Gemini的优势并非来自模型本身,也不是一时兴起……而是谷歌在这段时间里对一系列人工智能系统进行研究的成果。”

要理解科斯塔的意思,我们需要稍微回顾一下过去。

失败是通往成功的道路

谷歌的Gemini 3.0之路并非一帆风顺;相反,它遭遇了一系列挫折,一度动摇了公司的形象。2023年Bard的糟糕发布暴露了该模型准备不足、漏洞百出,并导致谷歌市值大幅缩水。

随后,有传言称,负责人工智能模型开发的团队内部出现了分裂,这表明这家全球最大的人工智能公司之一缺乏统一的愿景。

即使是第一版Gemini也未能达到当时GPT-4的竞争标准,导致分析人士称谷歌“失去了在人工智能领域的领导地位”。

从芯片到云端

科斯塔认为,在谈论任何强大的人工智能系统时,必须考虑一些因素:“我在这里指的不仅仅是像Gemini 3.0这样的模型,而是一个集成系统,它从技术硬件和基础设施开始,到人工智能模型以及中间的信息和数据层结束。”

为了理解这意味着什么,我们必须按照科斯塔的理论将系统划分为五个层次,从以下几个层次开始:

第一层:GPU还是TPU?

在人工智能领域,谷歌与其他厂商的不同之处不仅在于其开发的模型,还在于训练这些模型所使用的硬件。大多数公司依赖英伟达图形处理器(GPU),而谷歌则另辟蹊径,采用专为人工智能运算而设计的张量处理单元(TPU)处理器。

TPU是专为神经网络所需的复杂数学运算(例如矩阵乘法)而设计的处理器,因此它们能够比传统显卡更高效地加速训练和执行。更重要的是:谷歌自行制造这些TPU,并掌控每一个组件。

最新第六代TPU(即 TPU Trillium)的计算能力达到了可以训练处理数百亿笔交易的模型的水平,而且耗电量更低,这为 Gemini 3.0 的构建奠定了基础。

科斯塔表示,谷歌没有依赖英伟达等第三方提供先进芯片,而是将硬件、软件和数据整合到一个高度集成的芯片到云系统中。

因此,业内专家在CNBC的一篇文章中将“TPU”描述为谷歌的“秘密武器”,谷歌希望凭借它来在人工智能竞赛中超越竞争对手。

它不仅仅是一块硅片,而是一个完整的平台,体现了该公司的愿景:人工智能不仅仅是一个模型……而是一个从硬件本身开始的完整基础设施。

谷歌凭借TPU芯片开辟了一条属于自己的道路 (谷歌)

第二层:云端——Gemini强大功能的真正支柱

科斯塔表示,Gemini 3.0令人瞩目的功能背后,隐藏着用户可能看不到的一层,但这或许是谷歌如今最重要的资产:云端。大多数人工智能模型依赖于第三方托管的基础设施或分布在共享数据中心的架构,而Gemini的独特之处在于,它运行、训练和运行都在谷歌从零开始构建的云生态系统中进行,谷歌掌控着其中的方方面面。

科斯塔补充说,这一层从超高效的数据中心延伸到光纤网络,一直到承载着全球大部分互联网流量的海底电缆,所有这些都由谷歌拥有或通过合作伙伴关系运营,这使它们成为全球数字基础设施的核心。

对于科斯塔而言,这是一个训练Gemini规模模型的理想环境,既不会遇到数据流量拥堵,也不会像其他公司的模型那样依赖第三方。

在一个包含数百万个上下文代码的模型中,仅仅依靠快速处理器是不够的;我们需要的是一个能够以惊人的速度传输数据、将其分布到数千个芯片上,并在数十万个网络节点上同步训练的系统。而这正是谷歌的优势所在:

  • 专为人工智能设计的云架构。
  • Vertex AI、谷歌云和TPU等组件之间的完全集成。
  • 如果没有相同的基础设施,竞争对手很难达到相同的数据传输速度和响应时间。

这就是为什么业内专家将谷歌云描述为Gemini的“幕后功臣”,它使Gemini能够达到其他模型无法企及的性能。它不仅仅是存储空间或计算能力……它是一个完整的神经系统,让模型能够自由呼吸、学习和无限扩展。

第三层:人工智能堆栈——连接系统的结构

如果将TPU芯片比作肌肉,将云比作骨架,那么第三层——人工智能堆栈(AI Stack)——就是连接谷歌人工智能生态系统各个组件的框架。科斯塔在他的演讲中重点强调了这一层,他指出,谷歌的独特之处不仅在于其模型,更在于构建所有模型的内部引擎。

虽然大多数公司依赖开源工具或外部系统来构建模型,但谷歌拥有一套完整的框架、工具和中间件软件套件,这些套件完全由谷歌自主拥有和设计,旨在对每个细节进行微调:

从数据收集到培训管理、矩阵式排班,以及平台与云端之间的无缝集成。

谷歌的人工智能堆栈包含哪些内容?

1、深度学习框架:

谷歌依赖于它自己开发的 TensorFlow,因此它使用的不是现成的模型,而是一个框架,它会根据自己的硬件和云环境对其进行调整。

2、工程工具和中间件:

Pathways、XLA和Vertex AI等系统使谷歌能够完全控制人工智能模型中的每一步——从计算转换到TPU芯片之间的工作分配。

3、软硬件交互层:

这就是竞争对手所不具备的魔力所在:软件是专门为芯片量身打造的,而芯片也是专门为软件量身设计的。

正是这种协同效应使得Gemini能够以前所未有的效率处理两百万个代码片段的上下文。

4、资产集成:(云端、区块链、模型)

这种深度集成——作为一个整体运行——使谷歌能够快速试验新的架构,在几周内而非几个月内训练出庞大的模型,并达到那些拼凑多个来源组件的公司无法企及的性能。结果如何?

Gemini的内部语言和框架使其能够在一个单一通道中理解图像、视频、音频、文本和代码。

正是这一层使得模型不仅强大,而且具有凝聚力、一致性,并且能够在不因任务重压而崩溃的情况下持续增长。

对此,加桑·科斯塔表示:“谷歌系统中的每一层都归我们所有……正因如此,我们才能自下而上地改进模型。”

第四层:数据——无人拥有的燃料,“纳米香蕉”就是证明

在谷歌人工智能的所有层面中,数据层最接近于“无法言说的秘密”。其他公司依赖于授权数据集或通用规则,而谷歌则基于数字史上规模最大、最丰富、最多样化的数据集构建其模型:

从搜索引擎到YouTube、地图、邮件,以及数百万个安卓应用。

但据科斯塔所说,真正展现这种优势程度的时刻,是“纳米香蕉”(Nano Banana)模型的推出。

谷歌数据的特性使得“纳米香蕉”的训练效果卓越(盖帝图像)

他解释说,不到一天时间就在商店上架的“纳米香蕉”模型能够立即处理数十种应用程序、图像和任务,无需进行大量的重新培训或复杂的调整。原因何在?

模型训练所用的数据具有前所未有的多样性。

加桑明确地指出:“人们没有意识到‘纳米香蕉’如此迅速地取得了成功,是因为我们的模型是基于涵盖用户日常生活实际行为的多媒体数据进行训练的。”

谷歌的数据有何独特之处,使得“纳米香蕉”模型如此强大?

包括谷歌Gemini在内的多个网站指出,谷歌数据的这些特点使其成为训练人工智能模型的最佳选择:

  • 其平台本质的丰富性和多媒体特性:文本、视频、图像、音频、地图、代码……所有这些每天都在谷歌的各个平台上流动。
  • 代表真实世界:由数十亿用户生成的数据,而非重复或人为构建的数据集。
  • 具有一致性和相互关联性:该模型可以将谷歌相册中的图像与谷歌搜索中的上下文、Gmail中的文本或谷歌地图中的位置关联起来。
  • 本质上是为训练而设计的:收集数据的系统(谷歌搜索、YouTube、Android)从一开始就被设计成可索引和可​​分析的。
  • 提供的数据能够促进真正的理解,而非死记硬背。

正是这种巨大的多样性使得像“纳米香蕉”这样的小型版本能够从一开始就高效运行,而无需特殊准备,因为该模型“沉浸在”一个与它以后将要运行的环境非常相似的环境中。

这也解释了为什么Gemini可以同时理解图像、视频、音频和代码;该模型不是分别学习每种类型,而是像它们在现实中出现时一样,将它们全部一起学习。

买不到的优势

科斯塔认为,竞争对手或许能够购买数千个GPU并构建强大的云平台,但没有人能够购买谷歌拥有的数据历史,因为这是谷歌20年来构建世界每天都在使用的工具的成果。

因此,“纳米香蕉”不仅仅是一次发布,它证明了数据的力量不是理论上的,而是一种实际优势,它为谷歌带来了不易被超越的切实领先优势,科斯塔说道。

第五层:模型本身——一个旨在思考而非仅仅回答问题的多感官大脑

如果说前面提到的硬件、云端、人工智能和数据层代表了构建系统的肌肉、骨骼和结构,那么模型本身就是大脑,它将所有这些整合在一起,并将其转化为真正的理解、分析和推理能力。

据科斯塔称,在Gemini 3.0项目中,谷歌不仅构建了一个新的语言模型,还设计了一个能够同时观察、聆听、阅读和分析世界软件的多感官大脑,根据谷歌的说法,它整合了以下几个优势:

  • 从一开始就采用多模态模型

与其他依赖于单独的文本、图像和音频模型相互关系的模型不同,Gemini被设计成一个原生多模态模型,这意味着它对图像、文本、音频和视频的理解是在共享的层和单一的结构中进行的。

这解释了它为何能够分析同时包含文本和图形的图表,通过声音、画面和文本上下文理解视频片段,分析包含屏幕截图的整个软件仓库,并提供一致的推理结果,因为所有媒体都是在“同一个思维”下处理的,而不是多个模型。正如谷歌DeepMind的研究人员在之前的研究中证实的那样,这是它独特性的关键所在。

  • 先进的架构

据MarkTechPost报道,谷歌在Gemini 3.0中采用了一种名为“稀疏混合专家”(Sparse Mixture-of-Experts,简称MoE)的特殊架构,该技术允许模型仅激活网络中的“适当部分”,而不是在每个任务中运行整个模型。

其结果是性能更高、速度更快,能源和计算效率也达到了前所未有的水平,并且能够在不增加一倍成本的情况下运行大规模模型。

据该网站称,这种架构使模型能够处理数百万个上下文代码,而不会崩溃或成本翻倍。

  • 可处理数百万个代码的上下文窗口:近乎无限的内存

据包括Techpost和Sentisight在内的多个网站称,Gemini 3.0的最大优势之一是其官方能够处理多达100万至200万个代码的上下文,在测试中能够处理多达1000万个代码的上下文。

这相当于能够在同一会话中同时分析5万行代码、数百页文档、大型PDF文件、播客节目、代码、图像和视频。

专家表示,这种能力并非“技术奢侈品”,而是人工智能在新闻、编程、医疗、法律和科学研究等领域应用方式的根本性变革。

  • 在实际测试中表现出色……而不仅仅是在实验室中

科斯塔表示,测试证明了Gemini 3 Pro的实力,尤其是在11月的LM Arena测试结果中,它取得了1501 ELO的历史性发射分数,在大多数主要类别中都优于Grok 4.1、GPT-5.1和Claude 4.5。

为了解释这项测试及其重要性,我们首先必须定义LM Arena及其排名的重要性。

LM Arena是一个使用Elo系统(类似于国际象棋排名)对Gemini、GPT等人工智能模型进行排名的网站,用户可以比较两个未知的答案,并投票选出最佳答案,从而增加获胜模型的分数,减少失败模型的分数。

简而言之:该网站让你在两个模型之间进行“对决”;你可以进行投票,然后每天都能看到基于数百万投票结果的最终排名。由于它反映了人们的真实意见,因此被认为比传统测试更准确。

性能测试是对人工智能模型解决编程、科学研究和数学中复杂问题的能力的实际证明;它们不是随机统计数据。

现在回到LM Arena的测试结果,我们看到Gemini 3.0的优势非常明显。它在博士级别的科学推理能力方面表现出色,在代码分析和Web开发方面,它在众多模型中排名第一。至于数学方面,它也位列第一。

当所有层级都构建完成时,Gemini 3.0脱颖而出

科斯塔在讨论Gemini 3.0如何在众多型号中脱颖而出并取得如此成就时总结道,这一成功源于一个清晰的愿景,而这个愿景必须在Gemini 3.0发布之前完成。

正如科斯塔所指出的,谷歌构建的不是一个人工智能模型,而是一个涵盖五个相互关联层面的完整生态系统:从专有芯片到巨型云端,一套内部人工智能框架和软件,以及无与伦比的大数据,最终形成一个能够跨越数百万个符号进行思考的多媒体模型——Gemini 3.0。

来源: 半岛电视台