目前,超级计算机已成为多个领域科学技术进步的关键支柱,从气候预测到药物研发,从核物理研究到训练大型人工智能模型,无所不包。

到 2025 年,随着超级计算机能够执行达到“百亿亿次浮点运算”级别的计算(即每秒 10 亿亿次计算),受各国和各公司之间争夺计算资源的全球竞赛的推动,这类计算机将迎来重大发展。

阅读更多

list of 4 itemsend of list

一位未被官方排名认可的巨人

美国控制着世界上大多数最强大的超级计算机,其中 El Capitan 位居榜首,其次是 Frontier,而 Aurora 的性能高达 1012 petaflops。

德国的 Jupiter Booster 位列第四,而微软的 Eagle 计算机位列第五,这反映了云计算的发展趋势。

在亚洲,日本的富岳超级计算机排名第七,芬兰的LUMI超级计算机排名第九。然而,世界正在见证向人工智能超级计算机的转变。

随着竞争的焦点转移到图形芯片的数量上,大型公司正在减少对政府的依赖,并建设巨型数据中心。

在此背景下,尽管 Colossus 没有被正式列入超级计算机名单,但它仍然是世界上最大的人工智能超级计算机,因为它专注于人工智能计算,而不是科学计算标准。

与OpenAI (与微软合作)和 Anthropic(由亚马逊支持)等竞争对手不同,xAI 通过 Colossus 独立构建其计算能力。

XAI 设计了这台超级计算机,它能够从根本上重新定义人工智能的能力,其主要目标是训练名为“Grok”的大型语言模型。

Colossus 允许 Grok 的模型整合趋势事件、交通状况、公众情绪以及从 X 平台和特斯拉传感器网络衍生的其他数据,这使得这些模型与依赖静态数据集的传统大规模语言模型有所不同。

它的用途不仅限于训练 Grok 模型;特斯拉的自动驾驶和人形机器人技术、SpaceX 的模拟以及 Neuralink 的脑机接口研究也丰富了它的功能。

该计算机的开发代表着一项重大成就,因为 XAI 在 122 天内将一座废弃工厂改造成了最大的人工智能训练基地,而传统数据中心通常需要 4 年时间才能建成。

19 天内,这台电脑就拥有了 10 万个英伟达 H100 图形芯片。

计算机启动后,XAI 在 92 天内进行了快速扩容,增加了图形芯片的数量,增加了 50,000 个 H100 图形芯片、50,000 个 H200 图形芯片和 30,000 个 GB200 图形芯片。

经过此次扩展,计算机的总功耗达到约 300 兆瓦,内存数据传输速度为每秒 194 拍字节,每台服务器的网络传输速度高达每秒 3.6 太字节,存储容量超过艾字节。

Colossus 没有使用风扇,而是依靠液冷系统来支持各种工具和服务,例如 Nvidia 的 Spectrum X 以太网网络平台。

与此同时,特斯拉的 Megapack 电池组负责管理电力需求和应对断电情况,从而保持超级计算机的稳定运行。

通过这些组件的协同工作,“Colossus”旨在满足人工智能相关任务的计算需求。

大型企业正在减少对政府的依赖,并建设巨型数据中心(盖蒂图像)

从“巨像1”到“巨像2”

Colossus的成功巩固了XAI在人工智能基础设施领域的地位。然而,与竞争对手计划建造的千兆瓦级计算机相比,其约300兆瓦的容量似乎显得较为有限。

为了保持其优势地位,该公司启动了“巨像2”项目,这代表着人工智能基础设施的质的飞跃。

理论上,Colossus 2 看起来像一个普通的数据中心,但实际上是由几个巨型数据中心整合而成的。

高峰时期,它的耗电量高达 1.2 吉瓦,足以供两百多万户家庭使用。

巨像二号是巨像一号计算机的扩展版,巨像一号是世界上第一台功率超过 1 吉瓦的人工智能超级计算机。

XAI 为该计算机提供了首批 13 万个 GB200 图形芯片,计划最终提供 55 万个 GB200 和 GB300 图形芯片,所有阶段的总目标是 100 万个图形芯片。

XAI计划在2026年中期开始进行潜在的扩建,使其总容量达到3吉瓦。

在当前竞争激烈的市场环境下,扩张计划至关重要,尤其是在量子计算领域取得进展的情况下。谷歌的 Sycamore 处理器在性能方面超越了最快的超级计算机,而 Willow 量子芯片则有望通过改进纠错功能实现更好的性能。

微软也开发了自己的量子处理器,名为 Majorana 1,并且正在与 OpenAI 合作开展一个数据中心项目,该项目旨在容纳一台名为 Stargate 的人工智能超级计算机。

美国控制着世界上大多数最强大的超级计算机(法国媒体)

这些巨头正在改变力量平衡

马斯克从英国密码破译人员在 1943 年至 1945 年间开发的计算机“巨像”(Colossus)中汲取灵感,将其命名为“巨像”。该计算机被认为是世界上第一台可编程电子数字计算机。

最初的“巨像”设备是为了控制战略情报信息而开发的,它帮助破译了德国指挥部与其遍布欧洲的军队指挥官之间发送的加密信息,使第二次世界大战的持续时间缩短了几个月,拯救了数万人的生命。

就像最初的计算机通过破译信息改变了战争的进程一样,现代计算机试图通过控制信息并在人工智能领域获得技术优势来改变技术格局。

这台新计算机体现了马斯克改变世界的愿景,正如最初的计算机改变了历史进程一样,它的重要性不仅在于它是最大的人工智能计算机,更在于它代表了实现通用人工智能的道路。

总之,随着人工智能模型对计算的需求不断增长,超级计算基础设施的发展速度也在加快,而 Colossus 则凸显了改变人工智能未来的雄心壮志,其方式与最初的 Colossus 改变世界的方式如出一辙。

来源: 半岛电视台