AI算力大战打到太空,英伟达前脚H100入轨,谷歌TPU后脚上天,中国玩家笑而不语
来源:36kr 16 小时前

英伟达和谷歌,抢着上天了!

搭载英伟达H100的卫星已经在这个月被送入太空,谷歌这边也不甘落后——

CEO劈柴哥表示要把TPU也发射上去,最早的两颗卫星2027初启程。

未来,两家都打算在太空建立起吉瓦级的数据中心。

网友表示,在太空部署算力的想法真的很酷。

不过这个赛道上,领先的既不是英伟达也不是谷歌,而是一家来自中国的公司,更早之前就已经开启了太空算力布局。

AI芯片要上天了

英伟达芯片上天,主要是由Inception计划孵化的初创公司Starcloud执行。

本月刚刚发射的Starcloud-1卫星搭载了H100,重60公斤,大小与小型冰箱相当。

之所以选择英伟达芯片,是因为Starcloud需要具备与地球数据中心相媲美的性能,而英伟达GPU在训练、微调和推理方面性能最佳。

Starcloud-1将接收来自合成孔径雷达(SAR)卫星群的数据,并在太空中对这些数据进行实时处理然后传回地球。

同时Starcloud还是Google for Startups Cloud AI Accelerator计划的“毕业生”,计划在轨道上使用H100运行谷歌的开源模型Gemma,证明大型语言模型在外太空运行的可行性。

Starcloud最早将于明年启动商业服务,后续还计划把Blackwell也送入太空,终极目标是建造一个功率达5吉瓦、跨度约2.5英里(约4公里)的轨道数据中心。

CEO Philip Johnston还预言,10年之内,新建的数据中心将全部建在太空。

谷歌这边起手稍晚了些,计划把自家的TPU送上太空,两颗原型卫星预计在2027年初发射。

谷歌把该计划命名为“太阳捕手计划”(Project Suncatcher)。

原因是计算星座中的卫星将全部通过太阳能供能,之间的通信链路也是通过自由空间光通信实现。

最早的两颗原型卫星将测试谷歌TPU在太空中的实际运行情况,同时对光通信链路进行验证,探索其执行分布式机器学习任务的可行性。

远期来看,谷歌的终极目标,也是在太空中建成吉瓦级的数据中心。

太空部署的优势和挑战

关于在太空中部署算力设施的优势,两家都进行了论证,谷歌甚至还为此专门发了一篇论文。

首先就是成本优势,Starcloud这边给出的数字认为,即使算上发射费用,太空能源成本也仅有陆基方案的1/10。

谷歌这边则给出了更具体的计算。

假设LEO发射成本降至每公斤200美元,则卫星的单位电力年均成本可降至810美元每千瓦年,与当前美国数据中心570到3000美元的电力成本区间相当。

并且发射成本呈现下降趋势,以SpaceX为例,历史数据显示其每年发射载重量翻倍,单价下降20%,若维持此曲线,预计2035年前可将每公斤的发射成本降低至200美元以内。

而当马斯克星舰实现重复使用时,发射成本有望降至每公斤60美元甚至15美元,成本持续且加速下降。

成本低的一个重要原因,就是电力更容易获取——

谷歌论文显示,太阳的能量输出超过人类总发电量的100万亿倍,在合适的轨道上,太阳能电池板的效率可比在地球上高出8倍,并且几乎可以持续发电,从而减少对电池的需求。

再来就是散热,与许多地球上的数据中心依靠蒸发塔利用淡水进行冷却不同,Starcloud的太空数据中心可以利用深空的真空作为无限的散热器。

英伟达与Starcloud联合开发了真空散热架构,通过卫星外壳的高导热材料将H100的热量传导至表面,再以红外辐射形式排向太空。

此外就是卫星数据的在轨处理——其他卫星所产生的数据,如果传回地面再做计算将耗费大量通信资源,有了天基卫星之后可以在轨完成运算,只把运算结果进行回传,从而减轻通信压力。

Starcloud对SAR卫星数据的处理,就是对这一路径的一种尝试。

谷歌这边还进行了更多验证。

比如通信链路,使用现成DWDM模块(如400G PM-16QAM光模块),在实验中已成功实现800Gbps单向(1.6Tbps双向)短距光通信,证明此类模块可用于小尺度卫星集群。

还有大规模卫星的控制,谷歌的模型显示,只需要适度的轨道保持机动,就维持星座的稳定运行。

还有TPU对辐射的耐受性,谷歌表示,即使是敏感的HBM组件也要在在累积剂量达到2000rad(Si)后才开始出现异常,这一数值几乎是预期五年任务剂量的三倍。

所以总的来说,天基机器学习计算的核心概念并未受到基本物理定律或不可逾越的经济障碍的限制,但也仍然存在诸多重大的工程挑战,例如热管理、高带宽地面通信以及在轨系统可靠性。

国产算力卫星已常态化商用

Starcloud这边刚把H100送上天,谷歌的TPU更是要等上一年多才能进入太空,但此时中国首个太空算力星座已经发射快半年了。

今年5月,之江实验室“三体计算星座”的首批12颗卫星已被送入预定轨道。

这十二颗计算卫星,每颗卫星均具备太空计算、太空互联的能力,还搭载了之江实验室承担研制的星载智能计算机等太空计算软硬件和天基模型,实现了“算力上天、在轨组网,模型上天”。

相比于传统的应用型卫星,计算卫星将单颗卫星的计算能力从T级提升至P级,首发星座在轨计算能力达到5POPS,极大地提升了单星高性能太空计算的能力。

这些卫星还能形成“互联网”一样的互联互通,卫星之间使用激光通信,通信速度最高可达100Gbps。

并且今年9月,该星座已经实现了常态化商业运行。

现在,随着英伟达和谷歌的加入,这场太空AI竞赛也越来越精彩了。

参考链接:

[1]https://blogs.nvidia.com/blog/starcloud/?linkId=100000388085273

[2]https://research.google/blog/exploring-a-space-based-scalable-ai-infrastructure-system-design/

简体中文 English