: IT/云计算水底下的云 IT/云计算 | 2024-08-14 13:44 脑极体

UDC已经来到了我们身边，并且正在加速。

曾几何时，UDC水下数据中心，就像《流浪地球2》泡在水里的根服务器，是一个只存在于科幻电影、猎奇新闻中，或者是海外顶尖科研机构用来“炫技”的“黑科技”。

如今，UDC已经来到了我们身边，并且正在加速。

今年7月我去2024世界人工智能大会，在一家中国计算厂商的展台“C位”，看到了一台泡在水中、正在运行的电脑。

原来，该企业研发的特殊液体，能够与电路板兼容，而且不会腐化电路。依托相关材料打造的液冷服务器，可以抵御电子元器件的天敌——“水”，让水下数据中心成为可能。

据现场工作人员透露，目前该企业已经与苏州达成合作，正在湖中部署水下数据中心。一是可以作为当地“新质生产力”的标杆项目，展现在智能计算方面的区域实力；二是有特别好的节能减排降耗效果，可以为当地一些AI企业和应用提供绿色算力。

那怎么才能用到水底的算力呢？答案是，云。

从云上获取AI算力，凭借天然的成本优势、灵活租用的弹性优势，成为AI 初创企业的首选。建设更节能、更绿色、成本更低的“云”， UDC水下数据中心也走进了云计算厂商的视野。

2014年微软首次提出了水下数据中心概念，希望为沿海人口提供高速云服务。2018 年微软正式将 855 台服务器沉到海里，与Azure 云进行对比。我国目前也有海底数据中心，核心业务就是算力服务，以及跟腾讯、阿里等云厂家的大批量直接合作，为它们提供更具成本优势的云端算力。

本文就来聊一聊，水底下的云，到底怎么把算力价格“打下来”？

“AI的尽头是电力”。大模型的参数量达到万亿级别，驱动着智算中心的组网规模向五万卡，甚至是十万卡级演进。而一个十万卡集群，可能耗尽一个城市的电量。为了供养AI大模型，全城人都不能开空调、看电视，这未免也太赛博朋克了。

不仅我们不愿意出现这种情况，其实云厂商也不愿意。有调研显示，水电费支出占到了数据中心运营成本的50%以上，而智算中心GPU的密度进一步增加，电量负荷会倍数增长，直接导致云厂商的成本激增。

为了减少电费，云厂商们可谓是想尽了办法。

有人把数据中心放到了乌兰察布、青海，有人放到了湖边（阿里巴巴千岛湖数据中心），有人放进了山洞（腾讯、华为），有人直接搬去了北极圈（Facebook Node Pole 数据中心、芬兰哈米纳港Google数据中心），还有人放到了海上（Google海上漂浮数据中心）、海底（微软Project Natick数据中心）。

万变不离其宗，就是减少依靠空调等电力设备降温的风冷，多靠自然环境中的空气或水，进行自然冷却。

而这些自然冷却方案中，水底下的云无疑是最有“减电”竞争力的。

显然，相比陆地数据中心，水下环境的复杂度更高，布线、维护更为麻烦，而且服务器本来就怕水，对水下数据中心的防水、防腐性能挑战更大，为什么还能成为一种选择？

水下数据中心的成本“第一刀”，就把自然冷却效果打到了“地板价”。

作为冷却效果最极致的解决方案，水下数据中心直接利用了水体的低温特性，比其他物质（如空气冷却、风力冷却）吸收更多热量，大幅减少了额外的冷却需求。

同时，由于水下环境本身就提供了有效的冷却，因此可以减少对空调系统的依赖和能耗。

可以说，利用水流带走热量，水下数据中心节能降耗的成本优势最为显著。

在陆地上建数据中心，自然要占用土地空间，除了土地成本之外，一些天然气温较低的寒冷内陆城市和地区，基础设施条件一般也没有沿海地区发达，比如北极圈，导致TCO总体拥有成本上升。

尤其是随着超万卡集群的到来，对陆地上的数据中心/智算中心配套设施，比如供电、承重、机房洁净度和走线架设计等提出了极高要求。

《面向超万卡集群的新型智算技术白皮书（2024年）》显示，由于超万卡集群的算力密度更高、功耗密度更高，线缆的布放量也随之增大，一个 1.8 万卡的智算集群，需要布放 10 万量级的线缆，这将对走线架的宽度和承重带来新的挑战。

可以说，陆地数据中心/智算中心的总体成本正在走高。

与之相比，水底数据中心的建设成本正在下降，二者之间的“剪刀差”越来越小。

一方面，由于湖泊、海洋的空间较大，建设方的选址范围更广，相比内陆地区，水下数据中心的土地成本更可控。

此外，水下数据中心往往采用高度集成、紧耦合、密封式数据舱，一些在陆地数据中心中是必需的设备，如冷却塔和压缩机等，在水下都不需要。设计得当的海底数据仓，故障率和运维成本更低。

2020年9月，微软将沉入海底两年的数据中心捞上来，评估发现，水下数据中心的服务器故障率，比传统数据中心更低，可靠性比陆地上的服务器高8倍。

这可能是因为，水下数据舱可以与多变的环境隔离，很少受到事故扰动。总之，广袤辽阔的水域，让无需与人类争夺土地资源的水下算力，价格“更香”了。

把服务器泡在水里，省水。这究竟是怎么一回事？

这就要提到一个指标：WUE（Water Usage Effectiveness），水资源利用效率。

很多人听说过PUE，却很少听过WUE，而想要推动环境可持续发展，实现碳中和，WUE也不得不降。

降低WUE，核心就是减少分子——输入数据中心的水量，主要由冷冻补水、冷却补水、加湿补水等生产用水组成。冷却过程中消耗的水资源越少，WUE就越高。

把数据中心泡在水里，就能减少生产用水吗？可以，而且甚至是0。

一方面，水下数据中心直接使用周围水体的低温来冷却服务器，无需蒸发散热，省去了传统数据中心中的冷却塔和冷水系统，用于冷却的水资源消耗等于0。

此外，水下数据中心冷却过程中蒸发的水分直接回到水体中，对于公共水源来说也几乎没有损失。一些干旱缺水的地区，如果利用湖泊、河流、地下水来降温，蒸发的水资源却未必能快速回到当地的水系之中，会给当地水环境带来负面影响。

2023年，美国亚利桑那州就因为担心水资源消耗问题，限制当地数据中心建设。国内，内蒙古乌兰察布市集宁区也出台了《关于禁止集宁区大数据企业使用地下水冷却降温的通知》，辖区内大数据企业一律禁止用地下水冷却降温。

而水下数据中心即使产生一些热蒸腾，也会很快被广阔的湖泊海洋而代谢掉，不会影响到当地的水循环。

水下数据中心虽然成本优势大，但AI云服务如果一味降本，可能会出现“降本增笑”的事故。

举个例子，西部数据中心的存算成本比东部更低，但一些东部企业考虑到传输时延、丢包率、业务可靠性等，宁肯多承担50%的成本，也要把数据放在东部，尤其是自动驾驶等对数据实时性要求较高的业务。这也是很多西部数据中心，上架率不高的重要原因。

水下数据中心的商业化困境在于，虽然价格低，但与AI需求没有充分适配，而AI又被云厂商看作是当下最关键的新增收入点。

水下的资源扩展性受限。云服务需要根据用户需求快速扩展资源，增加算力规模、存储空间，而水下数据舱的出厂、下水都有一定的时间周期（微软官网显示，Natick从工厂到运行要90天），而目前陆地上的智算中心，采用模块化建设只需一个月左右就能落成，能更快满足AI算力需求。

目前，微软也宣布暂停了Natick项目，据说要在后期加强安装、维修机器人等方面的研究，看来远离人类活动的水下环境，仍不适合大规模部署数据中心。

另外，对水下算力的纳管和管理，也给云厂商提出了挑战。目前水下算力的占比还比较小，云厂商要整合和管理这些异构资源，确保不同来源的算力可以无缝集成，实现最佳性能，并让用户便捷简单地使用这些资源，需要投入大量的资源进行技术和系统、平台的研发。

一些积累不够深厚的中小型云厂商，可能出现“酱油（管理平台）比鸡（算力）贵”的情况，并不能靠成本优势来提升综合竞争力。

徐志摩曾在《偶然》诗中写道：“我是天空中的一片云，偶尔投影在你的波心。”目前来看，AI云服务和水下数据中心，恐怕还无法长相厮守、成为彼此的唯一。

2024年5月，Natick项目第二期已经开始，反映出微软对云数据中心解决方案的持续追求，也让“水下数据中心”成为中国不能落后太远的一条赛道，更适合作为科技自立、科技强国的一张名片，与国资云、央国企云、科研云一同试点探索。

而商业化属性更强的云服务商，仍需要聚焦在陆地上。幸好中国地形地貌丰富、基础设施完善，有广阔天地来探索“极致性价比”。

从这个角度说，算力，从来不是一家计算企业或一个行业的事，而是一个举世参与的系统工程。算力即国力的时代，才刚刚开始。

-END-

本文由脑极体投稿一鸣网，本文仅代表作者个人观点，文章非经授权请勿转载，

向一鸣网投稿，请点击投稿按钮，详情请参阅《一鸣网投稿须知》。

互联网人都在关注的微信号

难道你还没有关注？

其他作品

: 芯火三十年：根芽时代（2000-2010）

: AI 1.0公司的节节败退

: 万恶的Deepfake，为什么百禁不绝？

: 未来医疗：从医技数字化2.0到全局变革

: 《黑神话：悟空》下的科技众生相

其他作品

猜你喜欢