智算成本居高不下，如何有效破局？

2024-05-27 09:51:40 51VPN服务中心 150

自ChatGPT横空出世以来，人工智能大模型的热度持续攀升。有观点认为，人工智能将引领第四次工业革命。然而，这一预言背后隐藏着一个问题：算力成本的高企。举例来说，GPT-3.5训练一次大模型的成本高达1200万美元，约合8700万人民币，而ChatGPT 4.0的算力需求则激增了68倍。面对这一“烧钱”游戏，我们该如何应对？

数据中心和智算中心形象图

国内智算成本高企的背后

首先，让我们来探究一下智算的“胃口”。智算的过程主要分为两步：推理与训练。推理过程就像是让AI模型进行“深思熟虑”，而训练过程则是让它们“勤学苦练”。这两个阶段都对计算资源和电力有着巨大的需求。

硬件设备价格昂贵：智算离不开高性能计算机（HPC）和GPU等硬件设备。这些高端设备价格高昂，而且许多关键设备还依赖进口，这无疑进一步推高了成本。以H100为例，据美国金融机构Raymond James称，H100的成本约为3320美元，但英伟达对客户的批发销售价格介于25000美元至30000美元之间，而同时受到美国政策限制，成为稀有资源。

电力成本高企：智算对计算资源的需求巨大，而这些资源的运行和冷却都需要消耗大量的电力。在国内，电力价格不菲，尤其是在一些大都市，电费无疑成了智算成本中的“大户”。北上广深等核心城市工业用电价一直保持高位，用电紧张。

人才和数据成本不可小觑：智算领域需要大批高素质人才，包括数据科学家、算法工程师和系统架构师等，随着智算需求的增长，这些人才的薪资也水涨船高。而数据作为智算的“燃油”，获取和处理高质量的数据同样需要投入大量资源。数据的采集、清洗、存储和传输等环节，都会产生可观的成本。

据了解，目前，国内企业在智算方面投入巨大，以1P算力的成本来看，硬件设备的采购成本大约为5000万元，电力和维护成本每年约1000万元，再加上人才和数据成本，整体支出堪称“天文数字”。

尽管如此，智算的需求仍在不断增长，特别是在金融、医疗、制造和交通等领域。为了保持竞争力，企业不得不持续增加智算的投入，形成了一个“成本高-需求高-投入高”的恶性循环。那么，企业该如何打破这个循环，有效降低智算成本呢？

破解之道

制冷、供配电节能技术的应用：液冷技术通过使用液体冷却系统，可以有效降低数据中心的温度，提高能效，减少能耗。这有助于降低电力成本；模块化的电力系统可以更灵活地满足不同负载需求，减少能源浪费，从而降低成本。例如，阿里浸没式液冷的应用，使PUE值降到1.09，液冷技术可以显著降低数据中心的能源消耗，实现绿色智算中心的目标。

东数西算，优化资源配置：电力成本低廉的西部地区利用“东数西算”战略，将数据计算任务从东部转移到资源丰富、电力成本低廉的西部地区。这有助于降低整体智算成本。同时，8大国家算力枢纽节点的20毫秒（ms）时延圈已覆盖国内主要城市，5ms时延圈已实现枢纽周边省市覆盖，这使得数据传输速度更快、可靠性更高。例如，贵州的智算中心已成为许多企业的首选地，通过将计算任务转移到此地，企业可以显著降低电力成本。

网络技术的进步：智算中心内部网络连接技术的不断改进可以提高数据传输速度、可靠性和安全性。例如，腾讯云通过自研星脉网络3.2T通信带宽和统一的接入层能力，打造了一个可以支持超过10万张卡并行计算，并且能够兼容多种GPU生态的算力集群，这有助于优化智算中心内部的通信，提高整体智算效率。

云计算，降低基础设施成本：云计算是降低智算成本的有效途径。企业可以通过使用云计算平台，减少自建数据中心的成本。云计算平台提供按需付费模式，企业可以根据实际需求灵活调整算力资源，避免资源浪费。例如，腾讯云和阿里云等国内领先的云计算服务商，已经为众多企业提供了高效、低成本的智算解决方案。

智算成本的高企无疑是国内智算行业面临的一大挑战。但是，通过采用节能技术、实施“东数西算”战略、提升网络技术和使用云计算等措施，我们有望有效破解这一难题，降低智算成本。随着技术的不断进步和政策的支持，国内智算行业必将迎来更加广阔的发展前景。

智算成本居高不下，如何有效破局？

主要业务

行业解决方案

关于我们

在线客服

智算成本居高不下，如何有效破局？

新闻中心

为您推荐

主要业务

行业解决方案

关于我们

在线客服