从数据中心到智算中心：大模型时代的智能算力新格局

2024-11-01 08:42:34 51VPN服务中心 35

在“京东云智算专场”第二场直播活动中，主题围绕“【大模型时代，我们需要什么样的智算中心？】”展开。中国信息与通信研究院产业与规划研究所副总工程师王青与京东云裸金属产品研发负责人徐梓耀深入剖析了大模型时代的算力需求，探讨智算中心的独特特性和未来发展趋势。

大模型的快速进步从实验室走向实际应用，推动着产业化算力需求急速增长。王青指出，大模型对算力的需求主要体现在规模、性能以及异构性三方面：

规模需求：大模型的参数量不断扩展，对计算资源需求呈现指数级增长。未来，万卡集群将成为大模型基础设施的关键配置，支撑训练大规模数据的高密度计算环境。
性能提升：大模型需要高精度和复杂算法支撑，这推动了加速芯片、微架构的创新。例如，芯片级到集群级的智能算力扩展要求部署高效的并行计算能力，同时提升加速库、优化编译器等软件工具的性能，以更好地利用算力资源。
异构算力：随着大模型应用的拓展，异构计算需求不断提升，涵盖GPU、CPU、NPU等多类型芯片的组合，形成跨平台、多元化算力资源池，适应不同应用场景的复杂计算需求。

徐梓耀从芯片、服务器到多服务器集群三个层次剖析了智算中心的架构本质。他强调，智算中心的核心是通过“互联网+分布式智能计算”实现“本地化体验”的智算服务，提供高效的计算和实时的智能支持。

王青补充指出，随着大模型的普及，智算中心的架构不同于传统数据中心，更加注重计算、网络和存储的整体优化，强调数据传输速度、任务调度效率以及资源利用率，构建出高性能的计算集群和高速互联存储系统。

计算：为适应智算服务的高功率需求，京东云推出“阿尔法”T系列（风液型）和L系列（液冷型）智能算力模块。它们支持20-50kW和20-100kW的功率密度，L系列采用全预制化的冷板液冷系统，并支持45天内快速交付。
网络：智算中心为大模型的深度学习需求提供高效网络支撑，需兼容高速、无损的数据传输，如RDMA、RoCE网络。京东为H100/H800卡建议使用400G IB网络，A100/A800卡则建议200G的RoCE或IB网络，保证高并发连接和数据吞吐率。
存储：智算服务需处理海量数据，京东云研发的“云海”分布式存储系统，支持EB级存储容量和海量文件管理，适配国产服务器，并且提供公有云和私有化的灵活部署方案。

徐梓耀特别提到，绿色低碳是智算中心发展的关键需求。京东云智算中心采用智能精维平台，将节能重点放在硬件与运维两个层面，推出的“节能宝”解决方案可降低数据中心能耗约15%，显著提升整体节能效果。

直播中，两位专家还深入分析了智算中心的应用场景和用户需求。大模型带来的算力需求推动着数据中心从传统通用算力向智能算力演进，预计未来智算中心将成为新一代算力基础设施的核心，支撑更广泛的AI和大数据应用，为产业智能化提供持续动力。

主要业务