(CWW)在第二届“西部数谷”算力产业大会期间,主题为“算融星光,网聚银河”的算网融合分论坛同步举办。本论坛汇聚众多位工程院院士、国内算力领域的顶尖专家、学者,共同探讨新形势下,算力前沿技术未来的发展趋势。华为数据通信产品线数据中心网络领域副总裁张白发表了主题为《华为星河AI网络,高运力释放AI时代高算力》的演讲。
【资料图】
华为数据中心领域副总裁张白发表主题演讲
张白表示:“自2020年至今,AI掀起了科技新热潮,ChatGPT的出现无疑加速了AI发展的步伐,大模型引领AI进入新的发展阶段。大模型训练是个复杂的系统工程,网络基础设施是长稳训练的关键之一。华为提出星河AI网络,融合运得多、运得快、运得稳,三大优势,为客户提供大规模、高吞吐、高可靠的网络建设,释放AI时代高算力!”
运得多:大带宽,大组网
首先,AI场景中大模型是未来的趋势,适配万卡集群是网络最基本的要求,华为打造端到端200GE/400GE设备构建大带宽AI无损网络,4倍于业界规模,完美匹配AI场景诉求,支撑网络运得多。
运得快:高吞吐,性能加速
其次,华为采用算网一体化的方式部署,效率可以提升10倍以上,整个过程自动校验0配置差错,大大缩减了时间和人力成本。独创AI网络加速器,大大提高网络吞吐,以图片处理为例,传统场景每秒只能处理2330张图片,而华为网络每秒可以处理2924张图片,训练效率提升了20%,保障网络运得快。
运得稳:月级训练不中断
最后,AI训练实际上不会一路畅通,大规模高性能网络的运维也是一大难题,华为采用智能化运维保证训练全程实时可视,分钟级识别慢主机(丢包、超时延),保障集群持续稳定运行,月级训练无中断,护航网络运得稳。
华为星河AI网络,通过网络控制器、网络、计算强强联手实现算网一体融合,实现算力网络“运得多,运得快,运得稳”的目标,高运力释放AI时代高算力!论坛上,中国通信院云大所所长何宝宏也对此方案能力表达了深切认可。
目前,华为星河AI网络已在全球100+企业部署商用。面向未来,华为将继续携手客户和伙伴一起推动AI大模型创新变革,通过行业实践和验证加快AI产业化落地,引领社会发展的新进程。