# AI时代的网络:需求与创新网络在AI大模型时代扮演着关键角色。随着模型规模不断扩大,多服务器集群成为解决训练问题的主要方式,这也奠定了AI时代网络"上位"的基础。相比过去单纯用于传输数据,如今网络更多用于同步显卡间的模型参数,对网络密度和容量提出了更高要求。网络需求主要源于三个方面:1. 庞大的模型体积:训练耗时与模型参数量成正比,而单设备计算速率有限,因此如何利用网络扩大"设备数"和"并行效率"直接决定了算力。2. 多卡同步的复杂沟通:模型切分至单卡后,每次计算都需要进行对齐,对网络传输和交换提出了更高要求。3. 昂贵的故障成本:大模型训练持续数月,中断会造成巨大损失。网络已成为堪比飞机、航母的复杂系统工程。网络创新主要集中在以下方向:1. 通信介质更迭:光、铜与硅三大介质各有优势,LPO、硅光等新技术助力降本。2. 网络协议竞争:NV-LINK、Infinity Fabric等片间通信协议与IB、以太网等节点间通信协议角逐。3. 网络架构变化:叶脊架构之外,Dragonfly、rail-only等新架构有望成为超大集群的演进方向。投资建议关注通信系统核心环节和创新环节的相关公司。未来网络创新将在"降本"、"开放"和算力规模之间寻求平衡。
AI时代网络需求激增 创新方向聚焦降本与开放
AI时代的网络:需求与创新
网络在AI大模型时代扮演着关键角色。随着模型规模不断扩大,多服务器集群成为解决训练问题的主要方式,这也奠定了AI时代网络"上位"的基础。相比过去单纯用于传输数据,如今网络更多用于同步显卡间的模型参数,对网络密度和容量提出了更高要求。
网络需求主要源于三个方面:
庞大的模型体积:训练耗时与模型参数量成正比,而单设备计算速率有限,因此如何利用网络扩大"设备数"和"并行效率"直接决定了算力。
多卡同步的复杂沟通:模型切分至单卡后,每次计算都需要进行对齐,对网络传输和交换提出了更高要求。
昂贵的故障成本:大模型训练持续数月,中断会造成巨大损失。网络已成为堪比飞机、航母的复杂系统工程。
网络创新主要集中在以下方向:
通信介质更迭:光、铜与硅三大介质各有优势,LPO、硅光等新技术助力降本。
网络协议竞争:NV-LINK、Infinity Fabric等片间通信协议与IB、以太网等节点间通信协议角逐。
网络架构变化:叶脊架构之外,Dragonfly、rail-only等新架构有望成为超大集群的演进方向。
投资建议关注通信系统核心环节和创新环节的相关公司。未来网络创新将在"降本"、"开放"和算力规模之间寻求平衡。