至于燧原未来是否会保持云端 AI 训练芯片一年半一代的更新速度,张亚林表示目前暂不方便透露,但会精准执行其产品路线图。
想要在整个行业缺芯的大背景下精准执行产品路线图显然是一个巨大的挑战。在 2020 年疫情开始的时候,燧原准备了两套方案,同时发挥团队成员超过 15 年以上行业经验的优势,以及第一代产品开发过程中建立的供应链关系,最终保证产品的如期推出。
张亚林说:“燧原的整个供应链非常稳健,客户不必担心燧原产品的供货问题。”
在路线图精准下,为什么要把芯片面积做大?张亚林解释,燧原做芯片是高举高打,做大芯片和高端芯片是我们追求的目标,芯片的尺寸大小背后代表的是科技含量,对于中国芯片行业的贡献才是更大的价值体现。
但更大的芯片面积,就代表着更高成本。对此,张亚林表示:“一个成熟的产品必须考虑回报率(ROI)。我们需要做的是在定义产品时,计算好这个产品在市场上的整体收入和销量,从整个产品的成本角度和能够带给客户的价值定义产品。所以我们会持续关注前沿技术,但不会一味追求最新的技术,依然从芯片的性能、成本、功耗三方面考虑。”
邃思 2.0 的特性中,有两个中国首个,一个是首个支持 TF32 精度的 AI 芯片,另一个是首个支持最先进内存 HBM2E 的产品。
AI 业界一直在追求用更小的数据位宽实现更高的模型精度。因此,AI 模型不断优化,数据类型不断推新,AI 芯片作为底层支撑就需要在支持更多数据类型的同时消耗更低能耗。
TF32 代表的是张量单精度 32 位数据类型,相比传统的 FP32,TF32 在位宽更大的同时,消耗的带宽以及计算资源显著更小,被业界视为能够取代全尺寸单精度数据的革新性数据精度。
“目前业界的判断是,TF32 对大部分 AI 场景都有应用潜力。我们紧跟国际创新者的步伐,很早就布局数据进度的研究和分析,所以才有了燧原第二代产品就支持 TF32 精度。”张亚林同时指出:“邃思 2.0 支持全精度 AI 精度范围,包括 FP32、TF32、FP16、BF16 和 INT8。要用一个非常革命性的算力引擎囊括所有的精度,并且能够做到所有的精度的算力都有效,这是非常大的挑战。”
打破算力与存储之间的瓶颈,高效利用数据是 AI 芯片的另一大挑战。在国内最大的 AI 计算单芯片中,集成了 4 颗三星 HBM2E,支持最高 64 GB 内存,内存带宽最高达 1.8 TB/s。
“HBM2E 是目前全球最快的存储芯片,通过集成 4 颗 HBM2E,邃思 2.0 可以实现算力和存储带宽的匹配,实现更强算力。我们一直努力把理论算力和理论带宽匹配,有效控制整个产品的成本。采用最新的技术并不会使我们产品的整体拥有成本增加。”张亚林表示。
在燧原的产品理念中,更好的 AI 芯片只是构建 AI 系统的基础,客户最关心的并非底层 AI 芯片的参数。
AI 芯片的比拼上升到系统级“客户并不会直接关心芯片层面的理论参数,AI 落地的时候,他们更看重的是包括硬件、软件、互联的整体解决方案的有效利用率。所以我们已经从单芯片的维度升级到了更高的系统层面。这也是燧原推出整机多卡、多卡互联、分布式软件、云端部署的一整套交钥匙解决方案的原因。”张亚林说道,“我们也更强调通过低碳绿色化的云燧智算集群服务客户。”
AI 芯片的比拼要升级到 AI 系统的比拼,从用户角度,对比 AI 系统的维度就会包含五个:软硬件一体的性价比、能效比、易用性、迁移成本、范化性。
既然是系统,互联技术非常关键。目前,业界通过不同的远程直接内存访问技术(RDMA)进行互联,比如 InfiniBand、iWARP、RoCE。燧原采用的是自研 GCU-LARE 互联技术实现云燧 AI 加速卡的多卡集群互联,同时兼容业界其它 RDMA 技术便于与其它系统互连。
据介绍,燧原自研的 GCU-LARE 多卡集群互联技术,支持 6 个带宽 50GB/s 的卡间传输端口,总带宽达到 300 GB/s。
GCU-LARE 具备两大特色,一个是不需要传统互联技术的连接卡或桥接卡,可以直接通过线缆的方式直连,降低成本。另一个是能够根据用户的需求和机房的实际情况,定制不同的拓扑结构,能够轻松构建 4000 卡以上的大型训练集训拓扑,实现定制化集群产品 CloudBlazer Matrix。
在云燧 T20 的发布会上,燧原发布了云燧智算集群 CloudBlazer Matrix 2.0,最高可实现 1.3E(130000T)的单精度只能算力集群。
“云燧的互联接口在单口速度保持不变的前提下,接口数量从 T10 的 4 个增加到 T20 的 6 个,带宽提升 150%。用云燧 T20 可以打造中国 E 级单精度算力集群。”张亚林表示。
“在软件易用性和迁移成本方面,我们投入了大量精力。”