12月15日消息,近日,EETimes对英特尔的显卡战略和发展前景进行了梳理分析。
在他们看来,英特尔新发的Xe架构是为开发更多全场景适配显卡做铺垫。同时,英特尔近日发行的独立显卡“DG1”弥补了英特尔的技术短板,并将在市场上获得一定反响。
英特尔在发布两款Xe GPU后,成功跻身独立显卡制造商行列。然而,“参与”和“引领”之间有很大的区别。从休闲玩家的笔记本电脑到高端游戏台式机,从入门级安卓游戏硬件到超级计算机,英特尔的显卡战略几乎无所不包。很显然,英特尔想成为显卡领域的领导者,但是英特尔真的可以吗?
过去,计算机显卡主要有两种用途:游戏和专业可视化(ProViz)。游戏硬件包括街机、游戏机和个人电脑。ProViz硬件主要用于计算机辅助设计(CAD)、数字内容创建(DCC)、医学成像和各种视觉模拟需求。在2005年后,GPU逐渐应用于各类高性能计算(HPC)应用。
如今,计算机显卡的应用场景不再局限于游戏、ProViz或HPC,但随着新应用场景的出现,适配问题愈发凸显。比如,高并行的GPU能为人工智能、深度学习(DL)/机器学习( ML)应用程序提供支持,但往往需要在传统的游戏和ProViz数据格式之外,获取额外的数据格式支持。云端游戏显卡和服务器端图形渲染应用专为游戏打造,但是这类显卡并非数据中心的最佳选择。
若想成为显卡领跑者,英特尔必须开发全系列的显卡,涵盖传统用途、HPC和新兴应用场景。而这项任务的艰巨性无需多言。
近几个月,英特尔终于推出了近20年来第一款独立显卡,同时透露了更多的显卡战略细节。我们现在就来领略一下英特尔的雄图大略,同时听取专家的分析意见。
一、英特尔Xe架构:高度平行、用途多样三年前,英特尔再次投身独立显卡研发,邀请业界大牛Raja Koduri加入英特尔,成立核心和视觉计算小组(Core and Visual Computing Group)来专攻独立显卡。
当时,英特尔明确表示,将以客户端、数据中心和高性能计算细分领域为服务对象,更好地处理人工智能、图形处理(游戏、模拟、ProViz、AR/VR等)、机器学习等高性能需求任务。
为此,英特尔曾尝试推出代号为“Larrabee”的多核处理器。按照设想,这款显卡能够在满足图像处理需求的同时,承担高性能计算负载。然而,由于英特尔执意想采用x86架构,这次尝试最终失败了。
Koduri掌舵后,英特尔开始研发高度平行架构“Xe”,Xe架构能够适应不同的工作负载需要,算力在TFLOPS(每秒万亿次的浮点运算)到ExaFLOPS(每秒百亿亿次的浮点运算)区间不等,具有较强的场景适应性。
截至目前,英特尔已推出Xe-LP低功耗系列,用于集成核显、入门级独显。在未来几年,英特尔还计划发布三套Xe GPU架构,以满足不同工作负载需要。
此外,为了确保Xe GPU(以及AI加速器、GPU、FPGA等)简单可用,英特尔面向软件开发团队推出了oneAPI工具包(统一编程模型)以及零级接口规范(仅针对AI、GPU、FPGA产品)。
二、Xe-LP:96个EU,内存带宽提高2倍!近20年来,英特尔尽管缺席独显市场,却一直活跃在集成显卡领域,针对低价、低能耗的电脑推出了Gen架构。
Gen架构能够很好地适用于轻量级任务,但并不适用于数据中心等高性能要求任务。为此,英特尔推出了全新的Xe架构。
针对入门级产品,英特尔推出了Xe-LP,主要用于集成核显、入门级独显。
和去年推出的Gen 11架构一样,英特尔Xe-LP架构也能全面支持DirectX 12_1 API。此外,新架构带来了明显的性能优势,借助英特尔10nm Superfin制程工艺实现了更高的频率潜力(最高可达1.7GHz,上一代仅为1.1GHz)。
英特尔Xe-LP iGPU率先应用于第11代酷睿处理器“Tiger Lake”。Xe-LP iGPU的顶配版本具有96个执行单元(EU),运行速度可达1536 FP16 FLOPS/clock,每周期Texel纹理、Pixel像素渲染能力也从32、16提升到48、24。
内存子系统经改进,具有新的L1 Data Cache(数据高速缓存)、16 MB L3 Cache,同时支持端到端压缩及新的Ringbus互连技术,与上一代产品相比,可将带宽提高2倍。
和上一代架构相比,Xe-LP架构一大更新便是执行单元(EU)。全新EU集成了8-wide FP/INT ALU8和2-wide extended math ALU。8-wide FP/INT ALU8运算速度可达1 FP32/INT32 ops/clock、2 FP16/INT16 ops/clock和4 INT8 ops/clock,以更好地处理AI工作负载产生的各类数据。同时,两个EU共享线程控制(Thread Control),从而节省空间。