Arm:致力于成为边缘AI发展与创新的坚实基石
边缘智能是人工智能的一种部署形式,无论中央人工智能,还是边缘智能,都需要算力支撑。而集中和分布式计算呈现出相互促进和交替发展的趋势。作为移动处理器领域市场的引领者,Arm 的各类处理器内核在边缘端的MCU、NPU 和MPU 等领域引领着技术发展的未来。
本文引用地址://www.cazqn.com/article/202405/458596.htmArm物联网事业部业务拓展副总裁 马健
谈到边缘智能,Arm 物联网事业部业务拓展副总裁马健表示,伴随着Transformer与大模型的发展,AI模型的普适性、多模态支持,以及模型微调效率都有了质的突破,加上低功耗的AI 加速器和专用芯片被集成到终端和边缘设备中,边缘智能正变得越来越自主和强大。未来自动驾驶与机器人的大规模部署,更需要边缘智能的强大支撑。随着神经网络技术的不断进步和底层平台的支持,视觉和音频处理技术等经典用例将会不断优化,从而实现性能上的飞跃,为用户提供更好的体验。
除此之外,边缘AI也将随着大模型和生成式AI的崛起,用户体验的持续提升,数据量激增以及企业对数据价值的认可,成为行业变革的主要动力,例如特定工业场景中对种类繁杂的问题进行工业知识回答等。随着大模型持续通过量化、剪枝和聚类技术来缩减优化模型,使大模型适于在边缘和超级终端设备部署,大小模型云边端结合成为未来AI 产品的重要发展趋势,也是AI应用赋能行业发展的重要方向。例如,我们已经看到生态系统中的开发者在树莓派设备上评估运行包括LLaMA等在内的大模型。边缘部署大模型和生成式AI用例指日可待,而Arm已经为此做好准备,来挑战物联网与大模型、多模态AI 结合的性能与效率极限。
与此同时,随着ML 方法和模型愈加复杂,标准也在不断提高,在不久的将来,诸如ChatGPT 或Gemini的多种衍生产品将在边缘AI 设备上运行,通过实际应用带来更多益处。
边缘智能对算力和功耗要求都更为苛刻。在产品设计中实现低功耗设计是Arm 与生俱来的DNA,能帮助广大的合作伙伴降低能耗和成本。马健直言,Arm一贯秉承构建通用计算平台和生态的策略,不仅平衡性能与能效,更将软件的可扩展性和系统应用的开发成本作为一个关键的考量因素,进而助力生态系统合作伙伴实现最低的总拥有成本 (TCO)。
在边缘侧的物联网领域,Arm拥有非常成熟的处理器IP,比如适用于MCU和一些低功耗终端嵌入式设备的Cortex-M系列处理器,Arm也通过优化工具链以及增加对AI和ML的支持,不断对其进行优化。例如,Arm最新的Armv8.1-M架构就增加了Helium矢量扩展。
目前Cortex-M52、Cortex-M55和Cortex-M85均引入了Helium技术,由此助力嵌入式和IoT 开发者设计出更多支持ML和AI的低功耗芯片和解决方案。
芯片面积和成本对于嵌入式及物联网视觉应用至关重要,为实现视觉用例高性能低功耗的持续性发展,Arm推出的Mali-C55是Arm目前面积最小、可配置性最高的图像信号处理器。Mali-C55 的芯片面积仅为前几代产品的近一半,并且可提供更强大的功能,大幅减少功耗并延长电池续航时间,与此同时,还降低了这些设备的成本。
在NPU方面,ArmEthos系列AI加速器可以满足更高性能和更复杂的AI工作负载。近日,Arm推出了全新第三代面向边缘AI的NPU产品Arm Ethos-U85 NPU,支持低功耗MCU系统中的AI加速;此外,为了帮助合作伙伴简化系统开发,Arm同时推出了全新的物联网参考设计平台Arm Corstone-320,集成了Arm最高性能的Cortex-M CPU——Cortex-M85、Mali-C55 ISP 和 Ethos-U85 NPU,为语音、音频和视觉等广泛的边缘AI应用提供所需的性能。该参考设计平台涵盖了软件、工具和支持,其中包括Arm虚拟硬件。该平台的软硬件结合特性将使开发者能够在物理芯片就绪前便启动软件开发工作,从而加速推进产品进程,为日益复杂的边缘AI设备缩短上市时间。
无论是IP、ISP、AI加速器亦或是物联网参考设计平台的推出,在面积和功率受限的边缘侧应用中如何实现最佳性能和功耗的平衡,是Arm始终关注的焦点,也是不断突破技术,推动边缘AI创新的初衷。
相较于在云端进行数据处理而言,边缘智能在更接近数据采集源的端侧或边缘侧物联网网关完成数据处理的方式,可以加快决策速度、减少延迟、解决数据隐私问题、降低成本并提高能效,而且随着AI和ML提升本地智能化水平,在端侧完成决策的制定也得以实现。在设计边缘AI芯片和系统时,需要在计算能力和能效之间找到合适的平衡。高性能的处理能力往往伴随着更高的功耗,而边缘设备往往对功耗和成本都有着严格限制。
Arm此前发布的多种物联网参考设计包括Corstone-300、Corstone-310、Corstone-1000,及Arm智能视觉参考设计等,这些参考设计不仅包括了Arm或集成了合作伙伴IP的子系统,还提供工具链,尤其是一些ML的工具链。每一个参考设计都依据一些现有的用例进行设计,在支持这些用例的时候Arm也提供了一些软件参考设计和适用于这些用例的AI模型,都通过开源的模式提供给生态系统以及参考设计的用户。最新发布的Corstone-320不仅提供芯片计算子系统IP组合,还附带了软件、AI模型库和开发工具,以实现软件的复用,同时也利用了Arm强大的生态系统。它还附带了仿真Corstone-320完整系统的Arm虚拟硬件,以及单独的CPU和NPU的固定虚拟平台(FVP)模型,以简化开发并加速产品设计,支持软硬件并行协同开发。这种提供边缘AI和智能物联网计算子系统全套软硬件和工具链的方法,使得合作伙伴能够在一系列性能点上快速开发,并聚焦于打造差异化价值。
此外,ArmEthosNPU在软件工具链的一致性、易用性方面都有非常强大的优势。Arm生态系统合作伙伴们在使用最新的Ethos-U85时,可沿用之前Ethos的一系列工具链,例如Vela Compiler以及ML EvaluationKit都可从此前推出的Ethos-U55和Ethos-U65延展到Ethos-U85上,为开发者提供一致性的无缝开发体验。
在这里,马健着重强调Arm虚拟硬件对部署边缘智能的助力作用。在云端进行AI开发时,相对来讲,资源极其丰富,并且可以实现弹性扩展,所以开发者们不用担心AI应用程序在云端跑不起来。但是如果把AI应用部署在边缘侧或端侧,就会面临硬件设备五花八门,外设和内存配置不统一等诸多问题,但开发者又不可能买来所有配置的芯片和开发板进行测试。在这种情况下,使用基于Arm虚拟硬件对计算子系统或芯片开发板的仿真平台,可以迅速便捷地实现模型与目标硬件的适配。
Arm虚拟硬件已经在本土的百度智能云上落地,并且在国内的开发者社区中也正在进行基于Arm虚拟硬件的AI开发体验创造营,欢迎志同道合的开发小伙伴一起加入。
在算力分配方面,不论是将AI的处理全权交给CPU,或是结合GPU或NPU等协同处理器一起提供支持,马健很直接的表示,边缘AI 的发展趋势都与CPU相关。应边缘AI和嵌入式AI的市场需求,Arm推出了业界首款AI微加速器Ethos-U NPU, 包括Ethos-U55、Ethos-U65,以及最新发布的Ethos-U85。AI技术发展迅速,新模型、新算子还在不断涌现,而NPU AI加速器无法完全保证支持所有AI应用需要的算子。在这时CPU 是一个完美的补充,使应用得以持续运行。而引入Helium 矢量扩展甚至是矩阵拓展的Arm Cortex-A应用处理器和Cortex-M嵌入式处理器更需要在CPU处理器上实现高效的执行。
展望未来,AI正处于非常迅速的发展初期,尤其是边缘AI。Arm将持续通过强大的产品组合,对新的Transformer模型提供原生的支持,对工具链保持一致、易用的特性,帮助整个物联网生态更容易实现AI和ML的转型。在帮助生态减少碎片化方面,Arm作为一个领先的基础计算平台,始终聚焦软件生态标准以及硬件标准的投入。例如,SystemReady标准的建立就是实现在不同的、有差异化的Arm计算平台和芯片平台上,实现标准的软件包,比如Linux Ubuntu标准软件包和Yocto等其他软件包,无需改变就能运行在不同的Arm计算平台上。
在中国本土市场,Arm和百度飞桨 (PaddlePaddle)这一主流的AI框架也做了和Arm生态链、工具链的整合,所有这些努力都是使生态能够更加统一,使技术能够更加标准化,最终目的是使 AI 和软件开发者能够更便利地基于Arm架构、从云、边、端打造统一的计算平台,迅速地开发出所期望的新应用。
基于此,马健坦言,Arm 将成为未来边缘 AI 发展与创新的坚实基石。
(本文来源于《EEPW》2024.5)
评论