新闻中心

EEPW首页 > 物联网与传感器 > 编辑观点 > MCU+NPU,Arm引领物联网全面智能化时代

MCU+NPU,Arm引领物联网全面智能化时代

作者: 时间:2024-04-17 来源:EEPW 收藏

人工智能作为过去两年以及未来几年注定爆火热点应用,始终缺乏足够的落地方案确保盈利能力,即使目前最火爆的生成式GC)依然属于烧钱阶段。因此,支撑未来商业价值的,并不只是人们看到的大模型和AIGC,还需要更多终端节点对人工智能应用的支持。

本文引用地址://www.cazqn.com/article/202404/457745.htm

算力成本是人工智能应用中不可回避的话题,毕竟从算力开销上来说,单纯把所有计算都放在云端不仅带来的是庞大的算力构建费用,更是因为大量数据的反复传输而带来能效方面的开销。因此,将算力资源合理的分配到云端和边缘侧可以更好地发挥不同节点的处理资源,将复杂AI推理和训练放在云端而将边缘侧的简单数据处理和反馈交给边缘端算力处理,这种部署能够有效提升AI应用的价值。随着边缘侧处理单元的性能提升,终端节点的计算能力已经逐渐开始能够满足一定程度的AI处理需求,同时处理器+AI专用处理器的异构结构在具有基础AI需求的节点部署也没有技术难度。因此相比于CPU+GPU的云端标准AI算力架构,在边缘节点的MPU+甚至+的架构更符合广泛人工智能的需求,并且是人工智能短期内最可能实现盈利的关键点(甚至已经在盈利)。

的边缘节点中,是目前最普遍的处理单元,虽然从内核架构上已经逐步开始增加NN和ML相关的处理能力,但从计算效率来说,传统的MCU架构并不适合高效地进行AI相关的计算,远不如这类处理器来得经济高效。作为在通用MCU内核方面已经占据领导地位的,除了为基于v8架构的内核增加了ML支持单元之外,也开始面对节点对更强大AI处理能力的需求推出解决方案。 全新的Corstone-320 物联网参考设计平台集成了 Arm 最高性能的 Cortex-M CPU——Cortex-M85、Mali-C55 ISP和全新的 Ethos-U85 NPU,为语音、音频和视觉等广泛的边缘 AI 应用提供所需的性能,例如实时图像分类和目标识别,或在智能音箱上启用具有自然语言翻译功能的语音助手。该参考设计平台涵盖了软件、工具和支持,其中包括 Arm 虚拟硬件。该平台的软硬件结合特性将使开发者能够在物理芯片就绪前便启动软件开发工作,从而加速推进产品进程,为日益复杂的边缘 AI 设备缩短上市时间。除了降低复杂性和加快产品上市进程,Corstone-320 还带来了以下优势:

·       提高性能:通过提升计算吞吐量,为各种物联网设备和用例提供合适的算力。

·       改善内存带宽:对数据宽度和内存通道等内存带宽方面进行改善,从而为像素流提供全系统范围的互连带宽。

·       提高能效:提高可持续性,以及延长电池续航时间。

·       一系列电源模式:包括睡眠模式、待机模式和电源岛。

·       降低设计成本,并缩短工程时间:通过“开箱即用的” Corstone-320,设计人员和工程师能够立即启动 SoC 设计。

·       更多的安全功能:包括启动时和运行时的安全机制,都集成至系统中。

·       可观察性:Corstone-320 中内置了所有组件的全面调试和跟踪功能。

·       改进的灵活性:Corstone-320 设计针对不同的细分市场、设备和用例中进行定制。

·       一系列的软件支持:包括大量开源软件等一系列的软件支持,可降低总体成本和复杂性。

图片.png 

从应用角度,边缘侧需要越来越多的语音、图像甚至视频级处理能力,而边缘侧对功耗、尺寸和计算效率的要求远比云端要更为严格。处理能力的提升需要以不增加或者尽可能少增加功耗为基础,这无疑需要对每个任务的处理效率都提出的更高的需求,因此,基于多核异构的解决方案就是最合理的选择。比如在硬件方面,Arm为物联网参考设计平台 Corstone-320 集成了以下前沿的IP:Arm Cortex-M85,Arm Mali-C55 ISP,全新的Arm Ethos-U85 NPU和Arm CoreLink DMA-350。其中Arm 最强MCU内核Cortex-M85 搭载 Arm Helium 技术,是目前MCU视觉应用的理想之选,能以高能效和高性能提供所需要的安全性和灵活性。Mali-C55绝佳地集成了高分辨率图像处理能力(可支持 4800 万像素的图像分辨率)、能效、可配置性及无与伦比的图像质量,适用于广泛的物联网视觉应用。同时,高度可配置的直接内存访问控制器 DMA-350,可实现高效的数据移动,从而提高系统性能和能效,并支持 Arm TrustZone技术。

参考设计平台是Arm在进入Armv8架构和Armv9架构时代为了更好提升系统级方案推出的创新解决方案,前有针对移动端的全面计算解决方案(TCS)和针对基础设施的Neoverse 这两个面向MPU为主的平台,如今Corstone-320 则作为面向物联网应用的全新参考设计平台,通过其预先集成、预先验证的参考设计模版,将帮助Arm的合作伙伴减少边缘智能芯片开发的成本和时间。为了加速边缘侧AI的部署,同时为更广泛、更高性能的设备提供高能效的边缘推理能力,Arm发布了迄今性能最高且能效最佳的 Ethos NPU—Ethos-U85。

 图片.png

2017年问世的Transformer 架构彻底改变了生成式AI,并成为许多新型神经网络的首选架构。基于Transformer架构的模型可利用注意力机制处理序列数据,并在机器翻译、自然语言理解、语音识别、分割和图像字幕生成等多项 AI 任务中实现优异的效果。这些模型可被调整和压缩,在不过多影响准确度的情况下,能高效运行于边缘设备上,并在许多边缘侧和端侧用例中发挥领先的优势。这种技术趋势极大地催生了NPU在边缘侧应用的技术需求。

相比于之前发布的U55和U65, Ethos-U85性能提升四倍,能效提高 20%,同时,其 MAC 单元可从 128 个扩展到 2048 个(在 1GHz 时,算力实现 4 TOPs)。Ethos-U85 NPU 支持TensorFlow Lite和PyTorch等AI框架,更重要的是Ethos-U85 支持 Transformer 架构和卷积神经网络 (CNN) 以实现 AI 推理。Transformer 架构将推动新的应用,特别是面向视觉和生成式 AI 用例中,对于理解视频、填充图像的缺失部分或分析来自多个摄像头的数据以进行图像分类和目标检测等任务非常有效。

除了 Ethos-U55 和 Ethos-U65 目前支持的算子,通过支持 TRANSPOSE、GATHER、MATMUL、RESIZE BILINEAR 和 ARGMAX 等运算,Ethos-U85 涵盖了对 Transformer 模型和 DeeplabV3 语义分割网络的原生硬件支持。Ethos-U85 也支持元素级算子链化。通过链化将元素级运算与先前的运算相结合,使 SRAM 不必先写入再读取中间张量。由此可凭借 NPU 和内存之间数据传输量的减少,提高 NPU 的效率。相比于 Ethos-U65,链化是 Ethos-U85 在效率提升上的新功能之一,其余还包括快速的权重编码器、优化的 MAC 阵列能效,以及提升的元素效率。

 

图片.png 

除了包括最新Ethos-U85 NPU在内的硬件支持之外,Corstone-320 同样拥有一系列的软件支持。Corstone-320软件套件包括固件、所有 IP 的驱动程序、中间件、实时操作系统 (RTOS) 和云集成、ML 模型和参考应用程序。这意味着软件开发者能够轻松选择其特定细分市场所需的组件,并使用所选开发工具为该设备构建物联网堆栈。开源应用程序演示了关键词识别、语音识别和目标识别用例。与此同时,Corstone-320 中包含的原型平台能使软件开发与 SoC 设计并行启动。软件中还包含了固定虚拟平台 (FVP),用于对构成完整 FPGA 系统的外设进行建模。通过使用 FVP,软件开发者无需硬件即可开始开发应用,从而加快开发速度。

Arm 通过软硬件解决方案,生态系统支持等,不断促进边缘 AI 应用的进展,以加速边缘 AI 的创新步伐。



关键词: MCU NPU Arm 物联网 AI

评论


相关推荐

技术专区

关闭