芯原股份:满足边缘智能算力所需 有效控制成本功耗
作为人工智能的一个子集,边缘智能专注于在数据产生的位置(即网络的“边缘”)进行数据处理和分析,边缘智能的优势在于它能够提供低延迟、高可靠性的数据处理,同时由于减少了数据在网络中的传输,可有效保护数据隐私。此外,边缘智能可以在没有网络连接或网络不稳定的情况下工作,这对于某些应用场景至关重要。芯原微电子(上海)股份有限公司(简称“芯原股份”或“芯原”)执行副总裁、业务运营部总经理汪洋认为,相比于大模型等人工智能应用,边缘智能的应用场景主要集中在对实时性、安全性和隐私性要求较高的领域,除了如手机、电脑等个人消费电子,还包括智能家居、工业自动化、车联网、智慧城市、医疗健康、农业等,可以为各行各业带来更高效、更智能的解决方案。
本文引用地址://www.cazqn.com/article/202405/459331.htm芯原执行副总裁、业务运营部总经理汪洋
汪洋强调道,芯原作为一家领先的芯片设计服务,在开发边缘智能应用相关的IP时,充分参考边缘智能应用场景的实际需求,致力于在算力、功耗和成本之间取得平衡,基于这样的设计出发点着重采取了如下三种策略。
优化架构设计:通过创新的微架构设计,提高处理器的指令执行效率和吞吐量,在满足性能要求的同时减少不必要的功耗。
持续针对应用场景优化一系列的专用AI加速处理器:公司推出的专用AI加速器包括神经网络处理器(NPU)IP、高性能图形处理器(GPU)IP、GPGPU IP和创新的AI GPU IP子系统等,以针对AI工作负载提供高效的硬件支持,减少CPU/GPU的负担,从而降低总体功耗。
采用Chiplet架构:随着各行各业进入人工智能升级的关键时期,市场对于大算力的需求急剧增长。在此背景下,集成电路行业正经历从SoC(系统级芯片)向SiP(系统级封装)的转型,这一转变是出于对高性能单芯片集成度与复杂性的提升、性能与功耗的优化、良率与设计/制造成本改善等多方面的考量。
芯原既有丰富、优质的大量自有处理器IP,又有在14nm/10nm/7nm/5nm FinFET和28nm/22nm FD-SOI等先进工艺制程的丰富设计流片经验,因此在布局Chiplet方面,有充分的技术根基和先发优势,同时也是针对市场需求的顺势而为。汪洋表示芯原已在Chiplet领域进行了较长时间的调研和布局。公司创始人、董事长兼总裁戴伟民本人也曾是世界电子工程师协会(IEEE)多芯片模块国际会议的创办主席,以及IEEE芯片封装综合设计研讨会的创办主席,并于业界首次提出了“系统级封装(SiP)”这一专业术语。Chiplet则是SiP技术发展至今的重要表现形式之一。芯原正在以“IP芯片化(IP as a Chiplet)”、“芯片平台化(Chiplet as a Platform)”和“平台生态化(Platform as an Ecosystem)”理念为行动指导方针,从接口IP、Chiplet芯片架构、先进封装技术、面向AIGC和智慧出行的解决方案等方面入手,持续推进公司Chiplet技术、项目的发展和产业化。目前芯原已经取得了部分技术成果,并已经形成了产业化的客户芯片产品。
汪洋还提到了芯原在开发边缘智能应用相关芯片设计解决方案时,所采取的其他技术方面的举措:比如根据不同应用场景提供创新的电源管理域来极大地减少静态和动态功耗;基于芯原从IP到芯片设计的一站式技术平台,实现算法、硬件和软件的协同设计,确保三者高效协同工作,减少不必要的计算和数据移动;通过可伸缩、可扩展的架构设计,使客户可以根据自己的需求在成本和性能之间做出权衡,并灵活增添自己的技术模块等。通过上述方法,芯原可以在确保边缘智能应用所需的算力的同时,有效控制功耗和成本,满足市场对高性能、低功耗和成本效益的边缘智能芯片的需求。
据介绍,作为全球领先的一站式芯片定制服务和半导体IP授权服务企业,芯原拥有丰富的处理器IP储备,包括图形处理器IP(GPU IP)、神经网络处理器IP(NPU IP)、视频处理器IP(VPU IP)、数字信号处理器IP(DSP IP)、图像信号处理器IP(ISP IP)和显示处理器IP(Display Processor IP)这六大类处理器IP。特别的,芯原的六大类处理器IP可以进行原生协同工作,在流水线级做深度耦合,并开放接口给客户,使得客户可以集成自己的IP。针对IP间的高效协同工作,芯原还开发了统一帧缓冲压缩(Unified Frame Buffer Compression)技术,通过无损或有损压缩来连接所有像素处理器IP,以最大限度地减少SoC的整体DDR带宽,并实现高性能计算。此外,芯原还开发了FLEXA同步接口通信技术,用以高效地连接多个IP,从而形成面向低延时、低带宽和低功耗应用的子系统解决方案。凭借芯原在像素处理方面的关键技术和先进的嵌入式人工智能解决方案,公司推出了一系列创新的AI-ISP、AI-GPU、AI-Display、AI-Video 等IP子系统。
进入2023年,生成式AI的兴起为边缘端设备芯片制造商带来了新的技术要求,比如包括大量的浮点运算和矩阵运算的高性能计算能力、边缘处理器可能需要集成专用的高效AI加速器或神经网络处理器(NPU)、高效的存储器访问机制和带宽节省技术以及诸如更快的实时处理能力以及更高的安全性等。针对这些市场需求,汪洋介绍,芯原已经全面布局了AIoT和AIGC计算领域,主要成就包括以下几个方面。
在AIoT领域,芯原用于人工智能的神经网络处理器IP(NPU)业界领先,已被72家客户用于其128款人工智能芯片中,集成了芯原NPU IP的人工智能(AI)类芯片已在全球范围内出货超过1亿颗,这些内置芯原NPU的芯片主要应用于物联网、可穿戴设备、智慧电视、智慧家居、安防监控、服务器、汽车电子、智能手机、平板电脑、智慧医疗这十个市场领域。在全球顶尖的苏黎世联邦理工学院(ETH Zurich)计算机视觉实验室(Computer Vision Lab)发布的《AI Benchmark IoT性能榜单》中,位列前5的处理器中就有3款芯片内置了芯原的神经网络处理IP。
根据目前边缘人工智能市场的需求,芯原基于自身神经网络处理器IP可伸缩可扩展的特性,已发展了覆盖从高性能云计算到低功耗边缘计算的垂直解决方案;结合芯原多年来在多媒体处理领域的技术和IP积累,公司还推出了从摄像头输入到显示器输出(Glass-to-Glass)的完整的智能像素处理平台。此外,芯原的NPU IP与GPU IP、VPU IP等有机结合,可创新性地大幅提高后者的处理性能。例如,公司基于自研的GPU IP和NPU IP,推出了创新的AI GPU IP子系统,以应对人工智能不断发展的应用需求。
针对AIGC应用,大算力是支撑其快速发展演进的根基。OpenAI预估人工智能应用对算力的需求每3.5个月翻一倍,每年增长近10倍,这也极大地提升了GPGPU的市场应用空间,并对其性能提出了更高的要求。GPGPU利用图形处理器进行非图形渲染的高性能计算,具有很好的高强度并行运算能力,非常适用于处理人工智能、专业计算加速等应用。芯原基于约20年GPU的研发经验,所推出的GPGPU IP可提供从低功耗嵌入式设备到高性能服务器的计算能力,以高度可扩展的IP核重新定义了计算市场,以满足广泛的人工智能计算需求。
针对人工智能产业所面临的安全性和隐私性等问题,芯原还与谷歌合作以支持谷歌新推出的开源项目Open Se Cura。该项目是一个由设计工具和IP库组成的开源框架,旨在加速安全、可扩展、透明和高效的人工智能系统的发展。作为该项目基础设施的一部分,芯原提供了多个IP、低功耗芯片设计、板级支持包(BSP),并负责推动该项目的商业化。
针对AIGC在边缘侧的应用,汪洋认为AIGC模型的训练主要在云端进行,边缘智能硬件除了可以进行机器学习、神经网络加速等,也可以针对AIGC模型进行微调和推理,但是这需要高性能的计算芯片来作支撑。针对AIGC在云端、边缘端的部署,芯原为客户提供从驱动层到工具库,再到应用层软件的全面支持。其中,芯原提供一个全自主研发的模型部署工具链Acuity,包含模型转换、模型量化压缩、图优化、图编译等功能,可以快速帮助用户实现从模型到部署。支持Pytorch、Tensorflow、ONNX、TFLite等所有主流框架。针对AIGC类的大模型还支持4bit Group Quantization以及混合精度等功能,在尽量保证精度的情况下进一步压缩模型大小。通过Acuity工具链编译产生的Network Binary Graph(NBG)可以直接部署在VIPLite 运行时来完成端测推理。VIPLite 是一个超轻量的推理runtime,运行时的内存消耗最小约为200KB,支持Linux、RTOS甚至BareMetal。
针对边缘智能不断变化和增长的市场需求,汪洋直言,芯原将从多个维度持续升级和优化自有的技术。包括但不限于推出商用化的Chiplet解决方案,持续优化NPU、GPU、GPGPU、AI子系统等IP解决方案,通过为客户提供兼顾性能与能效比,具有增强的安全性能,支持更多AI框架,包括硬件、软件和开发环境在内的整体解决方案,来不断强化芯原在边缘智能领域的市场地位。
评论