当前位置:主页>物联网

Cadence:从语音到图像,人工智能关键技术一个都没少

作者:  来源:中国电子商情

发布时间:2018-11-22

0k

最近三年,人工智能发展不断提速。无人驾驶、智能家居、无人工厂、无人物流、智慧医疗、智慧教育、服务机器人等,人工智能已经全面进入到这些与我们的工作和生活密切相关的应用领域。业界普遍认为,人工智能将引发新一轮的产业革命。为此,科技巨头们纷纷加紧在这场科技盛宴中找寻商机,并不断加大资金投入。Cadence近日就发布了两款Tensilica系列全新产品:Tensilica DNA 100处理器IP、Tensilica HiFi 5音频/语音数字信号处理器IP,分别将产品目标锁定在设备端神经络推理、人机交互等设备测人工智能应用。

DNA 100处理器IP:将设备端AI应用处理器的性能提升4.7倍
在人工智能日益普及的今天,对于那些需要小型电池供电的物联网应用而言,必须面对这样一个难题,那就是,运行最新的神经网络模型会使系统的功耗预算严重不足。目前,市场急需具有更高效架构的处理器产品。“Cadence全新Tensilica DNA 100处理器采用的创新稀疏计算引擎解决了这些局限性,在任何功耗预算下均能提供优秀性能。”Cadence公司IP事业部Tensilica资深产品总监Lazaar Louis在产品发布会上表示。

Lazaar Louis称,Tensilica DNA100处理器IP是业界首款深度神经网络加速器(DNA)AI处理器IP,它的高性能和高能效,使其非常适用于自动驾驶汽车(AV)、ADAS、视频监控、机器人、无人机、增强现实(AR)/虚拟现实(VR)、智能手机,以及智能家居等物联网领域的设备端神经网络推理应用。

性能和能效双提升:神经网络推理需求涉及不同量级的人工智能处理和多种神经网络类型。他们需要一种可扩展的架构,无论在低端物联网应用,还是在汽车应用,都具备同样有效,要想做到这一点,需要数十甚至数百TMAC。对于DNA 100处理器而言,较其他采用相似阵列尺寸大小的乘法累加运算(MAC)解决方案,其性能提升达 4.7倍,每瓦特性能提升高达2.3倍。

此外,DNA 100处理器可以在所有神经网络层运行,包括卷积、完全连接、LSTM、LRN和池化。单个DNA 100处理器可以轻松从0.5扩展到12有效TMAC;并可以通过堆叠多个DNA 100处理器,实现数百TMAC,尤其适用于计算密集型设备端的神经网络应用。DNA 100处理器还集成了Tensilica DSP,以适应DNA 100处理器内部硬件引擎当前不支持的新神经网络层;同时,还使用Tensilica指令扩展(TIE)指令集实现Tensilica Xtensa核心的可扩展性和可编程性。由于DNA 100处理器拥有独立的直接存储器访问(DMA),因此无需新增控制器即可运行其他控制代码。


图1 Tensilica DNA 100 处理器方框图

提升性能的两大关键技术:为了有效提升性能,DNA 100处理器采用了两项创新技术。一是采用创新的稀疏计算引擎,二是有效提高乘法累加运算(MAC)利用率。神经网络的特征在于权重和激活函数的固有稀疏度,加载和乘以零会造成其他处理器不必要的MAC消耗。首先,DNA 100处理器的专属硬件计算引擎移除了上述两项任务,利用稀疏度提高能效并降低计算量。其次,神经网络再训练有助于提高网络的稀疏度,并通过DNA 100处理器的稀疏计算引擎实现最高性能。此外,DNA 100处理器还利用更小的阵列实现最大吞吐量。比如,在4K MAC配置环境下,ResNet 50推理性能预计能实现每秒高达2550帧(fps)和3.4TMAC / W(在16 nm工艺)。

完整的AI软件平台:DNA 100处理器兼容最新版本的Tensilica神经网络编译器(Tensilica Neural Network Compiler),支持Caffe、TensorFlow、TensorFlow Lite及包括卷积和循环网络在内的广泛神经网络等高级AI框架。因此,DNA 100处理器是视觉、语音、雷达、激光雷达和通信应用设备端推理的理想之选。Tensilica神经网络编译器利用全面优化的神经网络库函数,将任意神经网络映射为可执行且高度优化的高性能代码。所以,DNA 100处理器为不同网络类型提供了强大的软件生态系统支持,包括分类、对象检测、分割、重复和回归。 此外,DNA 100处理器还支持安卓神经网络(ANN)API,可用于安卓设备端的AI推理。

由于DNA 100处理器是一种可扩展的架构,因此可以覆盖低端物联网应用甚至是复杂的汽车应用,加之完整的AI软件平台以及强大的合作伙伴生态系统,这些都是DNA 100处理器最引人关注突出的特点。

HiFi 5 DSP:将基于神经网络的语音识别算法性能提高达4倍
随着数字家庭助手普及度的快速上升,语音控制用户界面已经成为厂商开发创新消费产品的重要考量。高级DSP算法正在不断革新,以便消除噪音,从复杂环境分离并提取说话者的语音,提高识别准确率。此时需要更好的DSP处理能力和能效。另外,因为延时、隐私保护和网络可用性等原因,基于神经网络的语音识别算法需要将更多任务放在本地运行,而不是云端。

Tensilica DSP IP是Cadence公司的拳头产品,在音视频领域,HiFi DSPs是最受欢迎的产品。Tensilica HiFi 5 DSP是Cadence最新推出的首款面向AI语音及音频处理优化的DSP产品。相比上一代的HiFi 4 DSP,第五代HiFi DSP的音频处理性能提高2倍,神经网络(NN)处理性能提高4倍,是数字家庭助手和车载娱乐系统语音控制用户界面的理想选择。


图2  HiFi 5 DSP性能一览表

据Cadence公司IP事业部Tensilica技术营销总监Yipeng Liu介绍,HiFi 5 DSP性能的提升主要得益于两个方面的技术创新,一是在保证分辨率的前提下采用较低运算位数,此举可降低存储器容量;二是将浮点运算转换成定点运算,以消除内部数据传输的带宽瓶颈。

HiFi 5 DSP共有5大关键特性:第一,采用5个超长指令字(VLIW)插槽架构,支持每循环发出2个 128-bit负载;第二,预处理和后处理的MAC性能比HiFi 4 DSP提高2倍,具体表现在:支持每周期8个32x32-bit MACs或16个16x16-bit MACs,可选每周期8个单精度浮点MACs;第三,神经网络处理MAC性能比HiFi 4 DSP提高4倍。具体包括:每周期32个16x8或16x4 MACs,可选每周期16个半精度浮点MACs;第四,全新的HiFi 神经网络库为神经网络处理(特别是语音任务)提供专门优化的库函数。这些库函数可以与主流机器学习框架轻松集成;第五,优秀的软件兼容性。HiFi 5 DSP完全兼容HiFi产品线拥有的超过300个为HiFi优化的音频语音编解码器以及语音增强软件包。

在边缘设备执行AI运算是现代数字家庭市场面临的不争事实,HiFi 5 DSP在保证优秀前端处理(包括回音消除,降噪)性能的同时,全新的32-MAC每周期神经网络引擎原生支持更小的形重,是运行复杂语音识别算法的高效解决方案。在实际应用中,产品制造商可以将HiFi 5 DSP作为处理核心,基于其浮点运算带来的2倍性能提升,再借助相应的图形配置工具即可实现所需的强大音频功能。

0k