年,深度学习持续推动着计算行业的发展进程,专家称,在年,人工智能社区将加大对高性能和高效推理引擎的需求。 当前的深度学习系统都是利用先进的计算能力定义网络、大数据集、访问大的计算系统等,并以此实现其任务目标。可惜的是,这种高效的深度学习系统对于处理功能强大、内存大小和带宽都有限制的嵌入式系统(如汽车、无人机、物联网设备等)并不适用。这一问题的存在为将神经网络系统引入终端设备的技术创新提供了广阔的发展前景。 美国Movidius公司的首席执行官RemiElOuazzane表示:“为终端设备引入人工智能是一个势不可挡的大趋势。” 法国原子能与可替代能源委员会(CEA)的研究人员MarcDuranton在回答“是什么将人工智能带向终端系统”的问题,他列举了三个因素:安全、隐私和经济,这三个因素加速了将数据引入终端系统的进程。Duranton表示,将数据尽可能早的转化为信息是一个势不可挡的趋势。 图为CEA研究人员MarcDuranton的照片 "比赛"已经开始 芯片厂商已经充分认识到了科技发展对推理引擎不断增长的需求。Duranton表示,对于许多后移动时代的半导体公司来说,推理引擎已经成为了一个新的发展“突破口”。 半导体供应商美国Movidus公司、Mobileye和Nvidia公司都竞相开发了可在嵌入式系统内执行学习功能的超低功耗、高性能的硬件加速器。 谷歌在今年推出的张量处理单元(TPU)是机器学习芯片创新史上一个重要的节点。谷歌称TPU是“比商用FPGA和GPU性能更好的芯片”,该加速器可用于AlphaGo系统,旨在击败人类冠军。然而,谷歌从未谈论过TPU的结构细节,该公司表示TPU将不会在商业市场出售。 许多片上系统的设计者认为谷歌的机器学习芯片需要定制架构,因此他们在设计学习芯片时,也一直在试图模仿谷歌的设计架构。同时,他们也在质疑,目前是否存在一个基准工具可以用来衡量深层神经网络(DNN)在不同硬件上工作时的性能表现。 软件工具N2D2 CEA的研究人员表示,他们已经为不同的推理引擎设计硬件体系架构做了充足的准备。CEA开发了一个名为N2D2的软件框架,基于此框架,设计人员能够设计并生成相应的DNN架构。Duranton表示:“利用该工具,我们能为DNN选择适合的硬件系统。”同时他承诺,在年的第一季度,他们将开放该工具作为开源资源供大家使用。 该工具不仅可以在识别精度范围内比较不同的硬件,还能比较其处理时间、硬件成本和功耗等参数。Duranton表示,这是非常关键的,因为不同的硬件系统实现不同的功能所需的深度学习参数也是不同的。除此之外,N2D2也为现有的商业硬件如多核CPU、GPU和FPGA等提供了标尺。 图为CEA设计的N2D2软件结构示意图 边缘计算的“障碍” CEA一直在研究如何把深层神经网络引入到边缘计算。当问及“将深层神经网络引入到边缘计算的障碍”的问题时,Duranton表示:“很明显,“浮点”服务器解决方案不能应用到边缘计算,因为功率、尺寸和延迟的限制,还有其他的局限,如带宽和存储器的大小受限等。” CEA的研究人员在研究神经网络的性能的过程中发现,其可包容固有的计算误差,这使得神经网络成了“近似计算”的候选者。基于此,我们就不一定需要二进制编码了,因为时间编码如脉冲编码可以在边缘计算中产生更为有效的结果。 脉冲编码之所以有吸引力,是因为脉冲编码是基于事件的编码,能够显示其在真实的神经系统中是如何进行数据编码的。此外,基于事件的编码还可以兼容专用的传感器和预处理器。 与神经系统编码相类似的编码是通过模拟和数字方式共同实现的,这使得研究人员能够制造出更小的硬件加速器以减少不必要的能源消耗。 过渡芯片“P-Neuro” CEA的目标是开发一个能够从传感器中提取有效数据的具有深度学习功能的神经电路。 在实现这一目标之前,CEA策划了几个过渡步骤。开发工具如N2D2对于设计者设计定制的解决方案是非常重要的。 此外,为了将DNN应用到边缘计算,研究人员需要用一个真实的硬件去验证。为此,CEA提供了一个名为P-Neuro的超低功耗可编程加速器。 目前的P-Neuro神经网络处理单元基于FPGA。然而,CEA旨在将基于FPGA的神经处理单元转变成基于ASIC的神经处理单元。 实验过程中,Duranton利用基于FPGA的P-Neuro展示了一种人脸识别的神经网络应用。实验还比较了P-Neuro与嵌入式CPU的区别,通过对人脸提取的幅图像进行分析,证明了CNN应用在不同系统中的运行表现是一致的。 如下图所示,P-Neuro的运行速度是每秒幅图像,能源效率为幅图像每瓦。相比于嵌入式GPU(TegraK1),基于FPGA的P-Neuro在MHz的频率下运行时,其性能表现为TegraK1的2倍,能源效率为TegraK1的4-5倍。 图为嵌入式系统与P-Neuro的性能比较图 欧盟项目 CEA的研究人员表示,P-Neuro只是一个建立在二进制编码全CMOS器件上的过渡芯片,该研究小组正在研究将P-Neuro建立在脉冲编码的全CMOS器件上。 该项目名为NeuRAM3,其芯片具有超低功耗、可扩展和高度可配置的神经架构的特点。我们的目标是制造一个在特定的功能上增益为传统的数字解决方案50倍的芯片。同时,作为欧盟地平线计划的一部分,该项目追求“制造一个可支持国家最先进机器学习的具有神经架构的智能芯片”。 图为神经芯片处理器结构示意图 图为神经芯片处理器的部分参数 CEA参与到了项目的研发之中。CEA的研究目标与NeuRAM3项目相一致,包括开发单片集成的3D技术及对集成的RRAM的使用。 Reita解释说,与IBM的类脑芯片TrueNorth相比,NeuRAM3项目开发的混合信号多核神经装置应该可以显著降低功耗。 图为与IBMTrueNorth的性能对比 参与到NeuRAM3项目的其他机构分别为:欧洲微电子研究中心(IMEC),IBM苏黎世公司、法意ST微电子公司、意大利国家研究委员会(CNR),瑞士苏黎世大学和德国雅可布大学。 小编勤恳劳作,欢迎请喝咖啡? 赞赏 人赞赏 北京中科高效抗白个性施术北京治疗白癜风多少钱啊转载请注明原文网址:http://www.loveyouocococ.com/kfzlgj/11211.html |