极具潜力的国产AI芯片

2018年7月4日,百度创始人兼董事长李彦宏在BaiduCrea-te2018百度AI开发者大会上正式发布百度自研的中国第一款云端全功能AI芯片“昆仑”,其中包含训练芯片昆仑818-300,推理芯片昆仑818-100。接下来,小编就从这款“昆仑”芯片入手,为您剖析AI芯片的几大“流派”。

据悉,昆仑是迄今为止业内极具潜力的国产AI芯片设计算力最高的AI芯片,可以在100瓦+功耗下提供260TOPS(每秒260万亿次定数运算)性能。此前,NVIDIA用于汽车L4.L5自动驾驶的Xavier芯片(8核ARM CPU+512颗CUDA)的性能是30TOPS。
规格上,“昆仑”芯片采用三星14nm工艺,512GB/s内存带宽,由几万个小核心构成。
据介绍,“昆仑”具备高效(针对语音、NLP、图像等专门优化)、低成本(同等性能下成本降低10倍)和易用(支持paddle等多个深度学习框架;编程灵活度高;灵活支持训练和预测)三大特点。
“昆仑”是中国在大规模AI运算实践中催生出的芯片,基于百度8年的CPU、GPU和FPGA的AI加速器的研发经验,20多次迭代而生,未来将面向智能汽车、智能设备,语音图像等更多场景,是中国AI芯片的又一里程碑。
接下来,介绍完“昆仑”,我们就要说一下目前AI领域芯片的“流派”了。目前适合深度学习的人工智能芯片主要有GPU、FPGA、ASIC三种技术路线。三类芯片代表分别有英伟达(NVIDIA)的Tesla系列GPU、赛灵思(Xilinx)的FPGA和Google的TPU。GPU最先被引入深度学习,技术最为成熟;FPGA具有硬件可编程特点,性能出众但壁垒高。ASCI由于可定制、低成本是未来终端应用的趋势。
1、GPU
GPU使用SIMD(单指令多数据流)来让多个执行单元以同样的步伐来处理不同的数据,原本用于处理图像数据,但其离散化和分布式的特征,以及用矩阵运算替代布尔运算适合处理深度学习所需要的非线性离散数据。作为加速器的使用,可以实现深度学习算法。
GPU由并行计算单元和控制单元以及存储单元构成GPU拥有大量的核(多达几千个核)和大量的高速内存,擅长做类似图像处理的并行计算,以矩阵的分布式形式来实现计算。同CPU不同的是,GPU的计算单元明显增多,特别适合大规模并行计算。
2、FPGA
FPGA是用于解决专用集成电路的一种方案。专用集成电路是为特定用户或特定电子系统制作的集成电路。人工智能算法所需要的复杂并行电路的设计思路适合用FPGA实现。FPGA计算芯片布满“逻辑单元阵列”,内部包括可配置逻辑模块,输入输出模块和内部连线三个部分,相互之间既可实现组合逻辑功能又可实现时序逻辑功能的独立基本逻辑单元。
FPGA相对于CPU与GPU有明显的能耗优势,主要有两个原因。首先,在FPGA中没有取指令与指令译码操作,在Intel的CPU里面,由于使用的是CISC架构,仅仅译码就占整个芯片能耗的50%;在GPU里面,取指令与译码也消耗了10%~20%的能耗。其次,FPGA的主频比CPU与GPU低很多,通常CPU与GPU都在1GHz到3GHz之间,而FPGA的主频一般在500MHz以下。如此大的频率差使得FPGA消耗的能耗远低于CPU与GPU。
3、ASIC
ASIC(专用定制芯片)是为实现特定要求而定制的芯片,具有功耗低、可靠性高、性能高、体积小等优点,但不可编程,可扩展性不及FPGA,尤其适合高性能/低功耗的移动端。
目前,VPU和TPU都是基于ASIC架构的设计。针对图像和语音这两方面的人工智能定制芯片,目前主要有专用于图像处理的VPU,以及针对语音识别的FAGA和TPU芯片。
图像应用和语音应用人工智能定制芯片

 

转载自无线电

中小学技术教育的声音