葡京信誉博彩(2)
综合来看,训练芯片由于对算力的特殊要求,只适合在云端部署,而且多采用的是“CPU+加速芯片”类似的异构模式,加速芯片可以是GPU,也可以是FPGA或者是ASIC专用芯片。
AI训练芯片市场集中度高,英伟达和谷歌领先,英特尔和AMD正在积极切入。推理在云端和终端都可进行,市场门槛相对较低,市场参与者较多。
云端推理芯片除了传统的英伟达、谷歌、赛灵思等芯片大厂外,Groq等国际新兴力量也在加入竞争,国内寒武纪、比特大陆也有不错表现;终端推理芯片市场较为分散,场景各异,参与者除了英伟达、英特尔、ARM和高通之外,国内企业如寒武纪、地平线、云知声、云天励飞等在各自细分领域均有所建树。
GPU擅长云端训练,但需与CPU异构、功耗高且推理效率一般
GPU(GraphicsProcessingUnit)是一种由大量核心组成的大规模并行计算架构,专为同时处理多重任务而设计的芯片。
正是由于其具备良好的矩阵计算能力和并行计算优势,最早被用于AI计算,并在云端获得大量应用。
GPU中超过80%部分为运算单元(ALU),而CPU仅有20%,因此GPU更擅长于大规模并行运算。以英伟达的GPUTITANX为例,该产品在深度学习中所需训练时间只有CPU的1/10不到。
但GPU用于云端训练也有短板,GPU需要同CPU进行异构,通过CPU调用才能工作,而且本身功耗非常高。
同时,GPU在推理方面需要对单项输入进行处理时,并行计算的优势未必能够得到很好的发挥,会出现较多的资源浪费。
FPGA芯片算力强、灵活度高,但技术难度大国内差距较为明显
FPGA(Field-ProgrammableGateArray)即现场可编程门阵列,该芯片集成了大量的基本门电路以及存储器,其灵活性介于CPU、GPU等通用处理器和专用集成电路ASIC之间,在硬件固定之前,允许使用者灵活使用软件进行编程。
FPGA在出厂时是“万能芯片”,用户可根据自身需求,用硬件描述语言对FPGA的硬件电路进行设计;每完成一次烧录,FPGA内部的硬件电路就有了确定的连接方式,具有了一定的功能;输入的数据只需要依次经过各个门电路,就可以得到输出结果。
FPGA应用于AI有以下优势:
(1) 算力强劲。
由于FPGA可以同时进行数据并行和任务并行计算,在处理特定应用时效果更加明显,对于某一个特定的运算,FPGA可以通过编辑重组电路,生成专用电路,大幅压缩计算周期。从赛灵思推出的FPGA产品看,其吞吐量和时延指标都好于CPU和GPU产品。
(2) 功耗优势明显。
FPGA能耗比是CPU的10倍以上、GPU的3倍。由于在FPGA中没有取指令与指令译码操作,没有这部分功耗;而在复杂指令集(X86)的CPU中仅仅译码就占整个芯片能耗的约50%,在GPU里取指与译码也会消耗10%至20%的能耗。
(3)灵活性好。
使用通用处理器或ASIC难以实现的下层硬件控制操作技术,利用FPGA可以很方便的实现,从而为算法的功能实现和优化留出了更大空间。
(4)成本相对ASIC具备一定优势。
FPGA一次性成本(光刻掩模制作成本)远低于ASIC,在芯片需求还未成规模、深度学习算法暂未稳定需要不断迭代改进的情况下,利用具备可重构特性的FPGA芯片来实现半定制的人工智能芯片是最佳选择。
正因为存在上述优势,FPGA被广泛用于AI云端和终端的推理。国外包括亚马逊、微软都推出了基于FPGA的云计算服务,而国内包括腾讯云、阿里云均在2017年推出了基于FPGA的服务,百度大脑也使用了FPGA芯片。
从市场格局上看,全球FPGA长期被Xilinx(赛灵思)、Intel(英特尔)、Lattice(莱迪思)、Microsemi(美高森美)四大巨头垄断。其中,赛灵思和英特尔合计占到市场的90%左右,赛灵思的市场份额超过50%,国内厂商刚刚起步,差距较大。