毫无疑问,边缘智能正在崛起,低功耗AI芯片才是未来!(二)

发布时间:2018-1-12 11:51    发布者:eaoogle_WSN
关键词: AI芯片 , 芯片 , AI , 羿戓信息
中星微电子
1999年,在国家工业和信息化部(原信息产业部)的直接领导下,在发改委、财政部、科技部、商务部、北京市人民政府和中关村管委会等有关部门的大力支持下,由多位来自硅谷的博士企业家在北京中关村科技园区创建了中星微电子有限公司,启动并承担了国家战略项目——“星光中国芯工程”,致力于数字多媒体芯片的开发、设计和产业化。
近二十年来,“星光”数字多媒体芯片产品广泛应用于个人电脑、宽带、移动通讯和信息家电等高速成长的多媒体应用领域, 产品销售已经覆盖了欧、美、日、韩等16个国家和地区,客户囊括了索尼、三星、惠普、飞利浦、富士通、罗技、华为、联想等大批国内外知名企业, 占领了全球计算机图像输入芯片60%以上的市场份额,使我国集成电路芯片第一次在一个重要应用领域达到全球领先地位,彻底结束了“中国无芯”的历史。2005年,中星微电子在美国纳斯达克证券市场成功上市,成为第一家在纳斯达克上市的具有自主知识产权的中国芯片设计企业。
2016年6月20日,中星微率先推出中国首款嵌入式神经网络处理器(NPU)芯片,这是全球首颗具备深度学习人工智能的嵌入式视频采集压缩编码系统级芯片,取名“星光智能一号”。这款基于深度学习的芯片运用在人脸识别上,最高能达到98%的准确率,超过人眼的识别率。该NPU采用了“数据驱动”并行计算的架构,单颗NPU(28nm)能耗仅为400mW,极大地提升了计算能力与功耗的比例。
目前“星光智能一号”出货量主要集中在安防摄像领域,其中包含授权给其他安防摄像厂商部分。未来将主要向车载摄像头、无人机航拍、机器人和工业摄像机方面进行推广和应用。
华为
华为麒麟970是华为于2017年9月2日在柏林消费电子展上正式对外发布的新款内置人工智能(AI)芯片。这款芯片将被用于华为下一代智能手机,主要用于抗衡对手苹果和三星电子公司。
该芯片采用了行业高标准的TSMC 10nm工艺,集成了55亿个晶体管,功耗降低了20%,并实现了1.2Gbps峰值下载速率。创新性集成NPU专用硬件处理单元,创新设计了HiAI移动计算架构,其AI性能密度大幅优于CPU和GPU。相较于四个Cortex-A73核心,处理相同AI任务,新的异构计算架构拥有约 50 倍能效和 25 倍性能优势,图像识别速度可达到约2000张/分钟。
高性能8核CPU,对比上一代能效提高20%。率先商用 Mali G7212-Core GPU,与上一代相比,图形处理性能提升20%,能效提升50%,可以更长时间支持3D大型游戏的流畅运行。
鲲云科技
鲲云科技于今年11月初完成了Pre-A轮融资,由星瀚资本领投,深圳云创、拓金资本跟投。公司目前正在进行A轮融资。
鲲云科技研发的星空和雨人两款AI芯片平台,可嵌入现有物联网产品对数据信息和视觉信息实时分析,监测异常数据提取有效信息,3W-10W低功耗使芯片支持移动、野外场景。针对30多层的深度学习网络,其芯片也可保证每秒处理16帧1080P分辨率的图像。
星空芯片主要基于历史数据及产品运用领域的准则对异常数据进行自动化检测,它每秒可对160G的时间序列数据进行实时分析。
雨人芯片基于深度学习算法,能够对复杂环境下的视觉信息分析理解。信用卡大小使其可嵌入视觉数据采集端,功耗为3W-10W,延迟不超过100ms。
目前,鲲云科技自主研发的产品和技术已经迭代到第二代,预计明年将会推出第三代产品,在功耗和性能方面将会有进一步的优化,并根据需要推出量产FPGA或者芯片。
——国外篇——
英伟达
虽然提起英伟达,大家第一反应还是其GPU和云端处理器,但其实英伟达也没放过设备端的低功耗AI芯片,尤其是在自动驾驶领域。
在5月的美国GTC大会上,英伟达宣布Xavier DLA面向所有开发者开源。Xavier是英伟达在2016年欧洲GTC大会上推出的最新自动驾驶SoC,结构上主要是由一组八核ARMv8处理器加上512个最新一代的Volta Cudacore组成,性能方面达到20 TOPS (基于8比特整数运算),同时只有20 w的能耗。它的创新之处在于,整合了CPU、GPU以及DLA三大处理器的优点。Xavier同时具备CPU的单线程性能,CUDA的并行加速能力,以及DLA的计算机视觉特殊功能。最新发布的Xavier集成了新的Volta GPU架构DLA是里面的inference加速器。
谷歌
据羿戓信息所了解,谷歌在2016年的I/O大会上推出了专门为加速深层神经网络运算能力而研发的一款AI芯片——张量处理器TPU(第一代)。谷歌表示,尽管在一些应用上利用率很低,初代TPU平均比那时候的GPU或CPU快15-30倍,性能功耗比(TOPS/Watt)高出约30-80倍。

图:TPU芯片布局图
2017年5月I/O大会上,谷歌发布了第二代TPU,峰值性能达到180TFLOPS/s。第一代TPU只加速推理,但第二代TPU新增了训练的功能。不仅如此,谷歌的用户还能通过专门的网络,在云端利用TPU构建机器学习的超级计算机。
在第二代TPU里,每个TPU都包含了一个定制的高速网络,构成了一个谷歌称之为“TPU舱室”(TPU POD)的机器学习超级计算机。一个TPU舱室包含64个第二代TPU,最高可提供多达11.5千万亿次浮点运算,内存400万兆字节,4倍快于当时市面上最好的32台GPU。
Cloud TPU带来的最大好处,则是谷歌的开源机器学习框架TensorFlow。TensorFlow现在已经是Github最受欢迎的深度学习开源项目,Cloud TPU出现以后,开发人员和研究者使用高级API编程这些TPU,这样就可以更轻松地在CPU、GPU或Cloud TPU上训练机器学习模型,而且只需很少的代码更改。
Mobileye(英特尔)
Mobileye 是以色列一家生产协助驾驶员在驾驶过程中保障乘客安全和减少交通事故的视觉系统的公司。公司在单目视觉高级驾驶辅助系统 (ADAS) 的开发方面走在世界前列,例如车道偏离警告 (LDW)、基于雷达视觉融合的车辆探测、前部碰撞警告 (FCW)、车距监测 (HMW)、行人探测、智能前灯控制 (IHC)、交通标志识别 (TSR)、仅视觉自适应巡航控制 (ACC) 等。
Mobileye并不只是一家无人驾驶软件公司,还是一家半导体芯片公司。公司供应的SoC芯片是旗下高级驾驶辅助系统(ADAS)的核心,对应的产品为支持无人驾驶的EyeQ系列芯片。2017年3月13日,英特尔宣布以每股63.54美元现金收购Mobileye,股权价值约153亿美元。
2017年12月,英特尔旗下Mobileye宣布将在2018年发布EyeQ4,2020年发布EyeQ5处理器,都针对无人驾驶平台设计,主打超低功耗,EyeQ5采用7nm FinFET制程工艺,而且支持双路系统,拥有更优秀的表现。
英特尔还公布了一组数据,对比了Mobileye® EyeQ5™和NVIDIA’s Xavier*深度学习效能,结果显示,Mobileye 的系统芯片能够提供更卓越的深度学习效能。英特尔表示,Mobileye EyeQ5将提供每瓦特2.4 DL TOPS(万亿次/每秒)的效能——这一数字比NVIDIA公开宣称的Xavier效能要高2.4倍。


Movidius(英特尔)
Movidius是一家专注于计算机视觉的创业公司,也是谷歌ProjectTango 3D传感器技术背后的功臣。2016年9月,英特尔宣布将收购Movidius。

2017年8月,英特尔发布了下一代Movidius视觉处理芯片,该芯片可提高尖端设备的处理能力,比如无人机、VR头盔、智能摄像头、可穿戴设备和机器人。其上最新的视觉处理单元(Vision Processing Unit,简称VPU)采用的是Myriad X系统级芯片,它配备了一个专用的神经计算引擎,支持边缘深度学习推断。芯片上的硬件块是专门针对深层神经网络而设计的,它以高速和低功耗来运行深层神经网络。英特尔说,深度神经网络加速器可以在DNN推断时实现每秒1万亿次运算。
苹果
苹果在今年发布的iPhone X中首次使用了A11 Bionic芯片。A11Bionic是一个六核处理器,有两个性能核心,四个能效核心——高低能效两种内核可以根据不同的需要,来达到理想的性能与能效表现。其中高能效内核用于应付密集型的重度任务,提升处理速度保证性能,而高能效内核则应用于日常事务,低能耗运行,从而保证电池续航能力的提升,享受更长的单次充电续航时间;工艺方面,A11采用了台积电10nm FinFET工艺,集成了43亿个晶体管。根据苹果给出的数据,A11比上一代快25%,能效提升了70%。
AI方面,A11 Bionic芯片上搭载了一个专用于机器学习的硬件——神经网络引擎(neural engine)。A11的神经网络引擎采用双核设计,每秒运算次数最高可达6000亿次,相当于0.6TFlops(寒武纪NPU则是1.92TFlops,每秒可以进行19200次浮点运算),以帮助加速人工智能任务,即专门针对Face ID,Animoji和AR应用程序。
A11同时支持Core ML,这是苹果在今年WWDC开发者大会上推出的一款新型机器学习框架。Core ML支持所有主要的神经网络,如DNN、RNN、CNN等,开发者可以把训练完成的机器学习模型封装进App之中。
NovuMind(异构智能)
NovuMind(异构智能)是由百度前人工智能杰出科学家吴韧博士带领一批全球顶尖的AI技术人才于 2015 年 8 月在美国加州硅谷成立的 AI 公司,主要为汽车、安防、医疗、金融等领域提供 ASIC 芯片,并提供芯片+模型+训练的全栈式 AI 解决方案。2016年12月,NovuMind获得洪泰基金、宽带资本、真格基金、英诺天使和臻迪科技等1500 多万美元的A轮融资,据悉该团队正在进行B轮融资。目前团队共有 50 余人,包括在美国的 35 名以及北京的 15 名顶尖技术工程师。
相较于英伟达的GPU 或 CadenceDSP等通用的深度学习芯片设计,NovuMind 专注于开发更有效进行推理 (interference)的深度学习加速器芯片。NovuMind AI 芯片的重点在于,不仅让一个小型的本地“终端”设备具有“看”的能力,而且还具备“思考”以及“识别”的能力,另外,这些都不需要通过数据中心的支持,不占用任何带宽,吴博士将之称为智能物联网(I2oT,Intelligent Internet of Things)。
NovuMind的产品暂未发布。据介绍,其芯片仅使用3X3卷积过滤器,通过使用独特的张量处理器架构直接对三维Tensor进行处理,新芯片将支持Tensorflow,Cafe和Torch模型。
NovuMind 的第一款 AI 芯片原型会在2018年1月CES上首次亮相。吴博士表示,到明年 2 月份,他希望应用程序都准备就绪,并能够在该芯片上实现耗能不超过 5 瓦进行 15 万亿次运算(15 TOPS);而 NovuMind 的第二款芯片,耗能将不超过 1 瓦,计划在 2018 年中期面世。


Gyrfalcon
Gyrfalcon今年初在硅谷成立,旨在开发低成本、低功耗、高性能的人工智能处理器,创始人均为硅谷华人人工智能科学家和半导体芯片资深工程专家及企业家。
Gyrfalcon第一代人工智能处理器芯片Lightspeeur2801S已于今年九月从TSMC下线,该芯片采用28nm工艺,拥有5.6 TOPS/Watt 的能效比,侧重于边缘推理模式,在人工智能边缘计算与数据中心机器学习领域相比市场上其他方案高出几个数量级。
Lightspeeur是基于Gyrfalcon自主APiM架构,该架构使用内存作为人工智能处理单元,能够消除在其他架构中的大量数据移动,极大降低功耗。这一架构支持真正的片上并行和原位计算,成功克服了由存储器带宽而导致的性能瓶颈。
Lightspeeur2801S约有28000个并行计算核,不需要使用外部存储单元用于人工智能推断,在图像处理速度达140帧/秒时功耗小于0.3瓦,支持卷积神经网络(CNN)、残差网络(ResNet)、循环神经网络(RNN)和长短期记忆(LSTM)等神经网络模型,其分布式内存块结构对CNN计算相当友好并且支持多层结构,每层的尺寸可以不同,内置模型压缩算法能够实现快速且低功耗的CNN计算。此外,Lightspeeur还同时支持Caffe、TensorFlow和MXNet等标准的开源深度学习系统。
groq
groq是由谷歌TPU初始团队离职创建的AI芯片公司,核心成员包括Google TPU的主要设计者之一Jonathan Ross。
官网资料显示,Groq将在2018年发布第一代AI芯片产品。这款芯片的运算速度将可以达到400万亿次每秒,每瓦特能进行8万亿次的运算。而谷歌最新一代的TPU才达到每秒180万亿次运算,Groq芯片的性能将会是谷歌TPU的两倍多。



本文地址:https://www.eechina.com/thread-522211-1-1.html     【打印本页】

本站部分文章为转载或网友发布,目的在于传递和分享信息,并不代表本网赞同其观点和对其真实性负责;文章版权归原作者及原出处所有,如涉及作品内容、版权和其它问题,我们将根据著作权人的要求,第一时间更正或删除。
您需要登录后才可以发表评论 登录 | 立即注册

厂商推荐

相关在线工具

相关视频

关于我们  -  服务条款  -  使用指南  -  站点地图  -  友情链接  -  联系我们
电子工程网 © 版权所有   京ICP备16069177号 | 京公网安备11010502021702
快速回复 返回顶部 返回列表