为云服务注入“芯”动能 解决AI时代的算力难题

2021-07-06 16:18:56

5月19日,谷歌推出新一代人工智能ASIC芯片TPUv4,运算效能是上一代产品的2倍以上。尤其值得注意的是,由4096个TPUv4单芯片组成的POD运算集群,可释放高达1 exaflop(每秒10的18次方浮点运算)的算力,超过了目前全球运算速度最快的超级计算机。目前,TPUv4已应用于谷歌数据中心,预计年底之前向谷歌云用户开放。

解决AI时代的算力难题

人工智能的训练、推理和自学习,无不基于大量的数据处理,对算力有着极高的需求。如今,这种需求的增长速度正在超越芯片的算力提升速度。据OpenAI统计,人工智能训练任务中使用的算力呈指数级增长,每3.5个月翻1倍,而趋近物理极限的摩尔定律正在放缓脚步,无法满足每18个月晶体管数量提升1倍的原定目标。

巨量的数据和多样的数据类型,导致串行计算的CPU难以满足多元计算场景的要求,计算芯片种类走向多元,GPU、FPGA、ASIC被引入人工智能场景。谷歌研发的TPU,就是ASIC芯片的代表性产品之一。

中国工程院院士王恩东近日在公开演讲中表示,在计算和存储资源池中,除了传统的CPU和GPU之外,还可以运用更多新型的计算芯片、存储介质和互联技术,进一步提升数据中心的处理能,典型的例子就是谷歌TPU。

“与GPU相比,TPU采用低精度(8位)计算,以降低每步操作使用的晶体管数量,是同代CPU或者GPU速度的15~30倍。同时,TPU还可以进行池化,实现了TPU之间的高速互联,也就是TPU POD,并对外提供TPU算力服务。”王恩东指出。

本次推出的TPUv4,对系统内部的互联速度及架构进行优化,以进一步提升互联速度。据悉,TPUv4集群的互连带宽是大多数其他网络技术的10倍,可以提供exaflop级别计算能力。Google CEO桑达尔·皮查伊(Sundar Pichai)表示,1exaflop相当于1000万人同时使用笔记本电脑的累加算力。此前要达到1 exaflop,需要一台专门定制的超级计算机。

为云服务注入“芯”动能

相比通用处理器,围绕深度学习、机器学习进行优化的TPU有着更高的设计门槛和生产成本。不过,谷歌并未选择批量产出TPU并对外售卖,而是用于谷歌数据中心并以云服务的形式进行销售。近年来,谷歌以TPU为抓手,持续提升谷歌云的布局广度和应用精度。

从2015年起,谷歌基于TPU逐步完善从云到端的布局。在面向云服务的TPU和TPU POD之外,还推出了为端到端、端到边提供AI算力的Edge TPU,赋能预见性维护、故障检测、机器视觉、机器人、声音识别等更广泛的场景。

同时,谷歌也在推动TPU在芯片设计等专业领域的应用。在《通过深度强化学习进行芯片布局》的论文中,谷歌团队展示了基于机器学习加速芯片设计的模型,能将芯片布局规划从传统方法的几周时间降低到6小时之内。基于TPU加速器,该模型不仅能提升芯片设计效率,还能实现出色的PPA(功率、性能和面积)。

新思科技中国副总经理、芯片自动化事业部总经理谢仲辉表示,如果芯片设计上云且配合深度学习技术的优化,投入产出比将实现几十倍甚至上百倍的提升。

基于面向更广泛、更专业场景的AI赋能能力,谷歌云能够进一步吸引垂直领域企业及科研机构用户,与微软、亚马逊等云计算厂商展开差异化竞争。

标签: 动能 芯片 AI 算力

关闭
新闻速递