为云服务注入“芯”动能解决AI时代的算力难题

2021-07-06 16:18:56

5月19日，谷歌推出新一代人工智能ASIC芯片TPUv4，运算效能是上一代产品的2倍以上。尤其值得注意的是，由4096个TPUv4单芯片组成的POD运算集群，可释放高达1 exaflop(每秒10的18次方浮点运算)的算力，超过了目前全球运算速度最快的超级计算机。目前，TPUv4已应用于谷歌数据中心，预计年底之前向谷歌云用户开放。

解决AI时代的算力难题

人工智能的训练、推理和自学习，无不基于大量的数据处理，对算力有着极高的需求。如今，这种需求的增长速度正在超越芯片的算力提升速度。据OpenAI统计，人工智能训练任务中使用的算力呈指数级增长，每3.5个月翻1倍，而趋近物理极限的摩尔定律正在放缓脚步，无法满足每18个月晶体管数量提升1倍的原定目标。

巨量的数据和多样的数据类型，导致串行计算的CPU难以满足多元计算场景的要求，计算芯片种类走向多元，GPU、FPGA、ASIC被引入人工智能场景。谷歌研发的TPU，就是ASIC芯片的代表性产品之一。

中国工程院院士王恩东近日在公开演讲中表示，在计算和存储资源池中，除了传统的CPU和GPU之外，还可以运用更多新型的计算芯片、存储介质和互联技术，进一步提升数据中心的处理能，典型的例子就是谷歌TPU。

“与GPU相比，TPU采用低精度(8位)计算，以降低每步操作使用的晶体管数量，是同代CPU或者GPU速度的15～30倍。同时，TPU还可以进行池化，实现了TPU之间的高速互联，也就是TPU POD，并对外提供TPU算力服务。”王恩东指出。

本次推出的TPUv4，对系统内部的互联速度及架构进行优化，以进一步提升互联速度。据悉，TPUv4集群的互连带宽是大多数其他网络技术的10倍，可以提供exaflop级别计算能力。Google CEO桑达尔·皮查伊(Sundar Pichai)表示，1exaflop相当于1000万人同时使用笔记本电脑的累加算力。此前要达到1 exaflop，需要一台专门定制的超级计算机。

为云服务注入“芯”动能

相比通用处理器，围绕深度学习、机器学习进行优化的TPU有着更高的设计门槛和生产成本。不过，谷歌并未选择批量产出TPU并对外售卖，而是用于谷歌数据中心并以云服务的形式进行销售。近年来，谷歌以TPU为抓手，持续提升谷歌云的布局广度和应用精度。

从2015年起，谷歌基于TPU逐步完善从云到端的布局。在面向云服务的TPU和TPU POD之外，还推出了为端到端、端到边提供AI算力的Edge TPU，赋能预见性维护、故障检测、机器视觉、机器人、声音识别等更广泛的场景。

同时，谷歌也在推动TPU在芯片设计等专业领域的应用。在《通过深度强化学习进行芯片布局》的论文中，谷歌团队展示了基于机器学习加速芯片设计的模型，能将芯片布局规划从传统方法的几周时间降低到6小时之内。基于TPU加速器，该模型不仅能提升芯片设计效率，还能实现出色的PPA(功率、性能和面积)。

新思科技中国副总经理、芯片自动化事业部总经理谢仲辉表示，如果芯片设计上云且配合深度学习技术的优化，投入产出比将实现几十倍甚至上百倍的提升。

基于面向更广泛、更专业场景的AI赋能能力，谷歌云能够进一步吸引垂直领域企业及科研机构用户，与微软、亚马逊等云计算厂商展开差异化竞争。

标签：动能芯片 AI 算力