算力中心界限开始模糊诸多行业提供科学计算服务

2021-08-17 09:39:08

当今,“算力”越来越成为科技进步、经济社会发展的底座,但“算力”并非千篇一律。

20世纪60年代,为解决大规模数值计算、仿真模拟等科学工程计算问题,超级计算中心应运而生,至今仍以大国重器的形象为诸多行业提供科学计算服务。

21世纪前10年,互联网信息服务、高并发访问等网络计算与数据存储所寄的云计算中心开始落地,各大公有云平台拔地而起、攻城略地。

近10年来,人工智能(AI)计算中心开始出现,主要用来处理影像、语音、自然语言等识别问题,综合应用多种技术实现推理、训练模型开发。

这三类计算中心,虽然各自特点鲜明、用途有异,但超算与AI计算、云计算与超算、AI计算与云计算“我中有你、你中有我”的情形并不鲜见,相互之间的界限逐渐模糊。然而,随之而来的以偏概全、以此代彼的乱象,竟逐渐成了一些地方建设算力中心的“糊涂账”。

乱象源于缺乏相应测试标准

城市应该建设什么样的算力中心?如何推动算力中心健康发展?近日,在一场以“数智创新,算力赋能”为主题的2021算力中心健康发展研讨会上,中国工程院院士郑纬民等业内学者从不同角度提供了意见参考。

中国计算机学会高性能计算专家委员会秘书长、中国科学院计算技术研究所研究员张云泉在发言时提到,此前,某市建设了AI计算中心,号称算力是超级计算机的数万倍。“‘花钱少、算力高’这种不规范、不专业的对比让业内人士很反感。”

张云泉说, AI计算中心很热门,但如何引导其健康发展,“是当下行业面临的一个重要议题”。

国家信息中心2020年12月发布了《智能计算中心规划建设指南》,定义“智能计算中心”是基于最新AI理论,采用领先AI计算架构,提供AI应用所需算力服务、数据服务和算法服务的公共算力新型基础设施。

“自从AI成为‘新基建’,各地政府争先恐后,出钱建设AI计算中心,但总的来说,应用还不是太明确。”郑纬民在上述研讨会上说,无论超算中心还是AI计算中心,最重要的是应用匹配。“当前最应该做的事,不是以新基建之名撺掇政府建设算力中心,而是要真正做出来几个实际应用。”

这代表了业界务实的态度。中国科学院数学与系统科学研究院研究员张林波也提出,很赞同各类算力中心应该各自发挥所长,做最适合的事情。但他话锋一转:“AI计算现在有点咄咄逼人,好多人甚至觉得AI计算能够取代传统的科学计算。”

“这是宣传不当引起的概念混淆。”张云泉认为,在高性能计算(HPC)、云、AI融合发展的趋势下,要清晰界定三类算力中心各自的内涵与外延,以及它们之间的相互关系,明晰不同计算精度算力与不同应用之间的匹配。

对算力概念的混淆曾闹出过啼笑皆非的事。一次,张云泉向某学会领导汇报HPC的研制,不料却遭到“批评”:“现在都什么时代了,你还在谈高性能计算,太过时了。”

概念混淆之后紧跟着的是价格乱象。一般而言,算力配置不同会导致造价迥异——即使同等算力,不同的CPU主频、带宽及时延要求也会让机器造价差别巨大,但一些厂商拿AI计算中心“花钱少、算力高”作为卖点吆喝,就不属此类了。

道理很简单:同样一个对外标称100P的算力中心,用建设AI计算中心的预算一定造不出超算中心的效果。

“概念混淆、价格混乱的主要原因是没有对应的测试标准,孰好孰坏一测就知道了。”张云泉建议,要在行业中推行与AI计算平台相适应的标准。

清华大学教授陈文光与张云泉在2020年推出了相应的AIperf测试标准,并致力于将其国际化。但他坦言:“推出一个国际化的测试标准是很有难度的,后续还要努力。”

“蛮算”的AI计算

在实际应用中,传统超算最适合用于科学和工程计算,这类计算有可计算模型,可以发展有很高精度的算法,计算结果精度也非常高。但有些问题是科学计算力不能及的,如缺乏数学模型的问题和超高维问题。这时,以机器学习为代表的AI计算就派上了用场。

不过,张林波介绍,机器学习等是一种类似统计的方法,与科学计算相比其结果精度不高。另外,AI计算还有稳定性问题、模型泛化受限等问题。

他举例说,在新冠肺炎疫情暴发之初,许多人一窝蜂地用肺部影像识别来鉴定新冠病毒感染,发了很多论文,但后来发现这些论文的结论几乎没有可用的。

“图像识别是机器学习最擅长的领域,发生上述情况的原因可能是训练数据太小或是机理不清,但或许这才是AI计算要去深究的,比如摸清机理后设计更先进的算法等。”基于现阶段AI计算机的作用,张林波认为现在的“人工智能计算”简称为“智能计算”或“智算”有点误导人——“这样的AI计算并不‘智能’。”

“没有知识库、没有逻辑处理能力,当我们搞不清楚某问题的机理时,拿一个神经网络靠机器的规模去模仿它,这不叫‘智算’,叫‘蛮算’。”张林波说。

国家气象信息中心副总工程师沈文海对此产生了共鸣。他提出,气象部门也在做AI应用方面的探索,但都是各自为战——围绕某个痛点,如AI识别云图、台风规模和路径等,把数据拿来、接入计算资源、识别一番,确实有点“傻算”“蛮算”意味。

“我们缺乏一个长期计划或整个气象部门的AI规划。”沈文海认为,长此以往就有很大的弊端,一是没有对机理成因方面的探讨,二是低水平重复。

“制定一个覆盖整个气象部门的AI应用发展规划,确实很有难度,并且这会引发对算力中心的新需求。”沈文海说。

融合发展仍是趋势

对算力中心提出新需求的,还有时下热门的数字孪生。

数字孪生是机器学习领域非常重要的研究方向之一。在借由大量传感器将物理世界数字化、虚拟化的数字孪生世界里,AI可以做的事情很多,包括预测物理世界未来如何进一步演进、衍生。

中国科学院半导体技术研究所研究员李卫军说,数字孪生“绝对需要超大的一个计算系统”,因为它不仅需要包含神经网络计算,也需要很多逻辑计算。“这是一个大型的逻辑计算与抽象思维相结合的应用场景”。

从本质上来说,高性能计算和AI计算都是在模拟人的智能:前者模拟人的逻辑计算能力,后者模拟的是人的抽象思维。只不过,超级计算机现在在逻辑计算方面比人的计算能力强亿万倍,而AI计算机目前却只能用深度神经网络来获得一个近似的结果。

显然,两种不同的能力也不能用同一种标准评价孰好孰坏。

李卫军认为,将来数字孪生要发展,需要传统超算与AI计算实现融合,这是逻辑计算和抽象思维的一种融合,虽然它需要怎样的计算结构和算法目前还不得而知。

在HPC和AI融合发展的道路上,排在全球超算TOP500榜单前列的“大机器”先走一步。

日本“富岳”超级计算机(Fugaku)和美国“顶点”(Summit)不仅科学计算能力出众,而且能支撑大规模的AI计算(如图计算)需求。这缘于它们的异构架构——高性能CPU支撑其高精度浮点计算性能,大量加速芯片支撑深度学习应用。它们作为世界上最先进的计算机,多少代表着未来计算融合发展的方向。

但看似矛盾的是,AI与HPC的“分化”也是最近的事情。

张云泉介绍说,自从巨参数模型(如GPT模型)诞生以来,其算力需求对于现存的超级计算机是“致命的”——我国七八家国家级超算中心,都不具备解决千亿乃至万亿级模型参数计算的能力,这直接导致AI计算的架构和概念独立出来。

事实上,巨模型的计算问题,无论对超算更是AI计算都提出了巨大挑战。张云泉认为,这意味着未来超级计算机的架构和形态还要继续演化。

陈文光认为,AI应用特别是基于巨模型的应用对网络、I/O能力等的要求非常高,从融合发展的方向看,这些应用的特殊要求反过来会影响HPC的设计,比如对带宽的要求和I/O的设计会有一些促进。

另外,陈文光提到,还应重视混合精度算力的发展。比如,AI算力的单精度性能高,就可以先用它解决一些低精度计算的问题,然后再拿到高性能计算机上完成高精度的计算要求,从而提升算力资源整体的性能和性价比。据透露,目前混合精度算力已被写入计算领域“十四五”规划相关的指南文件中。

自底向上来看,算力中心能提供何种计算能力,从根本上取决于芯片。比如AI芯片严格意义上属于专用芯片,那么国内一些以AI芯片为主的计算机,就注定无法胜任科学计算任务。

从事服务器芯片研发的中国科学院计算技术研究所研究员范东睿介绍说,即便AI芯片也有通用与专用之别,在他看来,专用芯片就应该越来越专,通用芯片就要做到能涵盖所有的精度和算法,让其各司其职。

“(一些供应商)把专用芯片当成通用芯片来讲故事,那就不好了。”范东睿说,目前国内对芯片的需求量越来越大,但作为核心器件,“芯片人”和“芯片厂”还是要有所坚持,“不能忽悠”。

关闭
新闻速递