让美国的限售见鬼去吧!天河二号A 100P性能达成!

2015-07-16 |  作者:佚名 |  来源:ZDNet

摘要在ISC 2015大会上发布的第45期全球超级计算机TOP500排名中,由中国国防科学技术大学(简称国防科大)研制,部署于中国广州超算中心的天河二号再次荣登榜首,连续第5次成为TOP500冠军。

在ISC 2015大会上发布的第45期全球超级计算机TOP500排名中,由中国国防科学技术大学(简称国防科大)研制,部署于中国广州超算中心的天河二号再次荣登榜首,连续第5次成为TOP500冠军。但我相信,任何一个关心中国超算事业的人,都在高兴之余有着隐隐的一丝不安,那就是始于今年4月的“中美超算风波”,总让感觉天河的未来布满阴云。

第45期 TOP500榜单,前10名中只有一台新系统(第7名),其余都是老面孔,天河二号第5次占据冠军位置

在4月底时,我曾写过一篇专文《走出中国超算的“凌波微步”》,详细介绍了这场风波的来龙去脉,以及它所产生的影响,并分析了中国应有的宏观对策。简单来说,由于美国点名对天河二号的限售,阻碍了天河二号今年既定的100PFLOPS(1P=千万亿次浮点运算,本文所指的浮点性能均指双精度)的升级计划,并可能长期影响中国超大规模超算系统的建设,这其中的关键就是英特尔公司的Xeon Phi加速器(或与之类同的产品),它对于天河二号的连续5次登顶有着决定性的意义。

我们先看天河二号的配置:16000个计算节点,32000颗英特尔至强(Xeon) E5-2692V2 2.2GHz/12核心CPU,48000颗Xeon Phi 31S1P加速器,其运算峰值速度约为55PFLOPS。这其中天河二号所采用的Xeon Phi 31S1P拥有57个核心,TDP功耗300W,单个Xeon Phi 31S1P的浮点运算性能约1TFLOPS(1T=万亿次)。48000颗Xeon Phi 31S1P就贡献出了48PFLOPS的浮点性能,对于天河二号55P的峰值性能来说,重要性不言而喻。

美国银售的重点对象——英特尔Xeon Phi计算加速器,今年将推出第二代Knights Landing

在今年,英特尔将推出代号为Knight Landing的第二代Xeon Phi,浮点性能达到3TFLOPS。假如全部替换掉天河二号现有的Xeon Phi,那么天河二号的性能就将超过150PFLOPS(加上32000颗E5的性能),绝对仍然是2015年,甚至是2016年的TOP500冠军。所以说,针对天河二号的Xeon Phi限售,的确影响到了天河后续的升级计划。

在那段风波期间,除了更多的中国超算专家表示要进一步自力更生,不惧封锁外,具体的产品与技术措施其实并不清晰。在2015年4月19日,在由中国计算机学会青年计算机科技论坛(CCF YOCSEF)在京举行 “芯片限售对我国超算的影响”特别论坛上,天河二号系统主任设计师、国防科大教授卢宇彤女士曾非常自信的强调,“按照原定计划,天河二号拟在今年将计算能力从55PFLOPS升级到100PFLOPS。尽管此次美方对天河二号升级所需Intel Xeon处理器的限售,对原定升级计划有一定影响,但我们早有准备,绝不会影响天河二号从55PFLOPS升级到100PFLOPS的既定目标 。”

然而,很多人并不知道,国防科大到底会采用什么方法来实100P的目标,心里多少没底,甚至有人怀疑国防科大也只是在给大家打气,并没有实际的解决方案。但是,在ISC 2015的第二天——中美超算风波3个多月后,卢宇彤亲自给出了答案——这就是天河二号A,并明确表示将在2016年正式上线。

天河二号系统主任设计师、国防科大教授卢宇彤在ISC 2015大会上以英文做主题讲演,详细介绍了中国主要的超算应用在天河二号上的实践,并第一次在国外会议上详细介绍了天河二号A的概况

在讲演的开头部分,卢宇彤介绍了天河系统的发展历史与未来的规划,也表明了100P系统的计划,但没有透露具体的系统名称

卢宇彤的主题讲演是在ISC 2015第二天的下午5点15分开始,其讲演的主题是《Applications Leveraging Supercomputing Systems》,我起初以为就是以天河二号的应用视角来看超算系统的应用与价值,并没有想到会介绍到天河二号A,给了我一个大大的惊喜。

天河二号A的主要技术指标,与历代天河系统的对比,其运算峰值将达到100P,能实现的关键就在于“中国加速器”,请注意功耗与天河二号几乎相同

天河二号A的计算节点数量将从天河二号的16000个,增加到约18000个,处理器仍然没变,还是至强E5-2692 V2,而最引人关注的则是用“China Accelerator”(中国加速器)替代了Xeon Phi。

从上文可知,通用处理器在未来的HPC系统里的权重会越来越低,主要工作将逐渐向控制层面转移,计算任务则主要由加速器完成。也因此,要想实现100P的目标,没有类似于Xeon Phi这类产品是不可能实现的,所以关键点就在于China Accelerator是用什么方法来实现类似于Xeon Phi与NVIDIA GPGPU(同样在美国限售范围内)的加速效果。国防科大给出的方案并不算有多“高大上”,但对于中国自主研发来说足够亮眼,那就是通用计算数字信号处理器(GPDSP),并且有了明确的型号——Matrix2000。

Matrix2000的主要设计规格,预计为16核设计,可达到2.4T的浮点性能,虽然还比不上Knight Landing的3T,但对于白手起家的中国来说,已经相当不易,而且功耗比现有的Xeon Phi少了100W

从Matrix2000的设计规格上看,至少在理论上还是相当不错的,对于中国自主研发的加速器已经非常不容易了。如果还是按照天河二号计算节点的配置(2CPU 3加速器),我们就按18000个节点来计算,将有54000颗Matrix2000加速器,理论运算峰值可达130P(54000x2.4T),加上36000颗E5-2692 V2,总峰值可达137.6P,所以100P的目标也许还有些保守,100P是最大浮点性能(天河二号是33.86P)也说不准。

Matrix2000的内部设计,采用了标量与向量单元 超长指令字(VLIW)的架构

针对全新的Matrix2000所准备的软件堆栈,这也是Matrix2000能否被有效利用进而被应用开发者所接纳的关键,包括GPDPS驱动程序、操作系统、编译器、数学库等,这的确是项工程量巨大的工作

据国防科大的相关研发人员介绍,有关DSP的浮点计算应用,一直也是国防科大的研发重点,它与超算研究可谓是并行发展。也正是因为有了这样的积累,国防科大才能比较从容的面对美国的限售。但该研发人员也表示,美国的限售来得这么快还是有点出乎预料,而GPDSP的一个推广难点也就在于,在HPC应用领域几乎是从零起步,就像当初NVIDIA刚推出GPGPU时一样,直到CUDA的发布才迅速改善了GPGPU的应用生态环境。国防科大的GPDSP显然也要经历类似的过程,但国防科大在业界的知名度以及DSP在HPC里的应用平滑过渡性,较当初NVIDIA在图像处理领域以及GPU在浮点运算能力方面的名声,还有很大差距,因此其中的困难可想而知。

卢宇彤表示,目前Matrix2000正在进行验证。这意味着至少在国防科大的层面,已经为正式投入使用做着最后的准备,但具体时间还不能确定,所以只给出了2016年这一较为笼统的时间点。相关研发人员也透露,除了应用平台进一步配套完善之外,GPDSP芯片本身的生产与物理设备的调优还有很多工作要做。而且受限于当前中国半导体生产工艺水平,现在还是采用40nm工艺的GPDSP,也在很大程度上制约了Matrix2000的能力,“否则可以做到更多的核心,获得更多的性能”,相关研发人员感慨到。

当然,天河二号A在技术上的突破不仅仅是Matrix2000,卢宇彤也没有把这次天河二号A的亮相等同于Matrix2000的亮相,接下来她又介绍了天河二号A在互联与I/O方面的设计。

除了最关键的Matrix2000之外,天河二号A在其他方面也有着明显的升级,在互联层,采用了自主研发的TH-Express 2 架构(天河二号是TH-Express 2),从联网芯片至网络路由芯片均有较大提升,并进一步实现了自适应(Adaptive)互联架构

所谓的自适应互联架构,就从多个层面入手,通过自应用平台层至底层形成的智能互动,保证网络效率持续而稳定(+微信networkworldweixin),比如自动规避质量不佳或拥挤的链路,进一步杜绝重复的通信,并在节点与网络故障时对路由重新配置等等

在存储层面,天河二号A仍然是以自主研发的H2FS文件系统(Hybrid Hierarchy File System)为核心,并采用大量闪存作为I/O突发缓冲,夹在节点本地存储与大容量的全局存储之间,实现了1TB/s的突发传输,100GB/s的持续传输,每秒100万次的元数据操作

最后,卢宇彤给出了天河系统未来的应用方向与愿景,其实天河二号就已经不是单纯的HPC系统,在云、Hadoop、Spark等方面均有尝试或实际的应用,而未来则更是如此,国防科大也将按这样的思路来构建未来的天河二号A,让它从出生之日就是一个强大的多面手

卢宇彤对天河二号A的介绍,引发了会场的热烈反响,在提问环节,大多数的问题都集中在了“中国加速器”身上,显然这对于国外的HPC人士来说,也是非常的“意外”。但是,除了Matrix2000外,对于互联与I/O的完整阐述,也让人感觉天河二号A的确有备而来,明年的正式发布也是相当的靠谱(毕竟是军人出身嘛),剩下的就看它是出现在第47期还是第48期的TOP500榜单上了。

当然,中国研制超大规模HPC系统的目的肯定不仅仅是为了跑个LINPACK争个名次,否则也不会引起美国的重视并引发限售。天河二号A的设计在某种角度上说,真正打开了中国自主HPC发展的向上之路,因为加速器很重要,也因为加速器被国外限售,所以天河二号A在这种环境下还能很快达到100P的性能,也许连美国相关人士也没有想到,但这绝对是件好事!

虽然我们都知道Matrix2000在未来很一长段时间里,将会面临严峻的应用生态的挑战,但是我们也非常清楚,当初的两弹一星的诞生历程又是何等艰苦,可换来的国家意义与战略价值则无法估量。中国HPC领域的很多专家其实都对美国限售保持乐观态度,因为中国的机会来了——只要是西方发达国家限制的产业,中国自主研发的实力与产品也就越强,也就越来越不需要外国的东西,反而确保了自身生态链的完整与环境安全,可能自主之路短期很痛苦,但长远来看肯定利远大于弊。

对于这些专家们的观点,我深表赞同,以HPC对于国家的国防与经济战略意义来说,在很大程度上,计算加速器在当今的作用已经不亚于当初的两弹一星。而天河二号A就是一个很好的开始,也许GPDSP的路很难走,也许它在实际应用中还有很多问题,但毕竟我们走出了第一步,没有这一步,后面的所有可能也就无从谈起,如果走得好走得稳,你敢说就不会出现一个与GPGPU和Xeon Phi平起平坐的GPDSP生态吗?

最后,我衷心祝愿天河二号A的研发最终获得圆满成功,早日上线,让美国的限售彻底见鬼去吧!

相关文章