超级计算机全球四连冠:天河二号背后故事

jopen 9年前

超级计算机全球四连冠:天河二号背后故事

“天河二号”是国防科大承担完成的国家 863 计划和“核高基”国家科技重大专项项目,2013 年 11 月在国家超算广州中心投入运行,向国内外用户开放使用。目前,“天河二号”已构建起材料科学与工程计算、生物计算与个性化医疗、全数字设计与装备制造、能 源及相关技术数字化设计、地球科学与环境工程计算、智慧城市与大数据处理等六大应用服务平台,先后在基因分析与测序、大型飞机和高速列车设计、生物医药、 电子政务及智慧城市等方面发挥了重要作用,取得了显著的经济效益和社会效益。

在 2014 年 11 月 20 日召开的世界超级计算机大会上,“天河二号”在国际 TOP500 组织首次正式发布的超级计算机高性能共轭梯度(HPCG)基准测试排行榜上,位居世界第一。此前,由该组织发布的第四十四届世界超级计算机 500 强排行榜中,“天河二号”再次位居榜首,获得世界超算“四连冠”。近日,《经济日报》记者采访了“天河二号”研究团队相关人员、国家超算天津中心负责人, 以探寻国之重器“天河二号”背后的故事。

超算之巅的角逐

四捧冠军奖杯,对于中国超算团队而言,无疑是一件令人欢欣鼓舞的大喜事,然而对其他老牌超算强国来说,他们的心里像打翻了调味瓶,五味杂陈。强 手“叫板”也随之而来,就在这次世界超级计算机 500 强榜单发布前夕,排位第二的美国公布了“珊瑚”计划,表示将投资 3.25 亿美元建造两台超级计算机,其运算速度有可能达到“天河二号”的 3 到 5 倍。

“在超算领域,国际竞争由来已久,在‘天河一号’夺冠之前,美日之间的‘第一之争’早已存在。”天河高性能计算机系统副总设计师朱小谦说。中国 计算机学会高性能计算专业委员会秘书长张云泉告诉记者,“美日特别在意其超算是否世界第一,一旦失去‘第一’称号,都会迫不及待地夺回来。”实际情况也的 确如此,“天河一号”在 2010 年底首次夺冠后,遭遇福岛核事故的日本仍然紧急拨款加快其超级计算机“京”的研制,用半年时间登上了冠军宝座,随后美国的“红杉”和“泰坦”又先后抢得世 界第一的位置。

“你方唱罢,我登场”,冠军的宝座常常不等捂热,就被新的竞争对手夺去。人们不禁要问,如此激烈的竞争到底是为了什么?

回答这个问题还得从超级计算机能做什么说起。记者日前来到国家超算天津中心采访,这里运行着我国首台千万亿次超级计算机—“天河一号”。投运近 5 年来,“天河一号”以其超强的计算能力、精准的计算结果赢得了众多用户的青睐。目前中心每天运营的计算任务超过 1000 个、提供计算服务机时 140 万小时、服务用户数已超过 600 家。“‘天河一号’的魅力,通俗讲是能算天、算地、算人。”国家超算天津中心主任刘光明说。

算天:“大气科学和地球流体力学数值模拟国家重点实验室”的研究员利用“天河一号”完成了跨越千年气候变化模拟,并利用自主开发的气候模式向联 合国气候变化大会提交了 IPCC 报告。国家超算天津中心研究员孟祥飞说,“自从中国科学家用‘天河一号’建立了气候变化模型,中国不仅拿出了自己的气候影响依据,而且建立的模型还成为国 际公认的模型标准,为中国在这一领域赢得了话语权。”

算地:基于“天河一号”开展的高性能石油勘探数据处理软件开发与应用,解决了我国石油勘探领域自主应用软件的大规模数据处理能力问题,使我国大连片、高密度石油勘探地震数据处理能力提升 50 倍以上,达到世界领先水平。

算人:分析人类基因,解读生命奥秘,如今都离不开大数据的计算和处理。中科院、军事医学科学院、北京生命科学研究所等单位利用“天河一号”开展了抗击癫痫、艾滋病、癌症等领域研究,取得了一批具有国际先进水平的成果。

“‘天河一号’不仅为科学研究、科技创新提供了一个更高的支点,更是给产业发展提供了一条更快更好的跑道。”刘光明说。正是有了“天河一号”的支撑,我国部分产业领域的核心竞争力正在构建。

无论是模拟气候变化,还是演示地震海啸;无论是设计航空航天飞行器,还是研制国产新型发动机;或者是基因测序、高速列车设计制造,超级计算机都 能够完成分析、计算和处理。“超级计算机就像能够预知未来的水晶球,一切都可以在计算机上进行模拟。”美国田纳西大学计算机学教授杰克·唐加拉说,“超级 计算机越快,计算结果越精确,意味着工程师能设计出更好的产品,大到飞机和轮船,小到药品和服装面料。”

从“银河”到“天河”

“高性能计算机是名副其实的‘国之重器’,其研制与应用水平不仅代表国家的科技发展水平,更是国家在创新创造和经济建设中塑造核心竞争力的关键武器。”国家 863 计划高性能计算机及其核心软件重大专项总体组组长钱德沛如是评价。

正因为如此,我国超级计算机的研发一开始就遭到了国外的严密封锁。

有两件事虽然过去很多年,却总是被“天河人”提起—

改革开放前,我国由于没有国际先进水平的高性能计算机,勘探的石油矿藏数据和资料不得不用飞机送到国外去处理,不仅费用昂贵,而且受制于人;国 内一家单位想进口一台运算速度每秒 400 万次的计算机,外方居然提出:要为这台机器建一个安全“玻璃房子”,中方人员上机操作,必须在外方监控下进行,不得开展合同以外的研究。

往事历历在目,始终激励“天河人”奋勇拼搏,向世界超算的“珠穆朗玛峰”攀登。

“中国要搞四个现代化,不能没有巨型计算机!”1978 年,邓小平同志高瞻远瞩,把研制巨型计算机的任务交给国防科技大学。国防科大的一大批科技人员,瞄准世界先进巨型机技术奋力攻关,仅用 5 年时间就研制出我国第一台被誉为“争气机”的亿次巨型计算机。1983 年 11 月,“银河”亿次巨型计算机展现在世人面前,实现了我国巨型机零的突破。此后,他们又相继研制出“银河”系列巨型机,将我国超级计算技术一步步推向国际前 沿。

跨入新世纪,“天河人”吹响了攀登世界科技高峰的集结号—早日研制出我国的千万亿次超级计算机系统。“巨型计算机的发展规律是每 10 年性能提高 1000 倍。2000 年的国际先进水平是 1 万亿次,到 2010 年肯定会达到千万亿次级。要占领制高点,必须尽快开始研制千万亿次计算机。”当时的“天河一号”总设计师、现任国防科大校长杨学军说。

这一步是不是跨得太大?不少人有疑问,但国家战略不容等待。

重担又压在“天河人”的肩上。血液里流淌着“银河精神”的“天河人”再一次迎难而上。回忆起当时的情景,职业生涯与中国超级计算机发展史几乎“同龄”,曾参与我国银河—Ⅱ、银河—Ⅲ研制的刘光明感慨地说,“确实非常不容易。”

每一项技术的背后,都是超常的付出:仅仅为了将网络互连软件的性能参数调整到适应硬件的最佳状态,在 3 个月里,“天河人”进行了上亿次测试实验。他们几乎是每天工作十几个小时,全年仅春节期间休息 3 天。而对这一切,作为“天河二号”主机系统主任设计师的蒋句平认为再平常不过。当记者请他讲讲过去攻坚克难的故事,蒋句平却一时语塞,想不起来。“亿万星 辰汇银河,世人难知有几多。神机妙算巧安排,笑向繁星任高歌。”也许只有凌晨三四点还依旧灯火通明的“天河楼”能告诉我们这一切。

付出的汗水有了收获。2010 年 11 月,“天河一号”问鼎世界第一;两年半后,2013 年 6 月,“天河二号”摘取世界冠军,峰值计算速度也从每秒 4.7 千万亿次跃升到每秒 5.49 亿亿次,实现由千万亿次级到亿亿次级的跨越。

从“银河”到“天河”,从“天河一号”到“天河二号”,“天河创新”团队为了完成国家使命,以超前的眼光逐梦“超算”世界,交出了一份份精彩答卷。

蒋句平告诉记者,目前“天河”团队的平均年龄不到 40 岁。曾经参与“天河一号”研制的年轻技术人员,如今已成长为“天河二号”研制的骨干力量,一代代“天河人”接力前行,成为支撑我国未来高性能计算的脊梁。

独辟蹊径求突破

中国超级计算机的发展无疑给世界带来了无数惊叹。

3 年多时间里,两次研发出全球速度最快的超级计算机;短短十几年里拥有超级计算机的数量,从零跃居世界第二;最近 10 年,中国超级计算机性能提升了 5000 倍,而同期美国超级计算机性能只提升了 500 倍……

是什么造就了中国超级计算机的跨越式发展?钱德沛说,银河、天河系列之所以取得如此骄人的业绩,得益于一系列重大技术的自主创新,也清楚地表明了中国科技实力的巨大进步。

超级计算机是集成数以万计 CPU 的庞然大物。按传统的方法,提高超级计算机的运算速度可以是增加处理器数量,也可以是增加 CPU 核数。蒋句平告诉记者,“传统的方法难以为继,增加 CPU 数主要受到功耗、占地面积、系统可靠性方面的限制。”据介绍,按传统方法构建一台每秒百亿亿次超级计算机,需要占地 1.3 万平方米,将近两个足球场那么大;需要用电 320 兆瓦,相当于一个大中型城市的用电量。

很显然,按照传统方案根本行不通,首先必须解决机器规模增长带来的一系列烦恼与挑战:如何降低功耗,节省能源?怎么提高密度,节省机房空间?如何突破内存和网络I/O的瓶颈,补足系统的短板?如何优化并行软件的开发,提高效率,保证数据一致性?

再难也要上,时任“天河一号”总设计师杨学军决定带领他的团队,在世界上率先采用 CPU+GPU 异构融合体系结构,利用 GPU 加速通用应用程序运行。几年来,这种结构因其低能耗、低成本、高集成度等优点,逐渐成了国际主流。

在“天河”团队的全体努力下,类似的自主创新成果一个接一个。如今,“天河二号”的多项自主关键技术令世界瞩目:“新型异构多态体系结构”大幅 度提高了系统的计算速度;高速互连系统性能是当前国际商用互连系统的两倍,综合化能耗控制机制实现了国际先进的能效比;自主研制出当前国内主频最高的新一 代高性能通用“飞腾—1500”CPU,有力支撑了高吞吐率和高安全的信息服务类应用;高密度、高精度组装结构使得系统的占地面积与“天河一号”相当、性 能却提升了 11.6 倍……

“可以说,如今中国超算系统的整体研制能力已处于国际前列,体系结构等部分技术已领先国际水平。”朱小谦说。从局部突破到综合技术领先,从奋力追赶到逐步超越,世界超级计算机的发展史上已留下“中国创造”的深深印记。

因为有了一系列自主创新成果,中国的超级计算机科研工作者在世界同行中赢得尊重。刘光明至今仍清楚地记得,过去要参观国外超算公司、参加国外超 算学术会议非常困难。即使有幸参加,中方人员的行程都会被跟踪,看了什么,问了什么,都会被记录上报。如今,主动邀请代替了百般拒绝,热情相拥代替了冷淡 对待。欧盟第七框架科研计划与“天河一号”合作项目顾问、德国于利希超级计算中心教授 BerndMohr 表示,中国在超级计算机领域经验丰富,欧盟希望通过这一合作,对未来高性能计算发展规划提供指导和参考。

“当然,我国超算领域也有短板。”钱德沛告诉记者,最大短板在于应用,软件方面与国际先进水平还有很大差距,希望国家把超级计算机作为关系国家长远发展的重大基础设施建设持续支持,让超级计算机这一“国之重器”更好地发挥作用。(经济日报记者刘松柏)

来自:http://news.cnblogs.com/n/511992/