青云科技(qingcloud.com) AI 算力发布会上,国家超级计算济南中心(下文简称:济南超算)总工程师王继彬博士围绕算力平台建设与运营主题做了精彩分享。
以下为演讲全文,经整理:
济南超算
发展概况&建立历程
济南超算由国家科技部批准成立,创建于 2011 年 10 月,同时落地国内第一台采用完全自主处理器的超级计算机。
其发展历程主要包括五个阶段:
2011 年:济南超算成立并落地“神威·蓝光”超级计算机。
2018 年:研制“神威 E 级原型机”让整体算力实现 3 倍提升。
2019 年:在省市支持下成立了首个以超算为主题的科技园区,主要布局超算应用生态做相关产业升级。
2021 年:上线山河超级计算机,主要围绕通用超算的应用场景构建。
2022 年:发布新一代“神威·蓝光 Ⅱ”超级计算机,实现核心部件完全国产化,整体算力达到 14PFlops。
在组织架构上,济南超算有学术委员会和主任委员会,同时下设三个部门:业务支撑部门、科研团队,另落地两个相关科研平台。
围绕成果转化济南超算孵化了一系列相关企业,譬如与青云科技联合成立了泉云智慧公司,主打算力服务及其相关产品。在科创平台建设上基于实验室、技术中心、创新平台拥有丰富的资源支撑,主要围绕云计算、大数据、人工智能、高性能计算四个方向展开。同时济南超算多次获得省级科技进步奖,斩获 Top500、国内 HPC Top100、国际人工智能算力 AIPerf500 等多项荣誉。
算力资源建设
融合发展&科学运营
济南超算资源平台建设规划主要围绕五个平台:高性能计算、人工智能计算、云计算、工业仿真计算、数据存储与灾备平台。
以多计算集群融合发展的思路,济南超算目前人工智能计算集群达 1000 PFlops,超 2500 个节点,其中人工智能和云计算集群都按照混合异构方式构建。具体来看,超级计算集群不仅在 2022 年落地了“神威·蓝光Ⅱ”超级计算机,整体算力约 14PFlops,这是采用新一代国产自主处理器构建千万亿次的国产超级计算机。还落地了面向通用应用场景的山河超级计算集群,整体集群算力达到 60PFlops,存储容量达到 17PFlops,数据传输带宽达到 1TB。
山河超级计算集群
计算资源:山河超级计算集群高性能计算资源超 50 万物理核心,为适应特殊行业领域计算规划建设了大内存节点,单节点内存可达 1.5TB,云计算集群实现从 IaaS、PaaS 到 SaaS 全方位覆盖,提供超 60 种云服务。
云服务:山河超级计算集群与青云联合打造,主要围绕超算使用场景和人工智能场景进行规划,整个人工智能集群超过 850PFlops。
网络建设资源:山河超级计算集群与青云合作打造基于 SD-WAN 网络接入的方式,对外互联网出口网络带宽超 15Gbps,同时在构建山东省 16 地市网络算力方面做了大量工作。
存储资源:目前总存储资源超 245PB,其中 17PB 是用于山河超级计算机配套使用的全闪并行文件存储,支持传统文件存储、对象存储和云计算里的块存储以及大数据存储。
高性能计算节点:山河超级计算主要围绕科学计算集群、工程计算集群和数据计算集群三个集群打造,加上“神威·蓝光Ⅱ”超级计算机共有四个集群。
通过与青云合作建设 AI 计算节点,济南超算针对已有四款集群做了融合和调度,与青云基于数据中心的物联网平台联合打造了边缘推理。目前,山河超级计算的云计算节点超 2500 个,整体提供的业务规模超 4 万台,得益于青云提供的相关支持还配套了超 5000 台云桌面。同时山河超级计算平台连续两年参加 IO 500 榜单相关的测试打榜工作,并取得全球第一的成绩,印证了其硬件配置高,配套软件弹性伸缩、调度能力优秀。
济南超算科技园区
2019 年在省市的支持下,济南超算建设了国家超级计算济南中心科技园区,地处齐鲁科创大走廊和山东自由贸易区交叉区域,可以非常便捷地服务周边企业及科研院所,满足其算力资源需求。济南超算数据中心建筑面积达 4 万平米,共建设了 21 个机房(包含 5 个 A 类机房、16 个 B 类机房),规划了 2700 个机柜数。针对 AI 算力对单机柜功率的高要求,济南超算机柜过半比例为高功率,主要分为 20 千瓦、35 千瓦和 50 千瓦三档(传统 IDC 一般为 7 千瓦、3.5 千瓦和 5 千瓦),因此济南超算数据中心在承载 AI 算力、高性能算力上具有非常大的优势。
同时济南超算科技园区建设了大量公共空间和相关办公环境,超 12 个培训教室、大中型报告厅、休闲区域,非常适合做联合科研创新、研发工作的企业。
算力网络建设
多方携手&逐步构建
算力网络建设发展历程
济南超算在算力网络方面起步较早,整体围绕六个方向规划:算网基础设施方面、算网操作系统方面(与青云联合研发工作)、算网应用方面(青云参与辅助支撑)、算力安全、算力网络安全、算网标准规范。
整个济南超算的算力网络建设内部命名为“山东超算互联网建设”,发展历程大致如下:
2017 年:在全国超算中心 CEO 联席会议上提出,想构建一个全国性的超算互联网络。
2018 年:开始实施规划并与青岛海洋科学实验室合作项目。
2019 年:立项重点支持超算互联网建设。
2021 年:项目验收并围绕超算互联网的关键技术做相关研发工作。
2022 年:第二期超算互联网建设立项,同时山东省基于整个超算互联网络专门给济南超算立项,支持山东超算互联网的关键技术专项。
总体来说,济南超算在整个算力网络建设上积累了丰富经验与成果。
山东超算互联网从 2019 年规划,分三期建设:第一期:与青岛海洋实验室合作验证性网络建立了"同城两地三中心"架构,实现济南超算济南市运营的两个数据中心互联,并与青岛海洋实验室远距互联,在此之上构筑算力应用并做验证。第二期:构建山东 16 地市的“山东算网”2022 — 2023 年底计划在科研、教育、工业、民生等领域的算力应用开展落地、实施和验证工作。第三期:构筑 5ms 算力圈到 2025 年主要基于济南超算目前 16 地市的建设经验打造面向黄河流域算力平台构筑 5ms 算力圈。
算力网络建设发展现状
基于整个山东超算互联网建设历程,济南超算针对原有算力网络标准体系,根据自身理解做了定义,认为整个算力节点分为三种:一、传统算力节点:主要提供算力服务。二、存力节点:主要提供多元存储服务。三、网络结点:主要提供网络服务,如网络加速、网络接入、VPN、高速直连通道、边缘应用加速。
另外针济南超算对整个算力节点做了“算网定义”,即在算力网络上存在四张网:生产网、传输网、配给网、终端网,并按照三类节点构建(核心、骨干和边缘)来承载这四张网,其中核心节点是济南、青岛和枣庄,骨干上覆盖了剩下的 13 个地市以及涉及地市的边缘节点,整体组网拓扑采用了“星型”组网的建设方式。目前核心节点济南和青岛已经建设完成,采用 100Gbps 网络建设,剩下 14 个地市大多按照骨干节点、10Gbps 全光互联的方式建设,还有一些边缘节点有 1Gbps 和几百兆的带宽。具体实施上,济南超算采用全光的 OTN 的方式构建,可灵活调整带宽,实现极低延迟。
算力网络建设未来构想
由于建设项目的要求,目前实施仍按照“星型”模式,预计 2023 年底能调成环网,因为网状的结构相对更灵活,延迟更低。同时在建设时为济南和枣庄预留了算力网络接入区,方便未来济南往北对接京津冀算力圈,枣庄对接长三角的算力集群。
未来济南超算也将继续积极参与各类算网项目,目前已作为成员单位参与科技部牵头的中国超算互联网,并在“东数西算”网络方面成立了黄河流域算力联盟,未来还将逐步构建连接黄河流域的国家级“东数西算”枢纽。
全算力服务
支持诸多科研&商业场景
济南超算作为公共服务平台,围绕山东省产业和山东规划建设的大科学计划、大科学工程展开算力服务。
传统超算涉及的新能源、仿真、石油、高端农机装备、新材料、海洋、药物、化工、天文观测、卫星遥感等领域生态建设已较成熟,济南超算自 2011 年开始围绕国产超算平台构建自主可控的超算应用生态,2022 年上线自主可控的超算软件生态平台,主要为电池、材料、海洋、医疗、核能、环保、生态保护、石油勘探等行业提供基础库与软件平台。
生态环境方面
济南超算运营国家生态环境大数据超算云中心开展很多国家生态环保、特别是空气质量预测预报工作,支撑了部分国家重大活动,譬如服务山东本地空气质量业务平台。超算云中心得益于青云科技提供的许多支撑,自 2021 年底上线运行至今都相当稳定。
工业互联网方面
济南超算在高铁气动仿真平台上做得相对较早,也是自身比较擅长的领域。目前围绕超算互联网山东算网工程与省内工业企业合作,今年在钢铁行业做了相关计算工作。围绕“黄河战略”的场景涉及大量数据和模型相关的融合场景,智慧黄河模拟器内部还在研发,作为底层基础设施平台青云调度能力在整个数据采集、数据流转方面发挥了作用。
智慧政务业务方面
济南超算为山东数字政府提供云计算服务,资源调度方面与青云科技合作,针对目前政务云的云计算资源池,与高性能计算、人工智能计算的集群之间实现了算力资源的弹性扩展。在山东省生态环保业务平台时,其需要高性能计算算力,但政务云的传统云计算平台里很少规划高性能计算,得益于济南超算有独立的高性能计算池因此实现了政务云资源池和山河高性能计算资源池之间的弹性资源扩展,可以支持山东环保业务平台需要高性能计算业务时自动弹到高性能计算池,相反如果没有需求时可自动收缩。
智慧医疗方面
济南超算按照“云、边、端”形式,与国家医疗大数据北方中心、省千佛山医院等单位合作,研发了在线远程标注、推理等相关场景。
对地观测方面
济南超算与空天院深度合作,建设济南到北京的遥感专线,用于汇聚遥感数据。同时计算集群支撑针对遥感数据的分析处理,与青云合作数据流转平台用于数据无缝流转,特别是处理后的数据。
智慧教育方面
基于青云的底层平台,济南超算做了像教学实训类业务,并从已经服务的 7、8 所大学向全国推广,可以提供虚拟机、容器集中服务,基于青云提供的底座有效支撑了整个业务应用需求,在疫情期间在线教学上发挥了很大作用。
人工智能平台建设方面
济南超算依托青云以及其他合作伙伴共同推进自然语言巨量模型训练的相关工作,去年在国家高考语文阅读理解、作文上可以看到平台训练出来的模型整体效果优秀,青云科技平台就其中涉及的存储数据流转、AI 算力调度提供了强有力的支撑保障。