开放计算:10年硕果累累,再10年缘何依旧大有可为?

2011年,由Facebook联合Intel、Rackspace、高盛和Arista Networks发起的开源硬件组织——OCP开放计算项目(Open Compute Project)正式成立,其使命是通过开放开源硬件技术,实现可扩展的计算,提供高效的服务器、存储和数据中心硬件设计,以减少数据中心的环境影响,致力于围绕网络、服务器、存储和Open Rack的开源贡献进行创新。之后,与之相关的ODCC和Open19相继成立,共同构成了今天的所谓开放计算。

而今年恰逢开放计算10周年,这使得以“开放计算再十年:降碳•增效•践行”为主题的OCP China Day 2021颇为业内关注。

过往的10年,开放计算表现如何?更重要的是,再过10年,开放计算又将怎样?

10年硕果累累,开放计算彰显强大产业生命力

提及开放计算10年来的表现,据全球科技研究机构Omdia联合浪潮共同发布的《全球开放计算发展报告》(以下简称《报告》显示,10年以来,开放计算从整机柜项目开始,已延伸到数据中心的方方面面,包括服务器、存储、网络、供电、散热、基础设施管理等,并涵盖了全球领先的芯片、部件、整机、数据中心整体解决方案提供商以及互联网厂商。可以说,如今的开放计算已经建立了面向数据中心基础设施的完整生态,影响力与日俱增。

以OCP为例,作为全球开放计算的起源地,其吸引着全球顶尖的公司加入并持续发展壮大,获得了Facebook、微软、谷歌、阿里巴巴、百度、腾讯、英特尔、英伟达、ARM、HPE、浪潮、广达等会员的支持和贡献。目前OCP社区拥有250+成员企业,5000多名工程师和16000多名参与者,设立了数据中心基础设施、服务器、存储、网络、硬件管理、机架&电源等9大类23个项目组,已经发展为一个支持数据中心标准化的产业生态。

而从市场表现看,基于开放计算标准的服务器年市场规模已经达到了140亿美元,每年基于开放计算标准的服务器部署数量为470万台,而按照数据中心的算力计算,基于开放计算标准的服务器为全球数据中心提供的算力占比达到了34.8%。相比之下,2016年全球服务器中只有7%是基于开放计算标准的。

10年间,可以说开放计算彰显出了强大的产业生命力,那么接下来的再10年又当如何?能否保持和延续产业生命力?也许这才是业内最为关心的问题。

与时俱进迎挑战,开放计算促技术创新落地

在我们看来,相关产业的标准也好,模式也罢,要想在未来的发展中保持生命力,考量的是其随着产业的发展变化,与时俱进,不断迎接新的挑战的能力。具体到开放计算也不例外。

据全球科技研究机构Omdia联合浪潮共同发布的《全球开放计算发展报告》指出,降低资本和运营支出是采用开放计算设备的主要原因。同时他们表示看到了开放设计所提供的创新的价值,以及部署开放计算设备将带来与竞争对手差异化的优势。

那么接下来的是,开放计算能否面对产业因不断发展而出现新的挑战或者需求,而通过自身的创新来保持这些优势?

以代表当下和未来的AI计算产业为例,众所周知,随着人工智能计算的指数级增长,目前全球已有上百家公司投入新型AI芯片的研发与设计,AI计算芯片多元化趋势愈发明显。

具体表现在ASIC、GPU等AI芯片越来越多,技术更新也越来越快,导致AI硬件系统的技术挑战和设计复杂性也越来越大,将AI芯片集成到系统中通常需要大约6-12个月。这种延迟阻碍了新的竞争性AI芯片的快速采用。

此外,因为各厂商在AI芯片开发中采用了不同的技术路线,导致芯片的接口、互联、协议上互不兼容,使得数据中心用户在AI计算基础设施建设中不得不面临硬件分裂化和生态割裂化的重大挑战。

对此,作为OCP铂金会员的浪潮信息副总裁、浪潮信息AI&HPC产品线总经理刘军坦言,众多的AI计算芯片层出不穷,让我们拥有了一个面向不同计算负载的多元算力的同时,也带来了多元芯片适配的挑战。

针对于此,OCP推出了OAI开放技术规范,涉及OAI、OAM、UBB、HIB等9大领域,涵盖结构设计、温度、管理、供电、硬件安全性、可用性等诸多方面,旨在建立一整套可兼容各类AI加速器(包括AI芯片)的技术标准,以刺激AI计算基础设施的融合创新,基于此,该规范出台立即得到了业内的响应。

以OCP的铂金会员浪潮为例,其自OAI中的OAM规范推出后仅耗时3个月,就设计并发布了全球首款OAM通用基板及基于该基板、可兼容各类符合OAM规范的AI芯片的AI开放加速系统MX1。

需要说明的是,MX1是全球首个支持多家不同型号AI芯片的开放加速系统,不仅能够支持国际厂商的计算芯片,比如英特尔的芯片、Habana的芯片,同时支持来自中国本土创新研发的AI芯片,像知名的寒武纪、燧原、天数等。

此外,基于OAM标准,浪潮还制定了UBBSPEC的设计规范,大幅提升各类符合OAM规范的AI加速芯片的兼容性。目前,百度的X-MAN4.0、浪潮的MX-1、水原科技的T11等一系列产品已支持OAM标准。

除上述外,随着、AI的发展,在催生了数据中心规模化发展的同时,更激活边缘计算应用场景的多元化需求。

在此趋势下,越来越多的企业和行业应用场景需要实现边缘计算的跨硬件架构开发、部署与运行,以实现更高的敏捷性与灵活性。同时,边缘计算负载的复杂化也意味着,边缘计算中心将需要管理越来越多不同品牌型号、性能标准、部署模式的设备,这就需要制定统一的基准规范,降低部署与运维的门槛。

因此,推动边缘计算开放标准的制定至关重要。只有统一的标准才能为边缘计算系统的搭建与运行设定一致性规范,实现边缘计算硬件与应用的解耦合,让边缘计算应用能够独立于边缘硬件环境。同时,开放的边缘计算意味着系统的兼容性、灵活性与扩展性得到显著提升,以及赋予用户根据实际负载需求,灵活搭建边缘计算方案的自由。

基于此,OCP和ODCC不约而同地在边缘计算积极推动,分别设立了OpenEdge和OTII项目组。其中,OpenEdge作为OCP社区的重要项目组,制定了全球第一款通用的边缘服务器标准,解决了边缘服务器规范与电信规范融合的基础问题。

而在ODCC社区中,2017年底成立了OTII项目组,目标是形成面向和边缘计算场景的深度定制、开放标准和统一规范的服务器技术方案。基于OTII的边缘服务器采用宽度和2U高度;深度只有传统服务器深度的一半。这样让服务器不仅能够直接在传统机架上部署,也能够挂在墙壁上,从而简化边缘部署。

据Omdia调查报告称,国内电信运营商采用基于OTII的 边缘服务器,运营支出减少 53%,资本支出减少 30%,同时节省功耗、场地租赁费用和现场管理费用。

不知业内从上述看到了什么?我们看到的是开放计算通过创新与时俱进,保持差异化竞争优势的能力。例如上述的开放计算通过社区的共同努力,以开放标准促进多元计算融合,为人工智能创新赋予了更多可能,以及在边缘计算的创新帮助客户降低资本和运营支出就是明显的例证。

降碳增效大势所趋,开放计算有备而来

细心的业内会发现,此次备受关注的OCP China Day 2021中,降碳、增效成为主题词。那么问题来了,降碳、增效对于开放计算的未来意味着什么?

据相关数据显示,2020年我国数字经济规模达到39.2万亿元,同比增长9.7%,占GDP的比重已经达到38.6%。数据中心作为数字经济的核心基础设施,其年用电量已占全社会用电的2%左右,数据中心已成为一大碳排放源,同时由于数字基础设施碳排放的“锁定效应”,因而成为下一个减排的重点领域。

针对于此,工信部印发了《新型数据中心发展三年行动计划(2021-2023年)》(以下简称《行动计划》),明确用3年时间,基本形成布局合理、技术先进、绿色低碳、算力规模与数字经济增长相适应的新型数据中心发展格局。而近期发布的《全国一体化大数据中心协同创新体系算力枢纽实施方案》(简称《实施方案》)中,也明确指出要推动数据中心绿色可持续发展,加快节能低碳技术的研发应用,提升能源利用效率,降低数据中心能耗。

需要说明的是,《行动计划》主要目标中,对降低数据中心电能利用效率(PUE)做了明确规定,即到2021年底,新建大型及以上数据中心PUE降低到1.35以下。到2023年底,新建大型及以上数据中心PUE降低到1.3以下,严寒和寒冷地区力争降低到1.25以下。

由此看,1.3基本成为各地新建数据中心的PUE红线,但实际的情况是,截至2019年年底,全国超大型数据中心平均PUE为1.46大型数据中心平均PUE为1.55;规划在建数据中心平均设计PUE 为 1.41 左右,超大型、大型数据中心平均设计PUE分别为1.36和1.39,与《行动计划》目标尚存一定差距,如何在规定期限内进一步降低PUE,实现绿色低碳发展,成为数据中心产业面临的紧迫挑战。

对此,刘军认为,开放计算的社区目标与未来中国针对数据中心的发展目标不谋而合。目前,中国要求新建大型数据中心的PUE值小于1.3,对绿色节能提出了更高的技术需求,比如专门提到需要高密度集成的高效IT设备、支持液冷的高效制冷系统、支持高压直流的高效供电系统等。这些与社区在创新项目上的布局高度一致,为开放计算下一个十年提供了清晰的发展之路。

实际情况是,与传统设计相比,开放计算在降低能耗、减少运营支出方面已经彰显出明显的优势。

比如Facebook在OCP开放的整机柜设计方案,可节省45%的资本支出,提升38%的能源效率,并降低24%的运营支出。

更让业内吃惊的是,Facebook2019 年可持续年度报告显示,在2015 年—2019年,相对于行业平均PUE1.5,Facebook 数据中心相当高效,最近五年其PUE始终维持在1.1上下。

对此,浪潮服务器产品线副总经理陈彦灵认为,利用整机柜及液冷等方式,通过集中供电、集中散热、集中管理,可提升部署密度,降低功耗及TCO。同时,针对AI计算、冷数据存储与大数据等不同应用类型,可将数据中心划分不同的功率密度区域,优化提升空间供电利用率。此外,还可以对数据中心的功耗、负载分配及设备使用率分析,总结设备日使用率分布情况,进而促进数据中心级能耗优化。

基于此,我们看到,除了Facebook,国内百度采用天蝎整机柜可将TCO降低 10%,且百度所有建设投产的数据中心PUE 均低于1.3,最新建成的数据中心年均PUE 约1.2 左右,大幅提升了能源效率。

当然,除了基于整机柜方式外,还有液冷的创新助力PUE的降低。例如阿里通过数据中心IT设备冷却一体化设计,将服务器浸泡在特殊的绝缘冷却液中,散热全程无需风扇、空调等制冷设备,大大降低了数据中心的能耗,整体节能超70%,大幅提高了数据中心能源使用效率。

至于通过对数据中心的功耗、负载分配及设备使用率分析,总结设备日使用率分布情况,促进数据中心级能耗优化方面,由浪潮牵头的开放计算项目OpenRMC已经有了最新进展,OCP社区今年公布了OpenRMCDesign Specification v1.0,该设计规范解决了不同整机柜之间的统一管理问题,满足了中小规模数据中心提升自动化运维能力、提高系统可用性、降低数据中心能耗水平等一系列需求。

种种事实证明,要实现《行动计划》的目标,开放计算模式理应是产业最佳的选择。

写在最后:过去十年,开放计算成了数据中心创新的主力;未来十年,需要继续创新来应对数据中心降碳、适配和多元化的挑战,共建标准,共建生态,携手推动开放计算产业的协同创新。

令我们看好的是,开放计算一直在行动。

例如在技术领域上,OCP的创新已开始延伸到数据中心的方方面面,持续推动绿色高效数据中心的建设。即将推出的Open Rack 3.0在空间、承重、供电、液冷支持等方面做出更多改进,让数据中心能够更大规模的运行各类AI工作负载;在高速网络通信领域,OCP Mezz (NIC)规范已经成为业界IO选项的标准,最新的NIC3.0技术规范增加了热插拔设计,信号速率最高可支持PCIe Gen5,满足各行业高密度计算对高密度部署的空间要求。同时,OCP正在打破数据中心基础设施领域的界限,向异构计算、边缘计算等前瞻技术延伸。

应用方面,开放计算起源于超大规模数据中心,正向中小型数据中心和非互联网行业渗透。电信、金融、游戏、电商、医疗、汽车制造等行业已经或正在尝试部署符合开放计算标准的IT基础设施。

正是由于开放计算的一直在行动,其市场前景也普遍被业内看好。

据Omdia预测,2025年全球40%的服务器将基于开放标准;非互联网行业在开放计算的市场占比将从2020年的10.5%增加至2025年的21.9%。

另据IDC预测,2020—2024年间全球开放计算项目(Open Compute Project,OCP)基础设施市场的年复合增长率达到16.6%,预测期末市场规模达到338亿美元。

综上,我们不难看到,开放计算依然是未来IT基础架构创新发展的核心驱动力之一,更重要的是,其与产业未来发展的大势及目标高度吻合。所以,再过10年,开放计算,与时俱进,大势所趋,大有可为。

文章只代表原作者观点,边缘云致力于打造独立、客观的资讯信息平台,转载请注明来源于边缘云信息平台。
分享到
长按二维码关注

参与讨论 抢沙发

评论前必须登录!

立即登录   注册

边缘云生态研究

关于我们