从阿里云 CIPU 看新一代云计算架构体系

资讯 作者:CSDN 2022-06-13 16:31:01 阅读:353

CSDN特约撰稿人 | 文钊

6月13日,阿里云发布新一代云数据中心处理器CIPU(Cloud infrastructure Processing Units ),这是为新型云数据中心设计的专用处理器,未来将替代CPU成为云计算的管控和加速中心,它被业内人士认为是一款定义下一代云计算标准的开创性产品。

近20年随着互联网,大数据、云计算、物联网的发展,数据中心计算架构经历了快速的演变过程,新兴的互联网、云计算公司逐渐成长为行业巨头,代替了传统的OEM厂商,成为数据中心领域话语权的主导者,引领着行业的产品和技术不断进步。其中,以AWS、Azure、阿里云这3A为代表的云计算公司又是其中最重要的推手,几乎每一项技术变革背后都有这几家公司的影子。在笔者看来,数据中心的计算架构至少经历了三个大的阶段。

阶段一:数据中心传统模式到云计算


2006年AWS发布了EC2和S3两款产品,是目前业界公认的云计算大幕拉开的标志性事件。随后的2009年,阿里云、Azure也在看到了云计算的潜力后相继入局。在那个年代,Intel CPU通过VT-x技术实现了CPU和内存的硬件虚拟化,通过VT-d以及PCIe SR-IOV等技术实现了IO接口的虚拟化。彼时,AWS的底层虚拟化技术还是用的开源的Xen,一台主流的2路服务器还只有16个HT core。而这一发展就是近十年的时间。
随着4G网络的发展,互联网公司遍地开花,云计算公司的业务扶摇直上。而随着服务器上的客户越来越多,跑的workload越来越丰富,也让云计算公司从其客户的使用中不断吸取经验,打磨自己的产品,最终的目标都是让计算的产品朝着物理机的性能、安全方向演进,为用户上云创造良好环境。
在计算能力上,AWS、Azure、阿里云等公司结合云上用户的负载和需求,从2015年开始陆续针对数据中心的CPU做一系列定制,如为了满足高性能客户更大规格实例能力的要求,AWS C4定制了10核心的“haswell-ep”Xeon E5-2666 v3处理器,对比标准的高主频CPU型号高了25%的能力。
在网络能力上,2013年AWS的C3实例通过虚拟网络直通VM(SR-IOV) 支持Enhanced Network使得带宽提升20%,时延降低50%。
由于此时的虚拟化还跑在主机上,因此需要一部分的CPU和内存资源去运行传统的“Dom0”,因此我们会发现AWS的C4、R4等haswell、broadwell实例都存在4c/12G、8c/24G不等的资源无法被售卖,这个就是我们所谓的数据中心税,在那个CPU核心数还较少的年代,动辄10%-30%的资源无法被售卖,是一个巨大的成本浪费。

阶段二:解决数据中心税的问题,性能军备竞赛

随着客户对性能要求的提升以及网络(10G->25G)、存储能力的发展,网络vswitch和存储越发成为云计算场景CPU资源消耗的两类后台工作任务。在传统模式下,网络和存储的性能非常依赖于主机侧CPU的性能,而在2014-2020年期间,实际上摩尔定律的发展受到了非常大的挑战,CPU核心数增长缓慢,IPC提升也有限,想要推动网络和存储性能的提升仅仅依靠主机侧CPU更多的核数、更高的频率,代价过于巨大——可售卖CPU资源减少,由于频率带来的发热和功耗增长带来的额外Opex(运营支出)成本都难以让人接受。在此过程中Intel甚至想到了一些从CPU层面的解决方案,如允许部分CPU跑在更高的P1频率和Turbo频率的技术,但终究不是令人满意的解决方案。
于是各家都在寻求一些更好的解决方案:
2017年10月的云栖大会上,阿里云发布了“神龙”架构,基于CPU+FPGA方案,从支持裸金属的虚拟化,做到性能超越物理机的裸金属服务器;再到第二代神龙做到了“一套软硬件,三种服务(裸金属服务器+虚拟机服务+容器)”,解决了虚拟机和裸金属分池的问题,性能层面也实现了“虚拟机性能接近裸金属”;之后的第三代、第四代做到了24M、50M的PPS能力,在解决了数据中心税的同时,实现了性能的大幅飞跃。
一个月后,AWS推出了Nitro系统。基于AWS收购的Annapurna公司研发的Arm架构的AL72400芯片,做成将网络和存储offload的Nitro VPC卡和Nitro EBS卡,以及本地存储的InstanceStorage卡。正是Nitro架构改变了服务器硬件的主从关系,当所有的Dom0全部Offload到网卡之后,主处理逻辑全部在智能网卡,主从的关系也需要发生逆转。因此,智能网卡变成了主管理节点,而服务器上的其他部件变成了从服务节点。
AWS的C5实例就提到“新的 EC2 虚拟化引擎将提供更加平稳的性能和更强的计算能力和内存能力,因为它移除了主机的系统软件组件(host system software components)。如此,我们的 C5 实例可以提供一些超大的版本(如 c5.x18xlarge),这基本上整台主机的资源用户都可以用上了。之前的 C3 和 C4 实例已经做了一些软件组件的移除,把 VPC 和 EBS 功能转移到了 AWS 自己设计的硬件上。现在,这个硬件可以让虚拟化引擎以最小化的体积运行,因为它不需要去处理网络和存储的数据处理任务。”至此,AWS的数据中心税问题解决了,但性能只有3M PPS,之后推出的基于16c Arm A72架构的100G Nitro网卡进一步支持EFA实现更低时延、更高可靠性以及3倍PPS性能提升,性能的问题也基本上得到了解决。
微软的Azure也看到类似的问题,考虑到可编程性、性能和效率的权衡,他们使用了基于FPGA的自定义Azure SmartNIC将主机网络卸载到硬件的解决方案。但也仅仅是网络的卸载和加速,存储和管控面看上去还是跑在主机侧,最新的基于Intel Icelake的实例EDv5系列E104id v5 104c/672G内存,数字上来看还有至少24c的额外资源占用。
随着阿里云神龙架构、AWS Nitro的引领,京东、腾讯、字节等公司也采用了类似的架构构建自己的公共云计算服务,数据中心计算架构的中心开始向智能网卡倾斜。
有趣的是,在笔者所在的服务器架构领域也深刻地受到此趋势的影响——由于网卡的能力越来越强(以及各种PCIe IO设备的广泛应用),传统的服务器后出线的架构难以高效地对位于服务器后端的网卡设备散热,阿里巴巴的自研服务器首先推动了业界大量从后出线到前出线的架构演变,实现了更高的散热效率,铺平了演进到100G以及未来更高带宽网络的路。国内其他互联网公司的服务器架构也陆续转向了前出线架构。

阶段三:用户需求的多样化,

驱动了CIPU为中心的新一代计算体系诞生

随着技术的演进,用户需求日趋多样化。AMD的数据中心芯片、Arm架构的数据中心芯片等都给用户带来了更多的选择;异构加速芯片也百花齐放,FPGA产品,推理芯片,训练芯片,视频编解码芯片等等;存储上,local SSD用于cache,用于高性能数据库应用、系统的可信和安全、加解密能力等等。
将所有的需求都通过云的方式对外呈现,呼唤新一代计算体系的诞生。
刚刚召开的云峰会上,阿里云发布了云基础设施处理器CIPU,有望替代CPU成为下一代云计算架构体系的管控和加速中心。

CIPU是一种新形态的处理结构,将传统通用计算单元、满足特定工作负载的加速计算单元、以及满足网络和存储功能卸载的加速单元进行高速互联协调,组合成一个完整的分布式异构算力模块,高效满足复杂多变的云上数据中心算力场景。CIPU的体系优势体现在网络层面的网络设备硬件虚拟化、网络转发硬件加速、链路硬件加解密、eRDMA技术的普惠化;存储层面的硬件虚拟化、硬件加速以及链路的硬件加解密能力;同时具备硬件层面的安全和隔离能力等。
据阿里云透露,CIPU与计算结合,可以快速接入不同类型资源的服务器,带来算力的“0”损耗,以及硬件级安全的加固隔离;CIPU与存储结合,对存算分离架构的块存储接入进行硬件加速,云盘存储IOPS最高可达300万,长尾时延降低50%;CIPU与网络结合,可对高带宽物理网络进行硬件加速,构建大规模弹性RDMA高性能网络,时延最低可达5us。
在未来三十年里,用户需求驱动的CIPU必将会持续在高性能、低延迟、高稳定性和安全能力方面持续加强;CIPU架构也会持续迭代降低自身的成本,例如在性能诉求不高的场景通过Multihost架构实现CIPU的池化,大幅降低其成本分摊;通过部分相对固化功能的芯片实现设计的高可用性及稳定性等。
CIPU的核心优势是去中心化架构,不再以传统的CPU为核心,既保留了CPU的灵活性,且兼具架构的可扩展性,在当前各种高级封装技术的加持下,其未来具备更多的想象空间。
云计算的发展一直是以用户为中心,通过不断的技术迭代解决用云过程中遇到的各种问题。我们有理由期待,在CIPU为代表的新一代数据中心计算架构下,用户和互联网的创新会以更快的速度和云计算结合,不断推动技术的变革。未来已来!

在线申请SSL证书行业最低 =>立即申请

[广告]赞助链接:

关注数据与安全,洞悉企业级服务市场:https://www.ijiandao.com/
让资讯触达的更精准有趣:https://www.0xu.cn/

#
公众号 关注KnowSafe微信公众号
随时掌握互联网精彩
赞助链接