行业新闻

超融合基础知识

2022-04-12 16:34:29 gx 160

随着超融合在国内市场兴起并逐步成为主流,

一场针对于IT基础架构的技术变革悄然而至。

高性能工作站服务器找我们

沿用二十多年的传统IT架构面临着新一代架构的严重冲击。

近几年来,面对巨大的市场机遇,超融合厂商也如雨后春笋,不断涌现。


企业用户的数字化转型发展得益于超融合架构的创新推动,但同时也面临着如何评测和遴选优质厂商及产品的难题。


这些主流国内外超融合厂商到底有哪些区别?

他们产品有何优劣势?

到底应该从那几方面去评测超融合架构才能拨开迷雾?


对比分析市场各主流超融合和厂商,帮助超融合入门用户全面而深入地理解超融合概念,并能从核心关键方面来了解不同厂商及产品的特点,从而结合企业的情况进行有针对性的评估与选择。



一、超融合到底是一个概念还是一门技术?

超融合是一种 IT 基础架构构建方式,

其核心思想是使用通用硬件,

用软件定义来实现 IT 基础架构的各项服务,

包括:计算,存储,灾备,运维管理等,并且这些服务都在统一的平台上。


超融合概念包含三个要素:


使用通用硬件:

具体说就是 x86 服务器,所以如果出现专有硬件的 IT 平台的就不属于超融合。

比如,传统集中式存储里的存储控制器就属于专有硬件;


软件定义: 

即超融合 IT 服务是通过 x86 服务器里运行的软件实现的,

如:分布式存储软件实现数据存储服务;

相比之下,传统 IT 服务大多是用专有硬件且功能逻辑写死在固件里;


统一平台:

所有的 IT 服务要在一个平台下,隶属于同一个软件栈,

这里区别于以往 IT 服务架构方式,

各服务会属于不同的平台;

需要特别区分的是,

市面上将存储设备,服务器,网络交换机

放在一个机柜里整体交付的融合方案,

如:VCE Vblock,和超融合完全不同。


可见超融合是一个概念,而不是一个技术,

明确这一点对于理解超融合本身非常重要。


不同超融合产品和厂商的区别或差距不在概念本身,

而在超融合背后的技术和实现方式。


一个简单的类比:“汽车”就是一个概念,

字典里的解释是:“通常为四轮的自动车,用于街道和公路运输”。


这里至于如果实现这个概念并没有做规定和限制,

所以无论是纯电动的特斯拉,福田小卡,高尔夫球车,

都是满足上面的定义,但是使用场景和背后的实现,可谓天壤之别。


二、评估超融合平台到底需要关注哪些核心问题?

明白了超融合只是概念,进一步的问题:

各厂商超融合产品的实现有哪些不同?

这个问题才是选择超融合真正的关注点,展开来有四个子问题:


1.超融合平台整合了哪些 IT 服务?

1) 分布式存储打破数据孤岛


虽说超融合通过软件定义的方式整合了多个 IT 服务,

但其中软件定义存储是基石。


这里需要说明一下:池化服务器的本地存储,要求软件定义存储必须是分布式的,

且能被虚拟机挂在成虚拟卷使用,不加特殊的说明,

超融合平台里的软件定义存储指的是分布式块存储。


没有稳定可靠的分布式块存储,

就无法对外提供统一的存储资源抽象,

没有统一的抽象,

各个服务器的本地存储就是一个个数据孤岛,

与传统的单机存储没有区别。


所以,讨论超融合平台却不讨论分布式块存储,

而避重就轻的展示平台 IT 服务的种类,

更甚者竟然用支持 IT 种类的多少作为超融合的代数标准,

基本可以判定是一种“误导”,

本质是这类厂商不具备超融合与分布式存储的研发能力。


主流核心厂商都无一例外的在分布式块存储上有着核心的竞争力和自主研发能力,

比如:Nutanix Acropolis Enterprise Storage (内部之前叫 NDFS), VMware VSAN ,SmartX ZBS等 都是对应超融合平台里的核心分布式存储。



2)虚拟化计算同样不可或缺


虚拟化计算是超融合平台另一个不可或缺的服务,

有了存储和计算就有了最基本的 IT 基础架构,

很多厂商也会一部分网络服务的功能纳入到虚拟化计算。


由于 Hypervisor 的技术相对成熟,

无论是闭源的 VMware ESXi 还是开源的 KVM,

无论功能还是性能都通过了很多年市场验证。


所以虚拟化计算服务在超融合平台上基本集中在 VMware 产品和 基于 KVM 自研的产品,

如:Nutanix 的 AHV(基于 KVM),VMware 的 vSphere(基于 ESXi),SmartX 的 Elf(基于 KVM)等。当然 Nutanix 和 SmartX 也同样支持 VMware 虚拟化计算平台,而且借助其强大的存储服务,整体超融合平台的表现甚至还要优于 VMware。


3)一个平台管理多个IT服务,运维简化是趋势


随着单个服务器计算能力越来越强,

越来越多的 IT 服务其实都可以通过软件定义的方式来实现,

如:灾备服务、全闪存、容器服务、网络服务、安全服务等。


一个平台上有多个 IT 服务是一种趋势,

伴随着革命性的变化就是:

传统架构下需要运维管理多个 IT 平台,在超融合下,一套管理平台就够了,这就为从全新的角度审视 IT 运维,提供了极大的想象空间。


同时,在超融合架构下实现强大好用的统一管理平台,其重要性和优先级也被提升到前所未有的高度。

像超融合领导厂商 Nutanix,SmartX 等,在运维管理平台上都下足了功夫,

分别推出了智能强大的管理平台:Nutanix Prism 和 SmartX Fisheye,极大的提升系统的易用性。


总结一下就是,

超融合平台里分布式块存储、虚拟化计算和统一运维管理平台是最小,也是最核心的集合,

缺少任何一个都无法称作超融合平台。

但随着硬件的发展,更多的服务势必会在超融合平台里实现。


2.这些IT服务是如何实现的?

评测超融合产品,

关键不是看包含了哪些 IT 服务,

向超融合这个“盒子”里塞更多的 IT 服务远不如塞进“盒子”IT 服务的质量重要。


一些厂商借助客户对超融合市场认知的不成熟,

会一味的拼超融合平台上服务和功能的数量。

通常的做法就是拿开源的项目,

如:“OpenStack + 开源分布式存储 (Ceph/GlusterFS…)” 搭一个功能看似大而全的“超融合平台”快速推向市场。


可以看到,几乎没有用户最终能够真正的用起来,

原因在于这种拼凑的“超融合”产品往往各个服务组件的质量无法过关,

在可靠性,稳定性,性能方面问题多多,

加上开源社区基本不在这些 厂商的控制之下,

所谓的售后支持形同虚设,很难达到一个产品应该拥有的市场准备度。




1)实现机制是核心


服务的核心在于实现它的技术和机制。

举一个手机电池的例子,为了实现手机长续航的能力,

一家厂商简单的增加电池块的容量,

另一家公司采用的是优化手机软件的电池管理算法,

即便最后的测试下来都能续航两天,

但第一家手机在续航的实现机制上是不如第二家的,

因为增加电池块会引起手机发烫,

并且有电池爆炸的风险,

但这些缺陷无法在测试续航时间这个指标里得以体现。


同样的道理适用于超融合产品。

超融合产品比拼最重要的必然是分布式块存储、虚拟化计算、运维管理平台的实现。


重中之重是软件定义存储,它是超融合平台的基石。

当前市场里各家超融合平台分布式块存储的实现无非是两个途径:


自主研发,如:Nutanix NDFS,VMware VSAN,SmartX ZBS,华为 Fusion Storage;

直接采用开源的分布式存储或在开源基础上小幅改造,如,Ceph,GlusterFS;


开源最大的好处是产品上市的周期可极大的缩短,

最大的风险除了存储的稳定性没有保障,

还有就是厂商对存储的控制力和维护能力几乎没有,

存储系统不比其它系统,守护着企业最重要的数据,

一旦发生问题就会陷入束手无策的失控境地,给企业带来的损失是惨重而不可估量。


这里有一个不可忽视的事实,

国外知名超融合厂商无一例外的都走了自主研发的道路,

也证实了在成熟的市场环境下,用户会理性的选择自主可控且有保障的产品。

纵观 IT 发展的历史,甚至没有一家存储公司,

使用开源的存储项目来实现自家的存储产品,

并取得产品和商业的成功。


再次验证了,存储关乎业务的连续性、数据的可靠性和安全性。

没有一家企业客户“敢”把自己的业务托付给不可控的存储产品。


市场上所有的分布式块存储架构基本可以收敛到两种,

一种数据放置和分布依赖元数据服务,

另一种数据放置和分布依赖一致性哈希。


但就分布式块存储本身而言,两种数据架构各有千秋。

但在超融合场景上,元数据服务的方式有更多的优势,

数据的放置更灵活可控,

如:VM 数据本地化能缩短 I/O 路径,大大减少网络流量。采用这种架构的产品有 Nutanix NDFS 和 SmartX ZBS。


其次是虚拟化计算,与存储不同的是,虚拟化的核心技术 Hypervisor 相对成熟。各超融合产品更多比拼的是虚拟化平台的支持能力。支持多种虚拟化平台意味着更少的厂商绑定的风险。此外,是否支持虚拟化的特殊接口也是很重要的指标,它直接影响使用体验和维护支持,比如:VMware VAAI/VVol,Citrix Ready 等。这块比较优秀的国外厂商是 Nutanix,几乎支持所有的虚拟化平台;国内厂商 SmartX、华为支持除 Hyper-v 以外的所有虚拟化平台;VMware 只支持自家的虚拟化平台,开源超融合方案一般只支持 KVM。


KVM 作为开源的 Hypervisor 被很多厂商选用,但各家需要实现自己的虚拟化计算管理平台,除了基本的 VM 生命周期管理,还至少需要实现企业级常用的功能,如:VM HA、、虚拟分布式交换机、共享盘等。


除了存储和计算,其他 IT 服务或多或少会依赖以上两类核心服务,比如:容灾和备份依赖存储服务;容器编排依赖计算服务。


2)资源消耗需着重评估


除了服务的实现机制,超融合平台有一项特殊的要求:资源消耗要尽可能的小。超融合场景下,消耗大量的资源是绝对不能接受的,每个物理服务器除了运行存储、计算等多个 IT 服务,还要把剩余的资源分配留给业务应用,IT 服务占用资源越大,留给业务应用的资源就越小,甚至挤压到业务无法运行。资源消耗不仅节省 TCO 的指标,更是影响超融合实用性的重要变量。


以下收集了各厂商分布式块存储产品的资源消耗情况。



3. 服务如何进行整合与管理?

1)各有利弊的三类服务整合方式


服务整合广义是超融合平台上各服务的结合方式,但业内讨论更多的是存储与虚拟化的整合。大致可以分为三类:


存储服务作为内核模块运行在 Hypervisor 内部。最典型的代表是 VxRail,存储服务 VSAN 作为 ESXi/vSphere 内核模块被整合 。这种架构下存储服务不经过Hypervisor直接访问存储设备,几乎无性能损耗,理论上本地 I/O 性能可以充分发挥,遗憾的是 VSAN 的实际性能在超融合产品里并不突出,应该是存储软件的优化相比其它厂商还有差距。这种紧耦合架构存在以下风险:

厂商锁定的风险,如 VMware 超融合平台虚拟化计算锁死了 vSphere;

计算和存储无法独立升级;

存储或虚拟化计算服务任何一个发生问题都可能会影响对方的正常工作。


存储服务运行于 Hypervisor 上独立的虚拟机里,该虚拟机实际起到虚拟存储设备 VSA(Virtual Storage Applicance)的作用,所以也称为控制虚拟机(Nutanix 称 CVM)或者存储控制虚拟机(SmartX 称 SCVM)。VSA 需要通过 Hypervisor 访问物理硬件资源,一般为了降低性能的开销,VM 会以直通的方式访问硬件资源,如:HDD,SSD,网卡等。这种架构里虚拟化与存储解耦,互不影响,可以独立升级,甚至 VSA 发生故障不工作,也不会影响该物理节点,通过 I/O 路由的技术,VSA 故障节点上的 VM 会通过其他正常的 VSA 访问存储资源。当然,给用户带来的最大收益还有消除了 Hypervisor 锁定的风险,VSA 可以支持多种虚拟化计算平台。 采用这种整合的产品有 Nutanix,SmartX Halo for VMware。


存储服务运行在 Hypervisor 外部,但与 Hypervisor 隶属于同一个软件栈。这种架构适用于 KVM 超融合平台。比如,SmartX Halo 超融合平台自带的虚拟化平台 Elf 基于 KVM 实现,分布式块存储 ZBS 与 Elf 都在 Halo (SmartX OS) 软件栈上。这种整合的最大优势在于:

性能相比 VSA 的方式要好;

存储或者 Hypervisor 出现故障互不影响。


2)管理与运维好才能发挥出超融合的优势


由于涉及比传统平台更多的 IT 服务,超融合更加强调管理平台的重要性和易用性。强大好用的管理平台能大大提升运维效率,降低运维成本,将超融合架构敏捷的特性发挥得淋漓尽致。


超融合厂商产品家的管理平台一览:



一个优秀的超融合管理平台应该涵盖产品从交付到日常运维的方方面面:


基于 Web 管理 UI 应该是超融合平台的标配,同时 Web 管理服务也是超融合服务的一种,需要考虑管理控制台的的高可用;Nutanix Prism 和 SmartX Fisheye 都是分布式的管理平台,没有单点故障,相比之下 VMware vCenter 就存在单点故障的风险;

集群服务管理,包括:存储,虚拟化,网络等管理;更进一步,由于采用了软件定义的技术,管理平台也应该能展示并洞察更细粒度服务,比如:软件定义存储里的分布式组件服务;

基于事件、性能的监控、分析和报警,可以说各家的产品或多或少都在这块有支持,但是仔细研究会发现功能丰富度和易用性各产品差别巨大。这块做得非常突出的是 Nutanix 和SmartX的产品,两家都能在全局集群、物理服务器、虚拟机三个层面提供丰富的性能和事件的监控、分析和报警。


自动化、图形化的安装工具。简易安装和部署不仅是系统快速上线的关键,也是超融合作为软件交付的必要前提,像 Nutanix Foundation和SmartX Tuna 都提供了非常方便的 UI 安装和部署工具,整个部署过程通常能在 1 个小时内完成;

系统硬件管理,好的管理平台也应该能支持数据中心硬件的拓扑管理和配置,这方面 VMware,Nutanix,SmartX 都非常优秀,尤其是 Nutanix 和 SmartX 都提供了基于集群拓扑的管理。

4.产品有哪些交付方式?

超融合依托标准的 x86 服务器,一般可以是安装了超融合软件的一体机或者是独立的软件授权。当前主流厂商支持的交付方式如下:




解决方案