云网络的回归之路 | 业务可视篇

业务 可视云 网络:Visibility-as-a- Service( VaaS )VaaS (Visibility-as-a-Service,可视即服务)是星

业务 可视云 网络:Visibility-as-a- Service( VaaS )

VaaS (Visibility-as-a-Service,可视即服务)是星融Asterfusion 云网络 设计开发的业务可视 整体解决方案,能够轻松应对、完美满足云计算时代的运维所面临的各种挑战和需求。

构建VaaS方案的基石是NT(Network Telemetry,网络遥测)技术。

那么啥是NT技术呢?

NT技术为运维人员提供网络运行的实时参数和状态,并且能够将需要深度分析的网络数据复制出来,按照预先设置好的策略经过智能处理后,交给后端运营分析系统的子系统(运维、安全、审计、回溯、优化等)进行关联分析和呈现。

VaaS 整体架构一览

VaaS方案主要由这4部分构成:

INT (In-band Network Telemetry,带内网络遥测)

VNT (Virtual Network Telemetry,虚拟网络遥测)

ONT (Out-band Network Telemetry,带外网络遥测)

AFC (Asteria Fabric Controller)

图2:Asterfusion业务可视云网络整体架构

INT :基于可编程交换芯片的INT方案,在转发业务流量的同时,将网络的即时性能、状态、参数收集并记录下来,在网络的出口发送给运营分析系统,用来精准分析物理网络的健康状况

VNT :VNT方案是为运行在计算空间的虚拟网络 开发的流量采集与分析方案,在不影响业务系统性能的前提下,虚拟网络流量会被VNT采集出来,然后通过隧道发送给ONT方案,用来分析虚拟网络的运行状况;对于那些单租户,VNT能够将所采集的虚拟网络流量直接发送给后端的运营分析系统。

ONT :ONT方案将来自于物理网络和虚拟网络 的采集流量进行租户和业务的关联对应,再按照预先设定的策略进行智能处理(例如汇聚、分流、负载均衡、隧道解封装、业务负载裁剪、元数据提取、特征标记等),最后将处理后的ONT数据发送到后端的运营分析系统进行分析。

AFC :AFC(Asteria Fabric Controller)是VaaS的统一管理和调度平台,向南通过调用INT、VNT、ONT的REST API自动部署、按需调度、集中管理VaaS方案,同时向北为Cloud OS提供业务级的REST API,接受Cloud OS的统一调度和自动化管理。

VaaS整合了INT、VNT和ONT三个维度的技术与方案,即可以运行在星融Asterfusion的硬件平台之上,也可以运行在云计算的虚拟化环境中。

基于VaaS的业务可视云网络全面解决了云网络运维的各种挑战,完美满足云计算对云网络的运营提出的各种新需求。

接下来,让我们看看VaaS方案是怎么解决这些运营需求的。

虚拟网络与物理网络的综合运营

在星融Asterfusion业务可视云网络中,不同的组件方案都能完成对虚拟网络和物理网络的运营分析,并且能够在同一张ONT网络上完成虚拟网络与物理网络分析结果的关联对应。

图3:虚拟网络与物理网络的综合运营

如图3所示:

VNT方案采集虚拟网络 中需要被分析的流量,并进行适当的处理以降低对云中东西向带宽的消耗(例如过滤掉不感兴趣的流量、将感兴趣流量的负载部分裁剪掉),然后通过隧道发送到ONT网络进行处理;

ONT方案通过分光或者端口镜像的方式采集物理网络 中需要被分析的流量,这些流量也被发送到ONT网络进行统一处理;

ONT网络接收到采集完虚拟网络和物理网络的流量后,提取流量当中的特征,完成虚拟网络与物理网络的流量关联,然后将关联后的流量按照预先设置的策略进行智能处理,后发往运营分析系统;

INT方案能够将交换机在转发业务流量的那一瞬间自身健康状况数据采集出来,并且在业务流量离开网络进入业务系统之前,将业务流量携带的交换机健康状况数据从中剥离出来 ,发送给运营分析系统;

运营分析系统根据接收到的ONT数据和INT数据,对云网络整体进行综合运营分析。

我们看到,当云网络发生故障时,

星融Asterfusion业务可视云网络以虚拟和物理相结合的方式 ,帮助云的运营者快速、精准定位到是哪个租户的哪个业务出了问题,问题来自于虚拟网络还是物理网络,是业务流量超越SLA、还是物理网络自身性能瓶颈所致。

云级网络 的整体运营

星融Asterfusion业务可视云网络能够被部署在云中的任何位置~

图4:云级网络的整体运营

如图4所示:

当云中两个虚拟计算节点(两个蓝色的VM)通信时,在他们之间形成了一条虚拟网络路径(图中蓝色虚线),VNT方案能够将这条路径上的流量采集出来进行分析;

当这条虚拟网络路径上的流量通过物理网络传送时,在物理网络上存在两条路径在实际承载虚拟网络的流量,即图中的“物理网络路径-A(红色)”和“物理网络路径-B(金色)”,这两条路径协同工作,为两个虚拟计算节点提供高可靠、高带宽的通信通道;

在某一瞬间,虚拟网络流量使用哪一条物理网络路径,是由那一瞬间物理网络设备的负载状况、虚拟网络流量的自身特征、物理网络上同时承载的其他租户和业务流量的大小等因素共同决定的,并不能提前预知;

为了对图中的虚拟网络流量做全面的分析,ONT方案在物理网络的各个节点上都采集了流量,然后将这些流量智能处理后,发到后端的运营分析系统;

所以,运营分析系统就能够分别通过VNT和ONT获取全面的虚拟网络流量信息和全量的底层物理网络流量信息进行关联分析。

通过对物理网络的全量采集(任意位置、任意流量),再结合虚拟网络采集流量进行关联分析后,能够帮助运营者在网络层面构建云中业务的全景视图,因此,星融Asterfusion业务可视云网络能够为用户提供面向全网的整体运营能力。

面向 云网络 健康状况的精准运营

INT是最近几年出现的,能够对网络健康状况进行精准测量和分析的技术,目前已经被IETF所接纳,正处于被标准化的过程中。INT的整体架构如下图所示:

图5:INT的整体架构

与传统的用于观察网络健康状况的工具及能力(例如SNMP)相比,INT从根本上改变了观察网络健康状况的方法

INT系统一般由运Controller软件系统和支持INT能力的网络设备构成,Controller软件系统一般包含两个模块:策略编排模块分析呈现 而网络设备要能够接收Controller下发的策略,并且采集策略所要求的数据,最终输出到Controller进行分析与呈现。

一般来说,INT系统的工作流程大致如下:

Controller的策略编排模块根据管理员的需求生成对某种业务的测量策略,并通过管理通道将生成的策略下发到业务转发路径上支持INT能力的网络设备上;

网络设备的控制平面接收来自Controller的策略,将策略编译后下发到转发芯片中;

工作在转发平面的转发芯片根据来自于控制平面的指令在其所转发的业务流中采集相关的数据(出入接口、收发时间、队列长度、缓存状况等),并将这些数据按照指令的要求编码在业务流中向前传送;

在业务流离开网络进入业务系统之前,网络设备将所有的采集数据从业务流中剥离出来发往Controller的分析呈现模块,并将复原的业务流继续发送到业务系统;

Controller的分析呈现模块对所接收到的采集数据进行分析、呈现,描绘业务路径上的网络设备在转发业务流那一时刻的健康状况。

从工作流程可以看出INT具备如下主要特点:

动态。

按照业务与管理的需求对INT系统进行动态调整,能够随时对需要重点关注的业务进行观察。

推送。

INT系统会在转发业务流量的同时,主动向管理与分析系统推送采集的测量数据,而不是响应管理侧周期性的查询。

数据平面采集。

INT系统直接从网络设备的转发平面获取采集数据,这样就规避了传统模型中采集数据由控制平面生成、无法反应转发平面的真实状况或数据。

高精度。

传统模型中网络健康数据只能够反应网络在查询时刻的状况,精度较低,而INT采集的各种健康数据描述的则是交换机在真正转发指定业务流量的那一时刻的状态,精准度非常高。

多租户网络。

在承载着多租户、多业务的云上,INT系统能够仅仅对某一个租户的某一种业务进行转发过程的数据采集,帮助管理员针对租户/业务进行网络健康状况的精细分析。

星融Asterfusion基于可编程交换芯片与全开放架构开发的CX系列和NX系列云交换机全面支持INT能力。

图6:面向云网络健康状况的精准运营

如图6所示:

在星融Asterfusion业务可视云网络上,运营分析系统能够为不同租户的不同业务定义分析策略,然后动态下发到由星融Asterfusion云交换机(CX系列 & NX系列)构建的云网络上去;针对不同的业务流,云交换机在转发时刻将采集交换机的各种健康状况数据,然后将这些数据发送到运营分析系统,由运营分析系统从租户/业务维度完成对云网络健康状况的精准分析。

对于发现问题的业务流量,运营分析系统能够通过星融Asterfusion云网络的sFlow能力采样该业务流的部分报文,或通过ONT方案获取该业务流的全部报文,进一步的深入分析、定位问题。

不影响生产网络的高性能运营

星融Asterfusion业务可视云网络的ONT方案能够帮助运营分析系统全量获取云中的业务流量,从而获得更智能、更全面的业务分析数据。

ONT方案全量获取业务流量却不会给生产网络带来任何性能的影响,并且在生产网络与运营分析系统之间建立起一条不受距离和规模限制的传送通道。

一般来说,运营分析系统从生产网络获取业务流量的主要方法是端口镜像。

如下图所示,当需要对流动在生产网络中的某一业务流量进行跟踪分析时,管理员通常会在该业务流量所流经的某一台生产网络交换机上,利用该交换机的端口镜像能力,将正常转发的业务流量复制一份、经过镜像端口发送给后端的运营分析系统。

图7:通过交换机端口镜像采集数据

对于小规模、业务流量较小、业务变化不频繁的场景,端口镜像的部署方案完全没有问题。

但是,在云计算的环境,端口镜像方案有着显而易见的缺点

对生产网络的性能带来巨大影响。

通常,交换机开启端口镜像后,会对其自身的转发性能产生很大的影响;在云中因为业务路径的不确定性,需要在业务可能路径的所有交换机上开启端口镜像,才能完成针对业务路径的全量分析;所以,在大规模的云中使用端口镜像,将会对生产网络的性能带来巨大的冲击。

交换机可支持镜像的端口十分有限。

一般的,交换机支持镜像端口的总数量有限 的(个位数),对于大规模部署的云来说,仅交换机支持的镜像端口的数量就已经无法满足全量采集的需求了。

浪费生产网络的端口资源。

对于云计算来说,云网络最宝贵的资源之一就是其端口资源,在同样的空间内,每多一个网络端口投入到生产系统,就意味着ROI(投资回报)的提升和TCO的降低,所以,将大量的生产网络端口资源当作镜像端口使用实在不是一个明智之举。

耗时耗力,为生产网络的 安全运 维引入风险。

因为镜像对性能的影响,不可能随时对任何业务流量都开启镜像功能,但在云中,网络承载着数以十万计的租户和业务的流量,不同的租户和业务随时也都有可能产生运营分析的需求,这就意味着管理员要频繁地变更生产网络的配置,费时费力,而且为生产网络的安全运维引入了巨大的不可控风险。

要求后端运营分析系统服务器的数量线性增长。

在镜像部署场景中,每开启一个镜像端口,就意味着后端的运营分析系统要保留一个专门的端口来接收发送过来的业务流量,无论这个端口中实际传送的流量是端口带宽的10%还是100%;从今天服务器的一般配置与处理能力来看,这种端口密度匹配要求,意味着后端运营分析系统的服务器数量的线性增长。

为了解决上述问题,星融Asterfusion的ONT方案采用基于分光器的旁路部署、带外采集方案,在满足全量、全网采集的同时,对生产网络的性能、运维不带来任何影响。

图8:不影响生产网络的高性能运营

如图8所示:

在星融Asterfusion ONT方案中,与生产网络并行地建设一张ONT网络,然后通过分光器将需要采集分析的生产网络的线路旁路接进ONT网络,所有通过这条线路传输的业务流量在正常传送的同时,都会被分光器全量地复制一份。通过分光线路发送给ONT网络,经过智能处理后进入运营分析系统。

相对于镜像方案的缺点,ONT方案的优点 也是显而易见的:

因为分光的过程仅仅是对物理层光信号的复制与放大,因此对生产网络的性能没有任何影响。

数据采集的规模不受生产网络设备端口数量的限制,只需在需要分析的线路上部署分光器即可;

生产网络的端口可以全部用于生产,确保采集全量分析数据的同时,生产网络的ROI不会降低;

所有的变更、操作全部在独立的ONT网络上发生,不会对生产网络的运维带来任何风险;

ONT网络的智能处理能力能够将从生产网络采集到的业务流量进行智能处理、高效收敛,大幅降低运营分析系统所需服务器的数量。

更为值得一提的是,构建ONT网络的星融Asterfusion PX系列网络可视交换机采用可编程硬件平台,在单位空间内提供超高端口密度和超高处理性能的同时,还提供包括流量汇聚、负载均衡、流量裁剪、租户关联等各种智能处理能力,并且能够根据网络规模按需任意扩展,在生产网络和运营分析系统之间建立一个全线速的智能通道。

能够负担得起的低TCO运营

构建一个业务可视化分析系统对于运营好一张云来说的确是不可或缺的,一般来说,可视化分析系统的架构大致如下:

图9:业务可视化分析系统的一般架构

从逻辑上来说,业务可视化分析系统分为两层:

网络流量存储层

业务分析呈现层

网络流量存储层 与业务系统的生产网络直接连接,接收从生产网络镜像或者分光过来的业务流量,完成针对网络流量的初级处理之后,将报文及处理产生的元数据存储在本地,供业务分析呈现层使用。

该层需要执行的动作主要包括:

一对一全量接受网络流量

流量过滤,匹配识别流量特征

网络流量的编辑

全量储存过滤后的网络流量

解除封装、终结隧道、识别协议

元数据的提取与分析

元数据的存储

有一点需要强调的是,因为架构的关系,同属于一个业务的流量信息有可能存储在网络流量存储层的任何一台服务器上。所以,给业务分析呈现层带来了分析与处理层面的复杂度。

业务分析呈现层 直接向运营者展示业务分析的结果,它首先从网络流量存储层获取各种流量报文及其对应的元数据,按照业务逻辑对这些流量报文和元数据完成重构与各种分析后,按照预定的规则及分析逻辑将结果呈现在直接面对运营者的控制面板上。

该层需要执行的动作主要包括:

获取全量元数据

完成虚拟网络与物理网络的关联

完成元数据的去重

完成业务逻辑的一致性重构

分析与呈现

显而易见的,上述架构最大的问题在于:

大量的服务器在重复地做着同样的事情;

服务器大量地存储了对于业务分析来说无用的数据;

大量的服务器在做不擅长的事情;

架构没能解决业务逻辑一致性的问题,浪费CPU的计算力来解决;

这些问题导致为云中业务构建一个可视化分析系统的TCO会非常高,除了镜像/分光的成本以外,还意味着大量的服务器和存储系统。

星融Asterfusion VaaS的ONT方案成功的解决了上述问题,让针对云业务进行整体运营分析成为可以负担得起的方案。

图10:被ONT优化的业务可视化分析系统架构

星融Asterfusion VaaS方案在业务系统的生产网络和可视化分析系统之间构建了一个独立的ONT网络,然后将网络流量存储层和业务分析呈现层原先需要服务器做的工作全部卸载到ONT网络上 ,由ONT网络一次性地、高效地、专业地完成,不再浪费服务器的计算力 做这些不擅长的事情,而是专注在对业务的可视化分析与呈现上。

并且,星融Asterfusion的ONT网络还具备如下特点,可以进一步优化业务可视分析系统:

网络流量裁剪。 可选的报文截短功能将从生产网络接收到的全尺寸报文截短再到指定的长度,去除对于分析系统无意义的负载部分而只保留报文头部,在确保业务分析逻辑正确的前提下,有效降低后端存储服务器接收、处理负担,同时大幅降低报文存储的压力,提升单台服务器的使用效率;需要强调的是,星融Asterfusion VNT也能够支持网络流量裁剪功能。

重复流量剔除。 星融Asterfusion ONT网络能够将从生产网络的不同分段,接收到的重复的网络流量剔除后,只保留一个拷贝、发送给后端的报文存储服务器,大幅节省后端报文存储服务器的处理时间,降低其存储压力,并且为分析与呈现服务器降低处理重复数据的负担,进一步提升其处理效率。

业务逻辑重构。 ONT网络在转发从生产网络分光过来的流量时,除了完成原先在两层服务器上做的工作,同时,还从业务逻辑的层面还原、重构了同属于一个业务的流量(即同源同宿),确保同属于一个业务的所有数据全部输出到同一台网络流量存储层的服务器上,分析呈现层的服务器只需要从这一台服务器上就可以获得指定业务的所有信息,节省了从所有存储服务器读取数据的开销自行完成业务逻辑重构的开销 ;

业务弹性分布。 对于流量较大、单台服务器无法完成分析的业务,星融Asterfuison ONT网络支持将业务按照逻辑分布到由多台服务器组成的存储、分析集群上去,由集群中的多台服务器并行地完成对业务的存储、分析和呈现,而这种情形,在ONT网络缺失的情况下,是根本不可能完成的。

妥协性能的灵活性。 构建星融Asterfuison ONT网络的Asterfusion PX系列产品是基于业界最领先的可编程交换芯片及技术开发的,能够按照业务需求将各种功能(协议识别、隧道终结、流量裁剪、业务重构、报文编辑、元数据提取等)在芯片内部的处理逻辑中通过软件编程的方式实现,在以超强的灵活性确保快速响应业务需求的同时,又不降低系统的性能。

通过以上架构与能力,星融Asterfusion为云计算交付的是真正能够负担得起的低TCO运营的方案:

15:1的流量收敛;

单位空间最高6.4T的处理性能;

8倍的端口使用效率提升;

3倍的服务器效率提升;

更值得一提的是,构建星融Asterfusion ONT网络的PX系列网络可视交换机与构建云物理网络的CX系列和NX系列云交换机基于相同的硬件平台开发,对于运营来说,相同的硬件平台则意味着统一库存、备件管理和灵活的部署选择,将进一步降低运营的综合成本。

您可能有感兴趣的文章
青云QingCloud开源容器平台KubeSphere助力微宏科技落地微服务架构

激斗云计算:互联网大厂打响新一轮排位战

青云QingCloud成为北京市算力互联互通试点参与企业

警惕!云原生应用带来三大安全风险

2023全球云计算市场份额排名