基于EVPN+VxLan的虚拟化网络设计

By 高亮@锐捷网络股份有限公司

摘要:本文针对互联网行业普遍采用的虚机\/容器等虚拟化技术,提出了基于硬件网络设备的Overlay解决方案,通过采用EVPN+VxLan的分布式架构设计,实现更高性能、更加标准化的网络设计,在自有IDC内搭建类公有云VPC的私有云网络,更好的支撑业务的快速部署和频繁变更,满足虚机\/容器等计算虚拟化技术的灵活应用。

基于EVPN+VxLan的Overlay技术适合互联网公司新一代数据中心的建设,通过借助SDN技术解决网络运营的自动化及运维的可视化,降低部署和运维的成本。

前言

业务的爆发式增长是互联网行业的一个重要特点,网络基础设施为了能够快速支撑业务的快速发展,网络技术本身也发生了日新月异的变化,而且新技术也越来越快的被普遍接受并快速地投入到生产环境。从计算虚拟化的角度,以Openstack为代表的虚拟化技术已经广泛的应用到业务网络,通过KVM\/Xen等技术实现服务器资源利用的最大化,节省成本的同时提高了业务灵活性。而近一年来,Docker技术也已经真正的从被观望的状态转为真正的生产体系,这在京东、蘑菇街等知名互联网公司相关报告中都可以看到。

虽然虚机\/容器等计算虚拟化技术已经被大家普遍应用,但是业内还是普遍沿用了传统网络架构来支持虚机\/容器的部署,要么虚机\/容器只能固定在单台TOR交换下面,不能实现单子网内的虚机\/容器跨机柜的灵活部署;要么采用大二层组网架构,虽然虚机\/容器可以在IDC内灵活部署,但是广播域问题及组网的可靠性又会随着服务器规模的增加越来越凸显。

以阿里、腾讯、美团、金山云等国内大牌公有云公司的产品越来越丰富、成熟,在业务发展初期,的确可以帮助我们快速进行业务的部署,轻松实现业务的弹性伸缩,但是随着业务规模的扩大,从数据安全及成本角度,大家都会逐渐建设自有的IDC网络,但是如何在公司内部搭建类似公有云的私有云网络,让基础网络与业务真正脱耦,把基础网络变成真正的网络资源池,基础网络架构部门更像一个独立的资源提供方,为上层各个业务产品、业务部门提供中立、通用,并且安全、可靠。而共有云中VPC的能力,是实现多业务、多租户隔离的重要手段,这是私有云网络搭建的一个重要基础能力。

目前业界的普遍思路,把基础网络架构的Underlay网络和Overlay网络实现分离已经达成一种趋势。Underlay网络作为基础承载网络,与业务脱耦,主要负责Overlay网络的可靠、高性能转发;Overlay网络面向业务,提供灵活的网络部署。

Overlay网络的实现有很多种技术,比如VLAN、Vxlan、STT、Nvgre等,而Vxlan网络自身又分为软件实现和硬件实现,从Vxlan 网关的角度,又分为集中式和分布式,而Docker自身也有了多种Overlay解决方案。

在传统思路下,互联网公司软件开发能力强,创新能力强,更习惯通过软件方式实现Overlay网络,比如依托OVS的实现,或者依托于一些开源的Overlay方案进行二次开发、优化。从普遍的结果来看,通过软件方式实现Overlay网络主要有三个层面的问题:

  • 性能低:虽然软件开发实现的灵活性最高,开源依据自身业务特点、运维能力等特点灵活进行二次开发定制,可以开发量体定制的方案,这在技术探索初期不会有明显的问题,但是当业务量增长到一定级别,软件方式实现的Overlay网络会出现性能偏低的问题,单机吞吐能力无法进一步提高,不能充分发挥硬件资源的能力,造成浪费,影响业务本身。

  • 成本高:无论是自主创新的Overlay网络,还是依据开源资源进行二次开发、优化,都需要投入大量的研发资源,包括人力和时间,这对公司本身就是非常大的成本投入。而且随着业务规模的增长及新业务的开发,需要持续投入资源进行软件的开发、优化。

  • 兼容性差:从业界普遍的角度来看,每家都投入大量相关资源进行了自主定制开发,但是总体上看是一种重复投资。即使部分企业愿意开源自主定制、优化的Overlay方案,也难以通过社区方式形成规模效应,真正推动一种软件方案的标准化,并持续优化、改进。

本文重点讨论基于硬件网络设备实现的EVPN+Vxlan的Overlay方案,并讨论其运营和运维自动化的实现。

借助业界标准的交换机芯片实现的Overlay网络,可以借助多厂商的力量实现技术的标准化,并借助网络设备厂商在多企业、多环境的规模部署和应用,也会不断改进、优化整体方案,实现更强的通用性,在可靠性、稳定性上也会不断改进。依托标注网络设备实现,从成本角度,互联网公司自身投入最小,可控性更高。

互联网业务快速发展对网络技术的挑战

在国家推行的“大众创业、万众创新”的政策号召下,国内整个互联网都保持着持续、健康的成长。

从CNNIC 2016年1月发布的《中国互联网发展状况统计报告》中可以看到,截止到2015年12月,中国网民的规模达6.88亿,从2010年到2015年,每年网民稳定持续增长,在2015年的互联网的普及率达到50.3%。而中国网站的数量在2015年相比2014年暴增近20%。从中国国际出口带宽的角度分析,2015年国际出口带宽为5392Gbps,年增长率为30.9%。从上面的数据可以看出,整体互联网行业发展的仍然十分健康成长。

在整个互联网发展过程中,基础网络网络技术及相关产品也被推动快速发展。无论是网络设备还是相关的网络技术,实际上是被上层业务推动的。主要体现在以下几个方面:

  • 业务驱动:当前的互联网行业的特点是业务规模的快速发展,对于一家互联网公司来讲,最直接的体现是需求的服务器数量快速增加。在业务爆发期,每年对服务器新增的需求是非常巨大的,这对基础架构的团队来讲,就需要基础网络快速的交付,以此支撑业务的快速上线、扩容,并且要求基础网络能够满足适应业务的快速变更,这对于初创公司来讲更为明显。

  • 数据驱动:从数据存储的角度,在业务规模较小时,本地化或集中的数据存储就可以满足业务的开展,整个基础网络中主要是南北向的流量,服务器千兆接入就可以满足业务并发的要求,但是随着业务的发展,业界越来越多的采用基于类ceph的分布式存储,而且基于Hadoop和Swarm类的数据挖掘集群也会被广泛的部署,这时网络中东西向的流量会远大于南北向流量,对基础网络的转发能力提出更高要求,这时服务器千兆接入已经不能满足业务要求,很多公司已经普遍升级为万兆接入,个别公司已经开始探索尝试服务器25G的接入。

  • 计算技术驱动:从计算虚拟化的角度,以KVM\/Xen为代表的虚机技术及以Docker为代表的容器技术已经越来越多的被规模应用部署。虚机\/容器本身对运维的价值不在这里展开,为了进一步充分发挥虚机\/容器的价值,对基础网络的能力也有新的要求,如要求提供可以任意扩展的超大规模二层网络,支持虚机\/容器的随意部署、迁移,甚至包括跨IDC的部署。还有多租户隔离的问题,包括IP地址的重叠。

  • 运维驱动:站在运维的角度,在上述三个驱动下,以前运维的团队只需要面对少量服务器及简单的架构进行传统的运维,但是随着服务器数量的增加、网络流量的增加、虚机\/容器的大量部署,现在运维团队要面对的已经是一个交织复杂的体系,而运维团队资源永远都是有限的,所以如何在新的形势下以现有资源支撑整个运维的工作,那么就需要从架构设计的角度,考虑借助新技术来简化运维工作、降低运维成本、提升效率。

当前网络架构的设计已经不简单,但从业界看,已经趋于统一,总结起来就是以计算虚拟化为核心,考虑成本和效率的提前提下实现架构的场景化、标准化、自动化和可视化。

  • 场景化:对于IDC基础网络架构会涉及很多场景,比如内网、外网、DCI、WAN等,需要基于场景,从业务角度考虑网络架构的差异。在一些大型的互联网公司,应从组织架构上基于场景进行了划分。

  • 标准化:一个网络架构的设计,对于任何公司来讲都是十分谨慎,因为一旦确定采用一个新网络架构,都对上层业务、下层运维产生至关重要的影响。而一个新网络架构也不可能一次性就能够考虑完美和固定不变的,总是需要在业务运行中不断的进行完善,这就需要一个标准化设计,并基于此不断完善,满足未来2~3年的业务发展。另外,标准化设计的重要性在于简化架构设计,实现快速交付,特别是在业务突发时,可以基于标注化的架构进行快速的复制,进行快速的实施。最后,标准化架构是实现自动化的重要基础,只有在标准化的架构下,才能在运营和运维方便进行自动的实现。

  • 自动化:自动化价值主要体现在日常业务运营和运维上,通过自动化大大降低了对人的依赖。从日常运营的角度,基于Overlay的业务承载网络可以随着上层业务的变更实现网络配置的自动下发,实现类似公有云的产品体验,不再需要通过工单的方式由人单独去针对业务的变更进行网络配置的修改。从运维自动化的角度,当基础网络出现故障,被投诉某业务流出现问题,如丢包时,也可以通过自动化的手段,联动运维平台一键排查,甚至开发给业务部门联动业务系统自动排查网络层故障,快速定位、解决。

  • 可视化:主要有两个方面,一个是基础网络面向业务部门,提供一个可视化的可用资源Portal,类似公有云的业务平台,提高产品的使用体验;另外一个是面向运维部门,所有基础网络的管理,特别是虚拟的Overlay网络,需要一个直观的可视化平台,针对网络内的真实转发路径、丢包情况、时延抖动等相关因素全部通过图形化的界面呈现出来,让运维人员直观的看到全局情况,提高影响能力。

基于以上描述的架构合计思路,具体到落地,核心基础就是要实现基础网络的Underlay与Overlay分离的设计。

所谓的Underlay网络,就是传统的那张看得见、摸得着的物理网络,由一系列的物理的交换机、光纤、网线等设备连接起来。对于Underlay网络,在新的架构设计中,要与业务网络脱耦,所有业务层面的变更与Underlay网络无关,通过Underlay网络架构的标准化,实现对业务的通用、适配,利用最简单、最成熟的网络技术确保基础网络的可靠、稳定,并通过一些技术手段简化基础网络的运维。

对于Underlay网络不是本文讨论的重点,简单总结看,在Underlay网络中,主要采用Clos的无阻塞架构设计,也称为Fabric架构。可以采用二级组网或三级组网,目前看到比较多的是二级组网,即Spine+Leaf,国内腾讯、百度、美团等互联网公司有较多采用,而三级组网相比二级组网,增加了汇聚设备,以Pod为单位进行横向扩展,国内阿里有采用这种架构,国外的Facebook也是这种组网。

Overlay网络技术的实现

讲到Overlay网络,属于新架构下的业务承载网络,面向业务,提供灵活的网络支撑。Overlay技术其实就是在Underlay网络架构上叠加的虚拟化的技术模式,可以不对基础网络进行大规模修改的情况,实现了业务的承载。Overlay可以理解为一种隧道的封装技术,类似IPv4inIPv4、GRE、MPLS等,相当于在源网络和目的网络之间拉了一根“光纤”,只不过Overlay技术是通过点到多点的隧道封装,完全忽略中间网络的结构和细节,以此实现二层网络跨三层的任意延展,把中间的网络虚拟成一台“巨大无比的二层交换机”,实现虚机\/容器在网络中的任意部署及随意迁移。

对于Overlay技术的产生,主要是满足计算虚拟化的深度部署,因为从业务角度,业务的快速发展必然会有频繁的业务变更,同时从满足资源共享、资源调度、容灾备份、动态整合等角度,会涉及同业务、同子网的虚机\/容器跨多宿主机的任意部署或迁移,实现业务的弹性伸缩。对于这种场景,意味着同子网内的虚机\/容器会借助这个二层网络散布在网络内的任何角落,而在虚机\/容器迁移过程中需要有两个基础能力才能保证业务的实现,即虚机\/容器的IP和MAC不能改变,同时虚机\/容器网关的IP和MAC也不能改变,这样才能实现业务的任意扩展及迁移。

针对上述的大二层方案,传统的网络技术无法满足要求。

基于传统的网络虚拟化技术,在大量使用虚机\/容器的网络中,意味着更多的虚机,在大型数据中心中,意味着上百K数量的主机存在,那么就需要一张更大的MAC地址表,而传统网络技术都存在一定的问题。

VLAN+STP模式:

  • VLAN也是网络分片的虚拟化,小规模部署可以应对多租户的网络隔离
  • 单一大二层网络导致TOR的MAC地址表项超出网络设备能力
  • 基于STP的防环路协议不能充分利用链路带宽
  • STP的收敛性能也限制了网络规模(100台交换机以下)
  • 广播、未知单播的整网泛洪,导致网络的可用性

网络设备虚拟化:

  • 解决传统STP技术的缺点,简化网络拓扑,提高可靠性
  • 强制的拓扑形状限制网络规模,灵活性差,适合小规模网络
  • 存在裂脑风险

Trill\/SPB\/FabricPath类技术:

  • 此类技术通过类似MACinMAC的方式进行二层网络的扩展,但是非标准化实现,而且缺乏规模应用,非主流
  • 关键是需要全新的硬件进行升级

因为传统技术存在种种弊端,新一代的Overlay技术随之产生。

Overlay技术,在一种网络架构上叠加的虚拟化技术,借助“隧道”实现二层网络的打通,对Underlay网络没有任何特殊要求,只要IP可达即可,所以Underlay网络多采用三层组网,规避环路的产生,通过OSPF\/BGP等路由协议进行网络的收敛,提高可靠性,并可以充分借助ECMP等价路由来充分利用多俩路的带宽。

Overlay技术有多种,比较常见的是Vxlan、NVGRE、STT三种,具体差别如下表:

从实际部署的角度,应该说Vxlan技术是大家主流的选择。

Vxlan(Virtual eXtensible Local Area Network),主要特点如下:

  • 标准化:基于RFC7348
  • 扩展性强:采用24bit表示VNI(Vxlan Network ID),支持16M的网段\/租户
  • 灵活性好:采用MAC in IP的封装方式,可以跨越三层网络,无状态,二层网络任意延展
  • 性能高:可以充分利用Underlay网络中的ECMP链路,实现流量的负载分担。

Vxlan在具体实现落地时分为两种,一种是主机Overlay,一种是网络Overlay

主机Overlay

Vxlan协议最初实现时,大家都是基于软件的方式去实现Vxlan的封装,主要是在服务器的vSwitch上完成协议部分,不需要对现网的网络进行任何的变更即可完成Overlay的部署,可以支持虚拟化的服务器之间组网互通。

Vxlan中的VTEP、Vxlan GW等都通过安装在服务器上的vSwitch软件实现,只需要物理网络设备对封装之后的Vxlan报文进行传统的IP转发集客,主要IP可达,即可构建一个大范围的二层网络,这种主机Overlay技术试下,屏蔽了物理网络的模型和拓扑的差异,将物理网络的技术实现与计算虚拟化的关键要求分离开,即Overlay与Underlay的分离,云的相关计算资源调度范围扩大。具体模型如下:

主机Overlay方案的优点:

  • 所有OVS相关流表都在服务器的内存中,理论支持巨大的流量,不会受表项容量的限制
  • 对现网架构及相关设备没有任何特殊要求,成本低
  • 可编程,灵活性高

主机Overlay方案的缺点:

  • 性能低:所有的Vxlan封装、查表等工作都是通过主机软件实现,需要占用主机的资源,在转发性能上存在很大的瓶颈,这在很多互联网公司实践中都遇到
  • 非标准化:业界通过对OVS、Vxlan等软件都进行了相关定制开发,虽然可以更好的满足自身需求,但是从业界角度难以形成真正的标准化,通用性差
  • 非系统化:采用主机Overlay方式,仅实现了基本转发面的问题,但是从整体运维角度,还需要开发配套的自动化系统实现对接
  • 流量边界不清晰:因为Vxlan的VTEP在服务器内部完成,所以传统网络运维团队在交换机上无法看到虚机\/容器的真实业务流量,对于故障排查造成很大的困难;当出现任何网络问题,需要系统运维团队与网络运维团队配合才能进行定位,工作界面交叉严重
  • 成本高:基于主机的Overlay实现,因为无论从性能提升、自动化运维、网络可视化等角度,都需要公司投入大量的人力进行开发,这本身就是很大的开发成本,而且最终的效果还有待评估。

网络Overlay

网络Overlay指的是Vxlan相关功能都在物理交换机上完成,包括相关的VTEP及Vxlan GW等功能,都通过控制协议在网络上设备上完成。

网络Overlay方案的实现,主要依托于交换机芯片对Vxlan相关功能的支持,当前业界主要是依托Broadcom(Avago)的实现,主流的网络设备厂家,如华为、华三、锐捷等都有采用Broadcom支持Vxlan功能芯片的交换机产品。当然,除了Broadcom有相关的芯片方案,其他芯片厂商也有相关实现,如Marvell、思科、MTK等,只是从出货规模和成熟度上分析,Broadcom是绝对的主流,也是主流网络设备厂商采用路线。

在Broadcom的芯片系列中,对于支持Vxlan技术的芯片,需要区分接入及核心。

  • TOR系列:当前主流的是Trident2和Trident2+两种,这两款芯片都是提供10G接入,40G上行,当然,针对下一代25G接入的场景,Broadcom有新的Tomahoc芯片,这款芯片不在讨论范围。针对Trident2和Trident2+芯片,转发性能没有区别,主要差别在于对Vxlan的支撑能力,其中Trident2只支持Vxlan的VTEP功能,即桥接功能,实现传统VLAN到Vxlan网络的映射,但是不提供Vxlan的Router能力,如果需要跨VNI的通信,需要提供专门的Vxlan Router。而Trident2+同时支持Vxlan的Bridge和Router,不需要借助额外的Vxlan Router 即可实现跨VNI子网的通信及Vxlan网络与传统网络的通信。这两种芯片对后面提到的网络Overlay组网架构有非常大的影响。从产品化的角度,随着芯片的更新换代,两代芯片成本差异越来越小,各主流厂家已经基本都切换到Trident2+芯片方案,而从互联网公司采购的角度,也基本都统一要求交换机采用Trident2+芯片,在成本差异不大的情况下,即使当前不急于部署Vxlan网络,也预留了产品能力,保护了硬件的投资。

  • 核心系列:当前主流的是芯片方案有两代支持Vxlan技术,包括上一代的Arad+和当前的Jericho芯片方案。两代芯片都采用CLOS架构,基于网元分片进行无阻塞转发,但是转发能力有所差别,Arad+单片可以提供200Gbps的单向小包线速转发,而Jericho芯片可以提供480Gbps的单向晓波线速转发,这导致产品基本形态上有了较大差别,Jericho芯片最大可以支持单业务板卡提供36口100G线速转发,而Arad+芯片最大支持单业务板卡36口40G接口线速转发,这对100G需求量比较大的场景有较大的影响。从Vxlan的实现能力上有了很大的差别,Jericho芯片支撑的更加完善,可以同时提供Vxlan的Bridge和Router能力,而Arad+要么提供Vxlan的Bridge,要么提供Vxlan的Router,不能同时提供,这对实际组网有较大的影响。另外,Jericho芯片对Vxlan的相关表项支撑的更大,可以更好的满足超大规模组网。

网络Overlay方案的优点:

  • 高性能:基于硬件实现Vxlan相关功能,解决了主机Overlay网络遇到的性能瓶颈,无论是10G接口、40G接口还是100G接口,都可以线速实现Vxlan的Bridge和Router功能。

  • 效率高:相比主机Overlay方案,网络Overlay方案释放主机的CPU、内存等开销,释放的主机能力可以更多的提高计算能力,提升整体效率

  • 统一标准化:基于Broadcom的商业交换机芯片方案,保证各厂家网络设备的统一实现,解决主机Overlay方案遇到的标准化问题,解决通用性。

  • 成本低:借助多厂家的统一实现,可以进一步通过规模应用来降低芯片及产品的整体成本,可以降低建设成本。

  • 网络边界清晰:基于网络设备实现的Vxlan,可以在网络设备上借助芯片能力看到并分析虚机\/容器原始的业务流量,对运维有非常的帮助,并且统一了运维边界,网络运维团队与系统运维团队的交叉和冲突就小了很多。

网络Overlay方案的缺点:

  • 灵活性差:基于交换机芯片之所以能实现线速的Vxlan流量处理,核心在于相关功能硬件化,借助硬件表项实现高性能的转发处理,但是确定在于硬件不能随意变更,相关网络设计必须依据芯片本身特性进行,例如Vxlan报头中的预留字段,在主机Overlay方案中可以自由修改,而在网络Overlay中就不能达成。

  • 硬件表项限制:基于芯片硬件表现实现的Vxlan处理,必然遇到硬件表项容量的限制,比如Trident2+的最大主机路由容量是288K,那么在网络规划时,必须要考虑这些相关限制,避免表项用爆,导致业务转发故障。

网络Overlay网络的具体组网架构,依据Vxlan Router所在的位置分为两种,即集中式Vxlan Router组网和分布式Vxlan Router组网。

集中式Vxlan Router组网:

在集中式的Vxlan Router组网中,由两部分组成,包括Leaf和Spine,其中Leaf负责Vxlan的Bridge,完成VTEP功能;Spine负责Vxlan的Router。针对Leaf设备,可以考虑采用Trident2或者Trident2+芯片方案的交换机,针对Spine,基于网络规模大小,可以考虑采用Arad+或这Jericho的芯片方案。

Vxlan在具体落地时,因为同子网的虚机\/容器分布在网络任意角落,为了实现虚机\/容器之间的寻址(ARP解析),需要一个控制面去实现相关表项的同步。在Vxlan的标准Rfc中,Vxlan是没有专门独立的控制面\/协议的,虚机\/容器之间的通信是通过Flood&Learn模式进行泛洪学习、转发。但是在现实部署在生产网时,大家不会采用这种泛洪机制。在集中式的Vxlan Router组网中,一般采用SDN作为控制面,通过SDN在各个设备节点进行MAC、IP等信息的分发,而SDN控制器通过与云管平台对接,来获取虚机\/容器的相关信息。

集中式Vxlan Router组网方案的优点:

  • 相比主机Overlay方案实现性能的大幅提升
  • 硬件标准化,兼容性好
  • 可复制性强。

集中式Vxlan Router组网方案的缺点:

  • 同TOR跨VNI流量迂回
  • 对Spine设备的硬件配置要求高,需要采用指定芯片板卡
  • 基于SDN的控制面比较复杂,对SDN本身的可靠性比较担心
  • 整体实现的成本高

分布式Vxlan Router组网:

在分布式Vxlan Router组网模式中,所有虚机\/容器的网关都在Leaf交换机上实现,这时理论上对Spine交换机没有特殊要求。Leaf交换机只能采用基于Trident2+芯片方案的设备(如果是25G架构可以考虑Tomahoc方案)。

针对分布式Vxlan Router的方案,与集中式Vxlan Router方案相比最大的一个改进,分布式Vxlan Router方案有了独立的控制面,即EVPN。标准的EVPN在RFC7432中进行了定义,该RFC主要是针对RFC7209中描述的问题提供了解决方案,实现控制面与转发面进行分离,通过MAC in IP的方式提供L2VPN能力,解决传统VPLS协议遇到的一些限制,并支持多种隧道封装方式。EVPN通过对MP-BGP协议进行了扩展,通过新的Address-Family携带终端的MAC信息在各个Peer之间进行分发。针对分布式Vxlan Router采用的EVPN协议,是在2015年基于标准EVPN协议进行了扩展,具体草案包括《draft-ietf-bess-evpn-overlay-02》、《draft-ietf-bess-evpn-inter-subnet-forwarding-01》、《draft-ietf-bess-evpn-prefix-advertisement-02》等。具体解决了Vxlan VNI网关及路由的问题、虚机迁移的问题,并解决标准EVPN在Vxlan环境下的适用性。

在分布式Vxlan Router方案中,因为有了独立的基于MP-BGP的EVPN控制面,那么意味着在Overlay网络中需要运行BGP协议,并开启L2VPN Address-Family来承载各Peer节点下虚机\/容器的MAC和IP等信息。关于EVPN的BGP邻居建立示意图如下:

当各个Leaf启动时,各VTEP之间会通过BGP通告EVPN新的路由—集成多播路由(Inclusive Multicast Route)来发现各个peer,并在VTEP之间建立一条Vxlan 隧道,并生成BUM转发表,用来指导广播、组播、未知单播的转发。

在EVPN中,最终要的是借助扩展的BGP承载分发虚机\/容器的MAC等信息,这是通过MAC路由表生成,具体格式如下:

分布式Vxlan Router组网方案的优点:

  • 相比集中式Vxlan Router组网方案,分布式Vxlan Router方案的流量转发路径最优,不存在迂回流量
  • 支持大规模IDC部署
  • 基于BGP的独立控制面成熟、可信
  • 二层边缘化、可靠
  • 对Spine 交换机的要求低
  • 整体成本低

分布式Vxlan Router组网方案的缺点:

  • 不如集中式Vxlan Router方案成熟。这个问题的关键在于Broadcom芯片的商业化时间有先后导致。基于Trident2+Arad+就可以实现集中式Vxlan Router组网,这套组合在2015年已经成熟并规模量产。但是支持分布式Vxlan Router方案的Trident2+ + Jericho的芯片方案,是在2016年1月份以后才正式商用,量产是4月份左右,所以会导致这个缺点。

第三章 网络运维可视化

即使在传统的网络架构中,一旦业务部门反馈网络丢包,作为网络运维团队的人员来说,就需要逐节点进行排查很久,如果遇到设备内软件或芯片故障,还需要借助网络厂商的人才能定位、解决。

在部署Overlay网络之后,基于Vxlan的虚拟网络变得更不可见,原始虚机\/容器流量进行封装后,无法直接排查,更进一步增加了网络运维的难度。还有一种情况,为了提高网络的可靠性,网络中会存在大量的链路聚合及等价路由-ECMP,这也会增加排障的难度。

传统的运维手段,主要是依托Sflow&IPFIX等技术,采用逐节点的命令行定位,定位时效至少是小时计,这对业务影响是非常大的。随着SDN的成熟,当前业内的主要诉求也发生改变,希望借助SDN实现可视化运维,在IDC内部实现基于会话级的端到端流量可视化,并可以在秒级实现故障的定位,大大简化运维的难度。

目前网络厂商在网络运维可视化这块有比较大的优势,毕竟基于网络设备自身的能力更容易实现可视化。从锐捷网络公开的一些信息中了解,他们的可视化运维主要是有以下四个方面:

  • 随路检测可视化:通过SDN+Openflow协议,针对原始故障流进行着色,呈现其在IDC内端到端的真实物理转发路径,并计算各节点的丢包率。

  • 旁路检测可视化:当原始业务流已经迁走,这时可以借助网络交换机的CPU模拟产生故障流的报文(只是模拟了二、三、四层报头),再通过SDN+OpenFlow进行路径及丢包率的统计。

  • 会话延迟可视化:基于交换机芯片端口队列的管理能力,统计、分析每个业务流在各个节点转发时差生了多少延迟,据说可以做到ms级的失效。

  • Buffer可视化:主要是在Spine节点,通过实时监控交换芯片各端口Buffer的利用情况,提前预警,为网络优化提供依据。

第四章 网络运营自动化

Overlay作为虚拟网络,需要面对业务的频繁变更,对于Overlay网络的配置不可能在依靠原来的工单+人工操作方式。一方面影响业务部门的体验和时效性,自身也需要占用大量的运维资源,而且交付的质量也容易出错。

当前主流的操作模式,让业务平台对接网络平台,通过SDN+Netconf完成对Overlay网络自动化配置。

具体实现方案,在内部提供业务Portal,通过该门户为内部提供相应的IT资源申请。该Portal后面调用云管理平台,如Openstack,但是云管理平台只是涉及服务器相关计算、存储资源的调度,但是申请者的业务肯定涉及网络相关的配置,那么可以通过再联动网络厂商的SDN控制器,其SDN控制器再通过Netconf去配置交换机Vxlan等相关配置。当存在多厂家网络设备时,可以考虑在云管理平台和厂家SDN控制器之间增加一个NO业务编排系统,互联网公司只需要把控NO系统自身及其南向接口的标准化,剩余的部分,由网络设备厂家自身搞定。

因为在IDC中还会涉及LVS、NAT等GW资源,为了实现业务交付的完全自动化,这些GW也需要实现自动化配置,这时需要专门的控制器,如基于Etcd实现的服务发现与自动化配置。具体示意图如下:

结论

基于网络设备的Overlay解决方案,可以提供更好性能的吞吐能力,更为标准化实现,实现更为清晰的网络边界。而基于EVPN+Vxlan的分布式设计,可以更好的为互联网IDC提供更为灵活的组网设计及最佳的流量转发模型。另外,在SDN的协助下可以实现运维的可视化,简化Overlay网络的运维压力,提升效率,降低成本。借助SDN+Netconf可以帮助互联网公司实现业务的自动化

results matching ""

    No results matching ""