确定性网络:打造网络里的超级高铁

SDNLAB 2020-09-17 17:00
作者简介:黄玉栋,北京邮电大学网络与交换国家重点实验室研二在读,研究方向为未来网络体系架构,确定性网络,邮箱地址: hyduni@163.com.


确定性网络是指能保证业务的确定性带宽、时延、抖动、丢包率指标的网络;确定性网络技术是一种新型的服务质量(QoS)保障技术。本文面向小白科普入门,将尽量用通俗易懂的语言,深入浅出的分析确定性网络的需求由来、技术实现和未来展望。


一、需求由来


业务形态和需求的改变是网络技术变革的主要动力。


传统电话网采用面向连接的电路交换技术,其在通信前建立连接,为通信双方分配具有固定带宽的通信电路,直到通信结束再释放连接;比如早期单一的64Kbps话音业务,可以采用固定比特率进行传输,一根电话线连两头,想打多久打多久。电路交换具有实时、低速率、高质量的话音传送的优势,但缺点是带宽利用率不高。


而后一方面互联网繁荣,图片、视频、搜索等业务形态变得复杂,采用分组交换后网络就像大马路的交通,路上自行车、小汽车、公交车、大货车啥车都有,上下班高峰期容易排队和拥堵,时延和抖动等需求没有保障;


另一方面车载网络、航空航天、金融交易、电力传输和石油勘探等垂直领域,出现了大量的专用总线和实时以太网技术,其保证了流量的低时延低抖动传输,但碍于专线成本高,而各类实时以太网标准又互不兼容、且不与标准以太网兼容,所以技术封闭,没法铺到互联网大马路上。



因此,确定性网络的需求主要来自两方面:


  • 兼容以太网标准:在工业自动化、智能制造等传统场景,需要用以太网统一替代几十种现场总线和实时以太网标准,融合IT网络和OT网络,实现尽力而为流与工业时延敏感流的共网传输,降低成本。

  • 承载确定性业务:随着机器与机器间通信流量激增,需要在自动驾驶、远程手术、全息通信等新兴场景,结合5G等技术,打造网络里的超级高铁,实现确定性业务的端到端传输。



二、技术实现


在讲确定性网络的技术挑战前,首先要聊一下现有的互联网和工业网络是怎么做QoS服务质量保障的。


互联网怎么做QoS?

互联网主要有四种方法保证QoS:扩容/轻载、流量整形、队列调度和拥塞控制。


  • 扩容/轻载:扩容就是扩带宽,两车道不够用就改四车道、八车道,让网络处于轻载的状态。现在以太网已经能做到单端口400G,当然,比较费钱。

  • 流量整形:通过令牌桶、信用整形等技术,对特定端口或者流量进行限速。比如上游节点出端口带宽8Gbps,下游节点空余带宽只有2 Gbps,就要限制上游传输带宽小于2Gbps,以免下游节点拥塞。好比两车道不能八辆大卡车并排开。

  • 队列调度:队列调度就是在交换机的出端口对流量进行调度,好比红绿灯。首先把包标记上不同的优先级,然后包进入对应的优先级队列,最后采用不同的队列调度算法对包进行处理。比如严格优先级算法(SP),会让高优先级的流量有就一直转发;比如加权循环调度算法(WRR),会给每个队列一个权重,按权重的比例依次进行转发,以免低优先级的流量长时间等待。

  • 拥塞控制:当流量过多,缓冲队列都不够用了,网络出现拥塞丢包,就需要拥塞控制。可采用ECN、DCTCP等基于显式拥塞标记或者Timely、Swift等基于RTT往返时延的方法探测拥塞,让上游节点直至发送端降低发包速率。好比沿着拥塞地点让交警往回控制其他车辆停止通行或者绕道而行。


互联网做QoS有两大核心问题:缺少有界时延抖动的保证,以及难以应对聚播和突发流量。


  • 缺少有界时延抖动保证:由于是统计复用出端口带宽资源,缺少时延维度的QoS保障机制,尽力而为转发总是会存在排队等待和拥塞的情况,业务时延在50ms-1s的量级,并存在长尾时延。

  • 难以应对聚播和突发流量:由于发端流量的大小和发包时间不可控,网络中存在多条流在下游节点汇聚(Incast,聚播)以及某时刻流量激增(Burst,突发)的现象,导致网络拥塞丢包。



工业网络怎么做QoS?

工业网络对时延抖动的要求非常严格,往往要求端到端时延在几毫秒甚至几百微妙以内,以及微秒级甚至零抖动。比如离散自动化中的运动控制,要求端到端时延控制在1ms以内,抖动在1us以内,且具有99.9999%的可靠性。



要达到如此高精度的传输控制,以时间触发以太网为例,主要需要时钟同步和时隙规划这两种技术。更多时隙规划的技术细节可参考文章(一文读懂时延敏感网络的调度整形机制


  • 时钟同步:即全网时钟同步,终端设备、交换机的时钟都相同,网卡也要给包打上硬时间戳。目前有两种时钟同步方式,一种是主从模式,选出一个最精准的时钟作为主时钟,其他从时钟都听主时钟的;一种是投票模式,比如一个域内有9台设备,5台现在时钟是1:00,4台是1:01,少数服从多数,就都调整为1:00。

  • 时隙规划:时隙一般是指交换机出端口的时间维度的传输资源。比如某交换机出端口带宽1Gbps,也就是1s可以传1G个bit,假设一个包有1500Byte,也就是12000bit, 那它的传输就占用出端口某一段12us的时隙资源。而占用哪一段,由它的传输开始时间决定。由于工业流量大多是周期性发送的小于MTU的包,所以可以控制终端的发包开始时间,通过全局时隙规划(时分复用),让各个包只在提前算好的时刻被“触发”发送,保证其在每跳的出端口传输时占用的时隙互不冲突,从而避免了聚播和突发的产生,实现“准时准确”传输。


确定性网络怎么实现?

确定性网络技术不是单一技术,而是一系列协议和机制的合集,通过网络切片、显性路由、资源预留、时钟/频率同步、周期映射、门控优先级队列调度、帧抢占、流量过滤和整形、多发选收等技术分别保障确定性带宽、低时延、低抖动、高可靠等QoS指标。


简单的说,它既兼容了以太网这条大马路,又借鉴了工业网络里全网同步、时隙规划、控制发包/边缘的思想,就像网络里的超级高铁,首先定点发车,然后长距传输,专道不堵车,通过周期映射和周期规划确定到站时间,并且每站定长停靠,最终保证端到端时延可预期。具体技术实现和挑战留作下回分解。



三、未来展望


由于现网缺乏严格的有界时延抖动保障机制,建筑网络高铁是未来网络发展的必然趋势。举个例子,若想在现网中获得一条从北京到南京10ms时延的线路,首先测一下有3条路可以走,时延分别是50ms、100ms和200ms,达不到要求,再需要测沿路径的链路带宽使用情况、每跳的队列长度和拥塞情况,然后通过一行行命令和ACL规则,去做优先级映射、限速整形、队列调度、拥塞控制、重路由,这当中还可能存在规则错配、影响其他业务QoS等问题,而当终于配置好满足10ms时延后,又有可能突然出现莫名的流聚合和突发,时延陡然暴增至500ms,令网络工程师通宵达旦、彻夜难眠。


而在不远的将来,可以预见确定性网络技术趋于成熟,只需要几分钟的配置时间,便可以拥有一条从北京到南京、稳定可靠的、端到端时延10ms的超级高铁线路。


往期推荐:

  1. 刘韵洁:未来网络发展需求与技术趋势

  2. 初识DetNet:确定性网络的前世今生

网络操作系统混战,SONIC能否笑傲江湖?



【转载须知】


若转载文章为原创文章,可在相应文章下或公众号后台留言;其他非转载类文章须在文首以不小于14号字体标明转载自SDNLAB


【投稿】

欢迎SDN、NFV、边缘计算、SD-WAN、TSN、5G 网络切片等网络方向的观点类、新闻类、技术类稿件。
联系人:04&07
投稿邮箱:pub@sdnlab.com
详情请参考:SDNLAB原创文章奖励计划

长按二维码添加
推荐阅读