专业 靠谱 的软件外包伙伴

您的位置:首页 > 新闻动态 > 阿里云平台数据中心专线网络架构设计

阿里云平台数据中心专线网络架构设计

2016-12-10 11:33:42

阿里这些年都干了什么事情,阿里的现状是什么样的。第一张胶片我部分满足了大家的好奇欲,让大家看一看从2013到2015年阿里的DCN网络发生了什么。2013年阿里的DCN网络从一个萝卜一个坑的建设方式到完全标准化的建设方式。整个架构标准化、配置标准化,架构设计中能够做冗余的地方我们都做了冗余。然后我们做了整个公私网混合部署。2013年标准化提升了阿里网交付效率,为稳定性提供了很大的帮助。2014年我们意识到我们的DCN太小了,一个很大的房子被我人为割成了很多块,白白浪费了很多的墙和很多的砖,没有必要,我们觉得我们应该做一个更大规模的网络。2014年我们设计了一个单集成超过五万规模的端口设计,同时我们开始大规模的部署40G和万兆接口速率。那一年我们彻底将数据中心中的IBG协议都干掉了,数据中心我们全部用BGP。2015年我们尝试为我们的云服务提供初代的SDN的部署方式,这种初代是一个尝试。SDN应该由网络还是软件来做,每个公司都有自己的观点,阿里的观点也是不停的被事实改进。2015年我们做了第一代的数据中心的SDN网络,基于转发和控制完全分离的设计。然后我们用了OpenFlow加硬件的方式实现了管控的可视化。我们在设计这张网络的时候想过,我们是不是应该考虑让流量变得更加透明,让网络的转发行为变得让大家都能看得见。

2016年我们在干什么,2016年我们做了两件可以跟大家分享的事情。

第一大部分,就是25G从无到有。第一,为什么要用25G?从万兆到25G最大的推动力是什么?不是因为网络有了25G,我们就一定要用。不是因为华为、华三、思科开始卖25G了,所以数据中心必须升级到25G,25G和10G之间替代原因是什么。第二,25G如果要替换,25G整网的带宽设计是怎样。今天如果大家已经切到万兆的时候,万兆为什么是1:3?25G应该是多少?第三,我们假设如果真的要建25G了,25G建设的整个链条中最关键的点在哪里?因为一个网络架构布下去,一定会遇到困难点,25G的关键困难点又在哪里?

第二大部分,自动化运维平台的建立。2015年我们做的那一代SDN网络开始,对于大家最大的价值不是在于转发的控制,而是在于网络自动化运维的极大的推进。我们会重新定义SDN以及它的价值。这个价值我们认为它是在快速的自动化运维的控制上。我们在2016年把很大精力放在如何实现高效可视化,如何实现高效的自动化配置和部署。

刚才志华开始的时候讲过,25G在ODCC有一个标准,48兆25G加18,它的价值在于今天我们可以做25G的1:1,石器时代的1:3我认为是不适合25G的网络定位,今天25G替换10G的动力,不是因为设备制造商开始制造它了,不是因为芯片走到这个时候,而是因为系统测的IO的瓶颈被打破了。今天我们的原则就是,既然没有人定义25G,我们就站出来定义这个事情,我们要求25G是1:1无收敛的大管道。

25G我们想明白了替换的原因,也知道了收敛比,25G的关键点在哪呢?光模块、连接件。明显让我感觉到的光产业的迭代速度跟网络,或者跟IT之间的超级不匹配。当一个25G交换机已经卖出一个万兆交换机价格的时候,一个25G AOC比一个万兆AOC贵六倍。这完全不合理。第二,光纤成本在25G AOC里面变得越来越重要。第三,上架密度和连接介质的选择,上架密度不够高,在中国现有的IDC的功耗和各种通风、散热情况下,我们做不到单机架10千瓦、20千瓦,所以单机架10千瓦的价格上不去,带来的这一带连接,从网卡到交换机之间的我们的选择性被抹掉了,我们只剩下AOC或者是光模块。BOC实际上是非常好的机架连接方式,不但成本低,而且可以快速规模量产。但是上架密度轴限于IDC的可能性,所以今天阿里大规模的定义25G的标准。

从一个数据网络网络想往后走,它要落地的一定是标准化,在不标准的网络里你是无法做任何自动化的。网络架构的设计会推动网络运营的前进,这是因为在从运营的角度上来说,大家如果是做运维和运营,运营同学最大的需求是希望网络和设备的配置方法一百年不要变。但是,网络架构必须要推进,将更合理的技术和更高效的运维方式放进来。这是我们要去推动的事情。但是我们不能认为我们就是一个高高在上的我们应该去指挥大家做所有的事情,网络运营的结果必须要影响网络架构的设计。从架构设计之初你必须要充分的考虑运营要什么,要它的原因是否合理,你提供的东西是否具备可落地性。

阿里做的第一件事情:交换机北向接口的标准化。交换机的北向接口长期以来都停留在CLI的阶段,很多网工认为把CLI敲的跟飞一样,是一种技术水平的体现。但是,这件事情可不可能持续往前演进,你去管理一百台交换机的时候,或许可惜,你再牛一点,你的大脑容量更强一点,可以管两百台,我今天给你两千台,你怎么搞?你说我写脚本,但是如果你的脚本依然是CLI的时候,你会发现,脚本的效率,以及这个脚本运行的结果,以及这个结果带来的影响全部是未知的。因为CLI天生不会提供任何的诊断手段和影响评估手段,所以我们必须改变他。所以我认为,我们的选择是NetConf,它的协议是大家相对都能够接受的,今天有大量的产业链资源投入,我们可以顺势而为,所以我们选择了NetConf。

标准化的第二件事情是流量可视化。DCN的自动化运维,必须重新定义数据中心流量可视化体系,将网络转发质量白盒化,不仅限于我下面写的东西:buffer/queue、packet loss,latency,session/path。你能够预测到它的下一步发展变化,这才是流量可视化。

为了应对流量可视化,我们自编了一套系统叫Oceanus,这个系统没有上线,但是这个系统正在做,它的目标很简单,我们希望拥有一个类似于这边这样一个层次化的东西,我有很大量的北向接口,这些标准化的北向接口将大量的各种网络转发质量的统计结果送给我的高性能中间件。这个高性能中间件是一个采集器、存储系统加上转发系统,这个很容易实现,在今天对于各位如果做互联网公司而言,很多的系统都有。这个东西就应该是一个网络大脑,它应该去思考每一条流、每一个包在转发中得到的行为是什么样的,它是一个巨大的大数据分析系统。

这是我们对这个系统的设计目标,我们希望能够做到以下四个关键方面:第一,秒级的故障定位。这是我能够实时全面的将网络质量监控起来,全面实时扫描,buffer高精度监控,flow转发质量监控。这些都是马上可以做的。我发现一个网络故障,我可以快速的从网络中几乎无损的隔离出来。

你发现了故障、隔离了故障,接下来我希望我们的数据分析系统能够给我们的工程师一个引导,告诉他下一步应该干吗,而不是只是告诉他我隔离了一台设备,至于这一台设备发生了什么,我不知道。所以我们希望有一个引导式的故障修复,哪怕这个故障修复很傻,告诉他,先打电话给思科的工程人员,也行。这套系统完成了,基本上做网络架构设计的工作就可以不需要了,我也可以失业了。这个架构告诉人们,用40G更好还是100G更好,用哪个buffer是更合适的,最后公司老板一定会觉得不用招我这样的人了。 下面是运维数据采集分析落地的思路,第一,要芯片可视化技术的创新。一会儿我们要讲,这个事情涉及到2017年我要干什么,2017年我要干的事情,就是因为现在我想通了这个事情,第一,要有芯片可视化技术。第二,成熟的大数据平台。第三,网络应用的关键算法。如何通过最少量的介入转发平面,能够把整个转发结果抽象化,并且实现一个完整的转发模型。这个事情,我们需要一些科学家来帮我们。我们只能提出我们的诉求,以及对这个结果的评判。但是算法本身我们需要一些科学家。有了这三点,我们一定可以构造一个实时网络分析系统。

接下来讲一讲2017年,或者是未来,我们想做一些什么事情。我们会从芯片的角度尝试解决资源安全的问题。第二件事情,open IPOC系统落地。阿里也在这件事情里面起到领导的作用,我们会极力推动。并且我们希望这件事情不是一个硬件化,而是一个软件化。彻底将光的运维和IP的管控结合到一起,创造更多的全新的物理层和应用层之间的流量交互关系。第三件事情50G和100G。你不能不思考未来该怎么样,所以我们必须要去思考,在假设的两年、三年之后的50G、100G下,阿里应该干什么。

芯片,silicon团队对DCN的影响,B公司几乎占据了DCN市场的全部,资源安全得不到任何保障,因为他说这个东西卖多少钱,他就卖多少钱,不是你能够决定的,因为你只能用他的东西。第二,同质化太严重了,看一下市场上的交换机,本质上没有什么区别,把盒子上的铁皮打开,都是一个东西。大家只能做在CLI上的区别。意味着你把所有的鸡蛋放在一个篮子里。第三,垄断带来的创新乏力。在流量可视化、自动化运维管理上,我们得不到我们想要的创新,我们必须要寻求更好的方式去推动这个行业的上游,去帮助我们走向我们认为正确的下一代网络设计。所以我们将努力寻求更多的解决方案,从设计上避免更多可能的依赖和绑定。然后我们会从流量可视化这个需求为切入口,引导更多的芯片公司协助我们一起做未来DCN这一块方案的创新。我们希望得到一个多元化的方案和多元化的市场。

关于open IPOC和DCI,传统的OTN无法快速迭代创新,去满足DCI的要求,DCI的要求很简单,快速叠加、快速上线,将管理和运维最大化的自动化,这就是DCI,而不是运营商的城域网或者是广域网。很可惜,传统的OTN做不到。传统的OTN天然将光和IP隔离了几十年,但是他们之间真正需要隔离开,或者他们之间有没有可能有一天走到一起。我觉得完全有可能。而且传统的整个的OTN市场是以ISP为主导的。我们想改变这个状态,对于open IPOC的思路和意义。我们可以从这个产业链上看一看有没有解决方法,专业的人做专业的事情,我们可以让很多专业的在光技术上非常资深的公司帮助我们将所有光的调制解条全部集成在DCN当中,就是一个数字可调的光模块。接下来的事情就是带交换机的板卡上开一个口子,和这个光模块一样大就好了,将这个光模块插上去就可以了。完成了在关键硬件基础上之后,我希望拿到什么软件呢?我希望拿到将IP的管控方案与光完全融合起来的一个软件。光层的流量控制,真正意义上实现DCI从物理层到应用层的联动。这个概念我相信很多年前就有一些很牛的公司提出来过,但是为什么没有得到大规模部署?原因很多,有技术的原因,也有人为的原因,有市场的原因,但是我个人觉得这个东西在OTT的DCI领域非常有可能成为一个现实。我们希望这个事情变成以OTT为主导的技术方向和需求。我们可以用我们自己的能力和体量创造一个新的空间,在这个空间,我不知道将来会有多大,但是从目前来看,我觉得很有价值。

这是一张拓扑图,这是我们预期的IPOC的DCI的连接,从DCI出来,用的是100G或者是400G以太网,连接到DCI switch上,我们用DCI模块将这些波长调制成符合标准C波段的波长之后,送给我们的开放线路系统。开放线路系统只是一个合波器,把它合波到我们城域网线域上去,送到另外一个领域去。我们省掉了一些光模块,但是我们存在最大的价值是我们可以把光的信息直接跟IP对接起来。我这个地方还需要光层的保护吗?不需要。我知道如果发生问题了,我可以通过IP的路由切换,把这个端口宕掉就好。我不需要做什么波长,做什么特殊的保护。

关于50G和100G作为DCN的接入标准大规模部署。为什么?肯定是有原因的,我们现在的考虑结果就是在高性能计算,或者是机器学习、GPU图象学习上,很多产品对带宽和性能的需求已经不是25G、40G能满足的了。我们可能很快就要去提供100G的带宽给这些业务。第二,可能会有更高性能的存储技术的应用。一定会有更大的带宽需求,我们必须考虑什么时候会有,以及网络什么时候准备好。第三,单Gb成本进一步优化,同样获得一Gb的带宽,25G要1块钱,50G只要5毛钱,你就可以切到50G。

困难和风险在哪?第一个风险是硬件上,今天25G用的是28G service,今天的100G是用4个25G捆起来的,将来的100G一定不能用4个25G捆起来,下一代一定是56G service,56G技术非常垄断,只有一家或者两家公司能够提供。在这种情况下,什么时候才能看到大规模量产的支持56G的交换机呢?不知道。我们在数据中心的高密度应用、大量应用中发现,我们越来越发现这是一个经常发生的问题,问了很多的专家、公司,最后告诉我们说,这是半导体技术的必然结果,你要接受它。我们很担心,将来的芯片越做越大,功率越来越先进,整个给到硬件里面的防止电频调配的冗余度越来越小。是不是将来在数据中心的交换机里面发生多比特跳配是常态,我们是不是要全面检查数据中心里面每一个memory的情况呢?

50G和100G接入,获得的是200G还是400G接口?我们今天思考的结论,我们认为阿里会直接走向400G以太网。最后,50G和100G的接入,应对的光器件是什么?因为25G已经上线了,光器件好贵,所以我们下面希望应对这个问题。

这是我对于未来两三年数据中心硬件或者作为数据选择的大概的总结。未来两三年25G将会是一个快速部署的时期,整个产业链也会越来越快速的走向成熟和廉价,在2019年以前,我们会继续坚持以25G为主导的DCM兼容,50G和100G会补充,在某些特殊场景进行部署。20G的下一个关键演进是200G/400G接口替代现有的100G接口,大规模提升25G的接入规模,同时大幅度降低架构的逻辑器。

简单跟大家分享一下我们在DCN网络设计的几个原则:简单高效、稳定可预期、引入充分的竞争。

 

关于:中科研拓

深圳市中科研拓科技有限公司专注提供软件外包、app开发、智能硬件开发、O2O电商平台、手机应用程序、大数据系统、物联网项目等开发外包服务,通过IT技术实现创造客户和社会的价值,成为优秀的软件公司,通过客户需求导向、开放式创新、卓越运营管理等战略的实施,全面打造公司的核心竞争力。很好软件外包公司软件开发公司,联系电话400-0316-532,邮箱sales@zhongkerd.com,网址www.zhongkerd.com


  上一篇   [返回首页] [打印] [返回上页]   下一篇