隨著云原生時(shí)代的發(fā)展,傳統(tǒng)IT基礎(chǔ)設(shè)施加速云化,云原生化成為云上的必然趨勢(shì)。作為云原生代表技術(shù)之一,容器技術(shù)可幫助企業(yè)提升 IT 架構(gòu)的敏捷性,加速應(yīng)用創(chuàng)新,幫助企業(yè)更加靈活地應(yīng)對(duì)商業(yè)發(fā)展中的不確定性。疫情期間,在線教育、音視頻、公共健康等行業(yè)出現(xiàn)了大幅度的增長(zhǎng)。一些基于云計(jì)算和容器技術(shù)的公司,很好地把握住了業(yè)務(wù)快速增長(zhǎng)的機(jī)遇,實(shí)現(xiàn)了自身的跨越式發(fā)展。
容器規(guī)模化落地已成為企業(yè)發(fā)展"必修課"
疫情加速了企業(yè)數(shù)字化的發(fā)展進(jìn)程,低延時(shí)和高并發(fā)的線上場(chǎng)景頻繁出現(xiàn)在企業(yè)日常經(jīng)營(yíng)中,業(yè)務(wù)創(chuàng)新的需求也在倒逼企業(yè)不斷運(yùn)用新興技術(shù)手段?,F(xiàn)如今,Kubernetes 逐漸成為云原生時(shí)代的基礎(chǔ)設(shè)施,容器技術(shù)被廣泛應(yīng)用于人工智能、大數(shù)據(jù)、區(qū)塊鏈、邊緣計(jì)算等場(chǎng)景,作為輕量化的計(jì)算載體,為更多的場(chǎng)景賦予高度的彈性與敏捷性。在日常經(jīng)營(yíng)和業(yè)務(wù)創(chuàng)新的雙重壓力之下,越來越多的企業(yè)從小規(guī)模試用到全面擁抱容器規(guī)?;涞兀员U掀髽I(yè)業(yè)務(wù)能夠健康且長(zhǎng)遠(yuǎn)發(fā)展。
據(jù)信通院《2020年中國云原生用戶調(diào)查報(bào)告》顯示,60%以上的用戶已在生產(chǎn)環(huán)境中應(yīng)用容器技術(shù),近八成用戶的生產(chǎn)需求需要1000及以上的節(jié)點(diǎn)規(guī)模滿足,超過13%的用戶容器規(guī)模已超過5000節(jié)點(diǎn),9%的用戶容器規(guī)模大于10000節(jié)點(diǎn)。隨著云原生技術(shù)的進(jìn)一步普及,越來越多的企業(yè)核心業(yè)務(wù)切換到容器,企業(yè)生產(chǎn)環(huán)境容器集群規(guī)模呈現(xiàn)爆發(fā)式增長(zhǎng)趨勢(shì),容器規(guī)?;涞匾殉蔀槠髽I(yè)發(fā)展"必修課"。目前開源版本Kubernetes最多可以支撐5千節(jié)點(diǎn)及15萬 Pod,已經(jīng)無法滿足日益增長(zhǎng)的業(yè)務(wù)需求。
容器規(guī)?;涞仄髽I(yè)要過哪些難關(guān)
大規(guī)模容器集群可以提供更大的業(yè)務(wù)負(fù)載能力,更高的流量突發(fā)能力,更加高效的集群管理方式。作為云原生領(lǐng)域的實(shí)踐者和引領(lǐng)者,阿里云率先實(shí)現(xiàn)了單集群 1 萬節(jié)點(diǎn)1百萬 Pod 的規(guī)模突破,相比于社區(qū)版 Kubernetes,單集群節(jié)點(diǎn)數(shù)在社區(qū)基礎(chǔ)上提高了 2 倍,Pod 數(shù)提升了 6.7 倍。基于服務(wù)百萬客戶的經(jīng)驗(yàn),阿里云沉淀了"容器規(guī)?;涞厮牟阶?quot;的路徑方法,可幫助企業(yè)克服容器規(guī)模化落地過程中的難關(guān),輕松應(yīng)對(duì)不斷增加的規(guī)?;枨?。
第一步:如何判斷自身是否需要容器集群規(guī)模化?
當(dāng)企業(yè)面臨流量突發(fā)型業(yè)務(wù)、復(fù)雜計(jì)算型業(yè)務(wù)、需進(jìn)一步提高運(yùn)維效率等業(yè)務(wù)或 IT 訴求,單集群的容量成為當(dāng)前掣肘發(fā)展的瓶頸。例如基因計(jì)算、在線秒殺等業(yè)務(wù),會(huì)在短時(shí)間會(huì)產(chǎn)生大量的負(fù)載,對(duì)單集群能容納的計(jì)算資源提出了嚴(yán)峻的挑戰(zhàn),亟需單個(gè)集群能夠支持大規(guī)模的節(jié)點(diǎn)來批量運(yùn)行 Pod?;诖?,企業(yè)就要開始考慮集群擴(kuò)容了,不過追求集群規(guī)模大,并不是一針見效的萬能"銀彈", 企業(yè)需要根據(jù)自身業(yè)務(wù)發(fā)展特性,優(yōu)化集群能力實(shí)現(xiàn)業(yè)務(wù)價(jià)值,盲目追求集群規(guī)?;瘜U(kuò)大整個(gè)故障域的風(fēng)險(xiǎn)。
第二步:容器規(guī)模化不是簡(jiǎn)單擴(kuò)大規(guī)模的大小,如何自下而上實(shí)現(xiàn)一整套體系優(yōu)化,打通任督二脈?
Kubernetes作為云原生時(shí)代的操作系統(tǒng),其自身及其部署的云環(huán)境是非常復(fù)雜龐大的,因此容器規(guī)?;菑牡讓釉瀑Y源到上層應(yīng)用的一整套優(yōu)化體系。企業(yè)用戶需要重點(diǎn)解決三個(gè)層面的優(yōu)化,1、在云產(chǎn)品層面打破對(duì)云資源配額的限制;2、在集群組件層面提升資源規(guī)?;奶旎ò?;3、在Kubernetes資源層面優(yōu)化集群配置策略來保證資源規(guī)?;芰Α?/p>
第三步:容器規(guī)?;箅y以保障原有性能不受損,如何實(shí)現(xiàn)性能進(jìn)一步提升,做個(gè)"靈活的巨人"?
容器集群規(guī)模被放大N倍之后,對(duì)存儲(chǔ)、集群網(wǎng)絡(luò)、應(yīng)用分發(fā)等性能都提出了巨大挑戰(zhàn),例如大規(guī)模集群數(shù)據(jù)中心內(nèi)網(wǎng)絡(luò)流量通常較大,網(wǎng)絡(luò)延遲與抖動(dòng)的問題也會(huì)隨之被放大,影響集群網(wǎng)絡(luò)傳輸效率和集群穩(wěn)定。還有大規(guī)模集群下批量發(fā)布更新應(yīng)用的常規(guī)場(chǎng)景,1w個(gè)節(jié)點(diǎn)瞬時(shí)的鏡像拉取會(huì)產(chǎn)生巨大的網(wǎng)絡(luò)沖擊,給鏡像服務(wù)和網(wǎng)絡(luò)帶寬帶來了巨大的壓力。容器規(guī)模化的初衷是提供更強(qiáng)大的技術(shù)支撐力,不僅要保障原有性能,還需要進(jìn)一步提升整體性能。企業(yè)用戶可重點(diǎn)從四個(gè)方面入手優(yōu)化:Node&Pod規(guī)?;省⒕W(wǎng)絡(luò)效率(吞吐與延遲)、DNS解析效率、鏡像加速。
第四步:容器規(guī)?;笞铙@心動(dòng)魄的難關(guān)是"穩(wěn)定"
如果說集群規(guī)?;堑谝徊?,那么穩(wěn)定的運(yùn)行上萬節(jié)點(diǎn)的集群才是更加驚心動(dòng)魄的,龐大的系統(tǒng)最重要的就是控制故障域,防止雪崩。相對(duì)于規(guī)模而言,容器規(guī)?;蟮姆€(wěn)定性更加重要,因?yàn)榇笠?guī)模集群的恢復(fù)不是簡(jiǎn)單的重啟就能夠解決的,一旦雪崩開始,整體崩潰不可避免,嚴(yán)重影響業(yè)務(wù)接續(xù)性。對(duì)于企業(yè)而言,大規(guī)模集群的穩(wěn)定性就是業(yè)務(wù)在線的安全性。企業(yè)用戶重點(diǎn)需要考慮事前止血預(yù)案、資源索引和系統(tǒng)組件優(yōu)化、以及監(jiān)控所有節(jié)點(diǎn)隨時(shí)啟動(dòng)自愈流程。
阿里云幫助企業(yè)一站式實(shí)現(xiàn)容器規(guī)?;涞?/strong>
針對(duì)大規(guī)模集群在企業(yè)落地的種種難關(guān),阿里云基于ACK Pro提供了企業(yè)級(jí)的容器集群管理能力,在APIServer和調(diào)度器上提供了大量性能優(yōu)化,打破資源規(guī)模限制、提升性能天花板、保證集群穩(wěn)定性。通過自研高性能容器網(wǎng)絡(luò)Terway,優(yōu)化Pod延遲30%,降低大規(guī)模Service的性能開銷,不僅可解決大規(guī)模集群的網(wǎng)絡(luò)瓶頸問題,而且提供幾乎云上原生的網(wǎng)絡(luò)性能,使得集群響應(yīng)更迅速。企業(yè)級(jí)鏡像倉庫ACR EE支持獨(dú)享存儲(chǔ),提供按需加載鏡像的能力,降低啟動(dòng)時(shí)間60%,可解決大規(guī)模節(jié)點(diǎn)拉取鏡像慢的問題。整合阿里云存儲(chǔ)、網(wǎng)絡(luò)和安全能力,阿里云一站式為企業(yè)提供容器規(guī)?;\(yùn)行的最佳性能:更加高效的網(wǎng)絡(luò)轉(zhuǎn)發(fā)、更強(qiáng)擴(kuò)展能力的存儲(chǔ)、更高效的應(yīng)用與鏡像分發(fā)、更穩(wěn)定安全的大規(guī)模集群管理。
值得一提的是,阿里云在近日2020云原生產(chǎn)業(yè)大會(huì)中,成為首家通過信通院容器規(guī)?;阅軠y(cè)試的云服務(wù)商,獲得最高級(jí)別認(rèn)證—"卓越"級(jí)別。在信通院的容器規(guī)模化測(cè)評(píng)中,阿里云容器服務(wù)的滿負(fù)載壓力測(cè)試、網(wǎng)絡(luò)延時(shí)、網(wǎng)絡(luò)性能損耗等多項(xiàng)測(cè)評(píng)結(jié)果,在參與測(cè)評(píng)的廠商中遙遙領(lǐng)先。
基于此,阿里云擁有足夠彈性的"服務(wù)能力空間",可根據(jù)企業(yè)業(yè)務(wù)量身定制滿足當(dāng)前所需的容器集群服務(wù),除了支撐阿里集團(tuán)內(nèi)部核心系統(tǒng)容器化上云和阿里云的云產(chǎn)品本身,也將多年的大規(guī)模容器技術(shù)以產(chǎn)品化的能力輸出給眾多圍繞雙十一的生態(tài)公司和ISV公司。通過支撐來自全球各行各業(yè)的容器云,阿里云容器服務(wù)已經(jīng)沉淀了支持單元化架構(gòu)、全球化架構(gòu)、柔性架構(gòu)的云原生應(yīng)用托管中臺(tái)能力,管理了超過1萬個(gè)以上的容器集群,提供企業(yè)級(jí)可靠服務(wù)。
阿里云擁有國內(nèi)規(guī)模最大的容器集群、最豐富的云原生產(chǎn)品家族和最全面的開源貢獻(xiàn),提供云原生裸金屬服務(wù)器、云原生數(shù)據(jù)庫、數(shù)據(jù)倉庫、數(shù)據(jù)湖、容器、微服務(wù)、DevOps、Serverless等超過100款創(chuàng)新產(chǎn)品,覆蓋新零售、政務(wù)、醫(yī)療、交通、教育等各個(gè)領(lǐng)域。阿里云容器服務(wù)是國內(nèi)唯一連續(xù)兩次入選Gartner 2019年和2020年《競(jìng)爭(zhēng)格局:公共云容器服務(wù)》報(bào)告的廠商,阿里云覆蓋Serverless Kubernetes、服務(wù)網(wǎng)格、容器鏡像等九項(xiàng)產(chǎn)品能力,與 AWS 平齊,產(chǎn)品豐富度領(lǐng)先 Google、微軟、IBM 和 Oracle 四家廠商。
隨著容器技術(shù)的逐漸普及,如何評(píng)價(jià)容器性能高低成為業(yè)內(nèi)普遍關(guān)注的議題。針對(duì)行業(yè)痛點(diǎn),中國信息通信研究院發(fā)布的業(yè)內(nèi)首個(gè)超大規(guī)模容器性能測(cè)評(píng)結(jié)果,客觀真實(shí)反映了容器集群組件級(jí)的性能表現(xiàn)。在2020云原生產(chǎn)業(yè)大會(huì)上,阿里云研究員、阿里云原生技術(shù)負(fù)責(zé)人丁宇表示,"阿里云一直致力于推動(dòng)云原生在國內(nèi)的普及,將與信通院一起促進(jìn)中國容器市場(chǎng)的規(guī)范化、標(biāo)準(zhǔn)化發(fā)展。"