12月15日,以“引領(lǐng)分布式云變革 助力灣區(qū)數(shù)字經(jīng)濟(jì)”為主題的全球分布式云大會(huì)在深圳隆重召開,本屆大會(huì)由全球分布式云聯(lián)盟、深圳科技交流服務(wù)中心、深圳市通信學(xué)會(huì)、眾視Tech聯(lián)合主辦。組委會(huì)攜手阿里云、騰訊云、Google Cloud、華為云、螞蟻集團(tuán)、浪潮云、金山云等海內(nèi)外頂尖云計(jì)算團(tuán)隊(duì)和分布式云先鋒企業(yè),為粵港澳大灣區(qū)數(shù)字經(jīng)濟(jì)發(fā)展注入分布式云動(dòng)力,更將中國(guó)分布式云計(jì)算發(fā)展推上全新高度!
近幾年云計(jì)算的發(fā)展如火箭般迅猛,異構(gòu)變革日新月異,這是基礎(chǔ)設(shè)施層明確的發(fā)展趨勢(shì)。基礎(chǔ)設(shè)施的復(fù)雜度越來(lái)越高,同時(shí)也為整個(gè)基礎(chǔ)設(shè)施的統(tǒng)一資源調(diào)度帶來(lái)了極大的挑戰(zhàn)。
如果說(shuō)IaaS層以統(tǒng)一資源調(diào)度以資源為視角和出發(fā)點(diǎn),那么在上層PaaS則需要思考以應(yīng)用為視角,整個(gè)分布式基礎(chǔ)設(shè)施的復(fù)雜度到底會(huì)帶來(lái)哪些更多的挑戰(zhàn)。
異構(gòu)的應(yīng)用如何在異構(gòu)的基礎(chǔ)設(shè)施上進(jìn)行統(tǒng)一管理,這是PaaS層需要思考的重點(diǎn)問(wèn)題。隨著云原生的發(fā)展,企業(yè)在技術(shù)升級(jí)的過(guò)程中伴隨著大量的歷史包袱,這些歷史包袱是所有存量的異構(gòu)功能,這些異構(gòu)功能有以下幾個(gè)特征:技術(shù)架構(gòu)異構(gòu)、通信協(xié)議異構(gòu)、開發(fā)框架異構(gòu),這些存量的應(yīng)用如何在異構(gòu)的基礎(chǔ)設(shè)施上統(tǒng)一納管,背后就涉及到了應(yīng)用的全生命周期,從研發(fā)時(shí)的應(yīng)用改造成本到運(yùn)行時(shí)如何對(duì)異構(gòu)應(yīng)用做統(tǒng)一服務(wù)治理,再到運(yùn)維時(shí)如何對(duì)基礎(chǔ)設(shè)施進(jìn)行統(tǒng)一元數(shù)據(jù)管理,再到基礎(chǔ)設(shè)施之上異構(gòu)的統(tǒng)一變更、統(tǒng)一容災(zāi)、統(tǒng)一應(yīng)急以及統(tǒng)一資金安全,這些都是存在于PaaS層的挑戰(zhàn)。
隨后,馬振雄就三大核心挑戰(zhàn)進(jìn)行了展開。
第一,在越來(lái)越復(fù)雜的異構(gòu)基礎(chǔ)設(shè)施上,存量應(yīng)用和增量應(yīng)用應(yīng)該如何上云?
馬振雄用四個(gè)R總結(jié)了當(dāng)前應(yīng)用上云的概況:
第一個(gè)是Rehost平遷上云,平遷到云服務(wù)器,因?yàn)椴簧婕暗綉?yīng)用本身的重構(gòu),只是把基礎(chǔ)設(shè)施進(jìn)行平遷,改造成本非常低,但它能獲得的價(jià)值也僅僅局限在IaaS。
第二個(gè)Refactor重構(gòu),涉及到應(yīng)用的重構(gòu),改造成本比平遷大,但它可以獲得分布式應(yīng)用的可靠性和可擴(kuò)展性這樣的紅利。
第三個(gè)Rebuild,能夠享受端到端的云原生紅利。
第四個(gè)Replace,徹底替換成SaaS。
四個(gè)R,成本與價(jià)值逐步遞增,同時(shí)成本和價(jià)值之間呈線性正相關(guān),改造成本越高,獲得的價(jià)值越高,企業(yè)存在大量的歷史包袱,歷史包袱五花八門,如果要把這些歷史包袱全部改造成分布式應(yīng)用或者云原生應(yīng)用,背后需要的代價(jià)非常昂貴,很難有一家企業(yè)在短時(shí)間內(nèi)愿意負(fù)擔(dān)起這樣的時(shí)間和成本,徹底將所有的歷史包袱云原生化。
在此基礎(chǔ)上,馬振雄引入第五個(gè)R——Revise服務(wù)網(wǎng)格。Service Mesh能夠?qū)崿F(xiàn)跨平臺(tái)、跨協(xié)議,并且業(yè)務(wù)代碼無(wú)侵入改造,從而快速地將應(yīng)用植入sidecar完成mesh化,獲得分布式紅利、安全可觀測(cè),并且整個(gè)架構(gòu)平滑演進(jìn)。企業(yè)在架構(gòu)升級(jí)過(guò)程中可以按部就班、循序漸進(jìn),并且實(shí)現(xiàn)端到端的安全可信以及端到端的鏈路可觀測(cè)能力。
總結(jié)來(lái)說(shuō)網(wǎng)格服務(wù)首先降低了傳統(tǒng)應(yīng)用改造成分布式、云原生應(yīng)用的成本問(wèn)題;其次是解決了所有企業(yè)新老系統(tǒng)的互聯(lián)互通和統(tǒng)一納管的問(wèn)題;第三是讓企業(yè)應(yīng)用架構(gòu)在升級(jí)過(guò)程變得更平滑;第四是讓所有企業(yè)保留自己存量系統(tǒng)的技術(shù)棧,且保留了企業(yè)自身自主可控性要求。
Forrester長(zhǎng)期以來(lái)對(duì)螞蟻集團(tuán)的創(chuàng)新技術(shù)保持極大的關(guān)注,在分布式云大會(huì)的現(xiàn)場(chǎng), Principal Analyst首席分析師、Serving Technology Executives服務(wù)技術(shù)決策者戴鯤發(fā)布《螞蟻集團(tuán)服務(wù)網(wǎng)格總體經(jīng)濟(jì)影響》,并分享了他對(duì)于Mesh的看法:
“未來(lái)要實(shí)現(xiàn)開發(fā)的智能化,需要通過(guò)微服務(wù)來(lái)進(jìn)行智能化進(jìn)程,不再像以前一樣零敲碎打。對(duì)傳統(tǒng)應(yīng)用進(jìn)行定制化,要通過(guò)網(wǎng)格服務(wù)動(dòng)態(tài)地組裝,實(shí)現(xiàn)云上開發(fā)。我們特別推出了整體經(jīng)濟(jì)影響研究,希望幫助企業(yè)更好地把握不同產(chǎn)品解決方案的能力。
各家企業(yè)都在進(jìn)行數(shù)字化轉(zhuǎn)型,轉(zhuǎn)型的基礎(chǔ)是從穩(wěn)態(tài)到敏態(tài),這種混合架構(gòu)下的治理是非常關(guān)鍵的。我們?cè)L談了螞蟻集團(tuán)的客戶,一家是傳統(tǒng)金融機(jī)構(gòu),一家是互聯(lián)網(wǎng)金融機(jī)構(gòu),它們有不同的開發(fā)環(huán)境,面臨相同挑戰(zhàn),比如基礎(chǔ)設(shè)施升級(jí)換代、應(yīng)用開發(fā)升級(jí)、云上云下交互等方方面面都存在問(wèn)題和挑戰(zhàn)。我們將不同的問(wèn)題和挑戰(zhàn)融合在一起進(jìn)行分析,最終發(fā)現(xiàn),網(wǎng)格服務(wù)從單體應(yīng)用改造成本節(jié)省到運(yùn)維安全管理效率提升等方面都有明顯的收益,我們通過(guò)研究三年數(shù)據(jù)發(fā)現(xiàn),螞蟻集團(tuán)服務(wù)網(wǎng)格的總體投資回報(bào)率達(dá)到99%。大家對(duì)此有興趣可以和螞蟻集團(tuán)聯(lián)系獲得詳細(xì)的信息。
我們還從另外兩個(gè)維度進(jìn)行分析——靈活性和風(fēng)險(xiǎn),靈活性就是在初始的投入和未來(lái)能得到額外的價(jià)值,我們看到技術(shù)團(tuán)隊(duì)有專業(yè)的分工,可以降低上云的門檻,真正實(shí)現(xiàn)全面上云。當(dāng)然任何事情都有風(fēng)險(xiǎn),我們也評(píng)估了這套解決方案相應(yīng)的風(fēng)險(xiǎn)??偨Y(jié)來(lái)看,面對(duì)不確定性的時(shí)代,想適應(yīng)未來(lái)的發(fā)展,必須借助云原生平臺(tái),幫助加速創(chuàng)新進(jìn)展?!?/p>
第二,如果說(shuō)Mesh解決了研發(fā)時(shí)改造成本,和運(yùn)行時(shí)統(tǒng)一服務(wù)治理,那么在異構(gòu)IaaS上,如何統(tǒng)一應(yīng)用運(yùn)維?
螞蟻數(shù)字科技定義了六大能力,包括統(tǒng)一元數(shù)據(jù)管理、統(tǒng)一集群資源管理、統(tǒng)一變更能力、統(tǒng)一應(yīng)急能力、統(tǒng)一容災(zāi)能力,和統(tǒng)一端到端從業(yè)務(wù)、應(yīng)用到基礎(chǔ)設(shè)施的可觀測(cè)能力。
在定義的基礎(chǔ)上,團(tuán)隊(duì)通過(guò)重新定義SRE,實(shí)現(xiàn)統(tǒng)一應(yīng)用運(yùn)維能力。行業(yè)解讀SRE,一般認(rèn)為R是可靠性,團(tuán)隊(duì)結(jié)合螞蟻十幾年來(lái)對(duì)業(yè)務(wù)的可用性和連續(xù)性的極致追求,經(jīng)歷了十幾次雙十一大規(guī)模驗(yàn)證,對(duì)SRE進(jìn)行重新定義,螞蟻的SRE從Reliability轉(zhuǎn)變?yōu)镽isk,螞蟻?zhàn)陨淼谋U象w系以風(fēng)險(xiǎn)為核心,結(jié)合十幾年來(lái)的技術(shù)沉淀,打造了技術(shù)風(fēng)險(xiǎn)保障平臺(tái)TRaaS。也正是因?yàn)槭畮啄瓿恋淼木A,才能讓螞蟻?zhàn)龅綐I(yè)務(wù)、應(yīng)用、基礎(chǔ)設(shè)施運(yùn)維無(wú)人值守,運(yùn)維“自動(dòng)駕駛”。
螞蟻的技術(shù)風(fēng)險(xiǎn)防控體系從上到下分別代表了三個(gè)目標(biāo):高可用、資金安全、低成本,三個(gè)組織保障:團(tuán)隊(duì)、文化、制度,再到需求、研發(fā)、發(fā)布以及監(jiān)控的四條防線,最終沉淀出一套完整的技術(shù)風(fēng)險(xiǎn)保障體系的平臺(tái)能力,整個(gè)平臺(tái)由四個(gè)能力板塊組成,包括了從應(yīng)急、變更到容量、資金安全,應(yīng)急平臺(tái)建立起了以風(fēng)險(xiǎn)為核心的事前、事中、事后的故障風(fēng)險(xiǎn)保障體系,分別對(duì)應(yīng)故障風(fēng)險(xiǎn)檢測(cè)能力、故障定位能力、故障應(yīng)急和自愈能力,以及故障的回溯能力。
同時(shí),螞蟻還建立起了對(duì)于全局?jǐn)?shù)據(jù)中心和系統(tǒng)整體能力瓶頸的自動(dòng)探測(cè)、容量規(guī)劃和容量保鮮能力。最后的資金平臺(tái),螞蟻通過(guò)對(duì)業(yè)務(wù)應(yīng)用無(wú)侵入地建立起了資金核對(duì)第二道防線,幫助企業(yè)徹底規(guī)避資金安全風(fēng)險(xiǎn),減少資損。
馬振雄總結(jié)道,如果說(shuō)第一個(gè)核心的挑戰(zhàn)解決的是研發(fā)態(tài)和運(yùn)行態(tài)的問(wèn)題,第二個(gè)核心挑戰(zhàn)解決運(yùn)維態(tài)問(wèn)題,第三個(gè)核心挑戰(zhàn),要解決的是從整體架構(gòu)上解決容災(zāi)態(tài)的問(wèn)題。
第三,如何在分布式云場(chǎng)景下,讓架構(gòu)原生具備彈性&容災(zāi)能力?
隨著分布式云基礎(chǔ)設(shè)施蓬勃發(fā)展,企業(yè)中心從集中化走向離散化,這意味著企業(yè)任何一個(gè)應(yīng)用隨時(shí)隨地可以跑在全國(guó)的任何一家數(shù)據(jù)中心機(jī)房的任何一個(gè)節(jié)點(diǎn)上,這種變化背后,從應(yīng)用視角來(lái)看,迫切需要整體的系統(tǒng)應(yīng)用架構(gòu),支撐業(yè)務(wù)突破地域和城市級(jí)別的無(wú)限可擴(kuò)展能力。基于螞蟻對(duì)于業(yè)務(wù)連續(xù)性的極致追求,團(tuán)隊(duì)在支撐業(yè)務(wù)發(fā)展過(guò)程中,建立起了金融行業(yè)超大規(guī)模的全局?jǐn)?shù)據(jù)架構(gòu),通過(guò)沉淀,推出異地多活單元化架構(gòu),解決企業(yè)在容災(zāi)、彈性、灰度方面的三大痛點(diǎn)。
容災(zāi)可以支撐企業(yè)的數(shù)據(jù)中心架構(gòu)徹底從單活走向同城三活,再走向多地多活,一個(gè)業(yè)務(wù)單元發(fā)生故障不會(huì)影響到另外一個(gè)業(yè)務(wù)單元。
彈性,由于靈活部署和快速擴(kuò)容機(jī)制,能夠結(jié)合單元的靈活的流量調(diào)撥機(jī)制,真正支撐企業(yè)的數(shù)據(jù)中心突破城市和地域級(jí)別的擴(kuò)展,做到真正意義上的無(wú)限可擴(kuò)展。
灰度,結(jié)合跨單元的路由分發(fā),可以輕易地做到藍(lán)綠單元這樣具有創(chuàng)新的業(yè)務(wù)灰度方式。
多地多活的架構(gòu)非常復(fù)雜,從上至下包含了四層,從接入層做路由規(guī)則和路由分發(fā),到應(yīng)用層的中間件路由,再到數(shù)據(jù)層的數(shù)據(jù)分片和數(shù)據(jù)路由,最后到運(yùn)維層的統(tǒng)一容災(zāi)、統(tǒng)一監(jiān)控、單元拓?fù)洹?/p>
金融行業(yè)結(jié)合案例來(lái)看,主機(jī)下移過(guò)程中需要面臨的重要課題就是如何將核心系統(tǒng)下沉到分布式集群,在分布式集群下移過(guò)程中如何匹配主機(jī)系統(tǒng)性能和穩(wěn)定性,背后很重要的能力就是多地多活架構(gòu)。
螞蟻在面對(duì)核心挑戰(zhàn)過(guò)程中,最終沉淀出新一代分布式云PaaS平臺(tái)SOFAStack,平臺(tái)在金融行業(yè)有非常多的頭部客戶案例,從原生能力就滿足了金融行業(yè)遠(yuǎn)高于其他行業(yè)在容量、性能、規(guī)模、高可用、合規(guī)、降本提效方面的高標(biāo)準(zhǔn)要求。更重要的是SOFAStack來(lái)源于金融行業(yè),但不止于金融行業(yè),螞蟻希望SOFAStack能賦能到更多的行業(yè),完成各行業(yè)企業(yè)數(shù)字化轉(zhuǎn)型。
構(gòu)建起新一代分布式云PaaS平臺(tái),未來(lái)是什么?
馬振雄認(rèn)為,Mesh的未來(lái)會(huì)經(jīng)歷三個(gè)重要的發(fā)展階段:第一個(gè)階段,不止是Service Mesh,還有更多Mesh產(chǎn)品形態(tài)出現(xiàn),在這個(gè)階段,將會(huì)幫助企業(yè)越來(lái)越輕松自主掌控適配異構(gòu)基礎(chǔ)設(shè)施;第二個(gè)階段,在金融異構(gòu)運(yùn)行基礎(chǔ)設(shè)施上,嘗試定義社群或者事實(shí)的API標(biāo)準(zhǔn),這個(gè)標(biāo)準(zhǔn)能讓企業(yè)擁有統(tǒng)一的編程界面,當(dāng)企業(yè)開發(fā)完一個(gè)應(yīng)用,底層的基礎(chǔ)設(shè)施發(fā)生任何變更,對(duì)于應(yīng)用來(lái)說(shuō)都是無(wú)感的。在第二個(gè)階段,Mesh的愿景為一旦應(yīng)用開發(fā)完成,就不再需要做任何變更,只有到了這個(gè)愿景實(shí)現(xiàn),才能真正做到讓一個(gè)應(yīng)用跑在全國(guó)任何一個(gè)機(jī)房虛擬中心節(jié)點(diǎn),并且這個(gè)節(jié)點(diǎn)的向上承載基礎(chǔ)設(shè)施可變;第三個(gè)階段,前兩個(gè)更多的是把基礎(chǔ)服務(wù)、微服務(wù)、數(shù)據(jù)訪問(wèn)這些端到端下沉到基礎(chǔ)設(shè)施外,在第三個(gè)階段要看到的是橫向的下沉,包括資源調(diào)用和系統(tǒng)調(diào)用,在這個(gè)階段,將會(huì)嘗試盡可能把業(yè)務(wù)應(yīng)用里更多和業(yè)務(wù)本身不相關(guān)的邏輯下沉到Sidecar,徹底解放業(yè)務(wù)開發(fā),讓業(yè)務(wù)開發(fā)者關(guān)注能力編程,而不需要關(guān)注底層。
最后,馬振雄表示,螞蟻集團(tuán)一直致力于技術(shù)架構(gòu)前瞻性布局和持續(xù)創(chuàng)新,會(huì)繼續(xù)在基礎(chǔ)異構(gòu)設(shè)施上打磨端到端的可信原生能力,未來(lái),螞蟻希望把SOFAStack打造成各行各業(yè)數(shù)字化轉(zhuǎn)型的跨云操作系統(tǒng)。