亞太內(nèi)容分發(fā)大會(huì)暨CDN峰會(huì)一直致力于推動(dòng)CDN產(chǎn)業(yè)深度融合發(fā)展和市場(chǎng)普及,現(xiàn)已成為亞太地區(qū)影響力最大的內(nèi)容分發(fā)網(wǎng)絡(luò)盛會(huì)。十年來,在以阿里云、網(wǎng)宿科技、騰訊云等亞太CDN產(chǎn)業(yè)聯(lián)盟成員孜孜不輟的努力下,CDN產(chǎn)業(yè)已經(jīng)成為基礎(chǔ)性設(shè)施網(wǎng)絡(luò),以堅(jiān)定的基石之姿,支撐起中國(guó)成為世界最大的互聯(lián)網(wǎng)市場(chǎng)。
隨著全球數(shù)字化、“一帶一路”戰(zhàn)略的推進(jìn),亞太內(nèi)容分大會(huì)暨CDN峰會(huì)的影響力正在逐漸向全球延伸,同時(shí)也將中國(guó)智造CDN及產(chǎn)業(yè)鏈推廣向全球每一個(gè)角落。
在6月10日下午舉辦的【對(duì)象存儲(chǔ)論壇】上,阿里巴巴資深技術(shù)專家、對(duì)象存儲(chǔ)OSS負(fù)責(zé)人 羅慶超發(fā)表了題為《對(duì)象存儲(chǔ)OSS支撐CDN場(chǎng)景的經(jīng)驗(yàn)教訓(xùn)》的精彩演講。
羅慶超從多個(gè)角度出發(fā),講解了阿里云對(duì)象存儲(chǔ)OSS和CDN結(jié)合過程當(dāng)中的總結(jié)和教訓(xùn)。
一 如何提高互聯(lián)網(wǎng)全球訪問體驗(yàn)
提高互聯(lián)網(wǎng)全球訪問體驗(yàn),需要全球部署的CDN網(wǎng)絡(luò)支持,而在雙十一這樣的特殊節(jié)日怎樣提高用戶體驗(yàn)?zāi)??羅慶超表示可以通過L1-L2-L3緩存再回到源站實(shí)現(xiàn),源站不能是唯一的,要在不同的國(guó)家和地區(qū)構(gòu)建源站,在此基礎(chǔ)上構(gòu)建圈層。尤其是在海外,根據(jù)國(guó)家地區(qū)的網(wǎng)絡(luò)的情況去甄別出50毫秒的圈層、100毫秒圈層等,通過圈層部署源站,再搭建L1、L2、L3緩存,這樣應(yīng)用才能達(dá)到秒開效果。對(duì)象存儲(chǔ)作為CDN源站是非常好的選擇,阿里云對(duì)象存儲(chǔ)OSS支持了淘寶、支付寶等阿里絕大部分應(yīng)用,支持了CDN百Tbps級(jí)別的全球訪問流量。
二 如何保護(hù)數(shù)據(jù)隱私和安全防護(hù)
如果沒有為APP做安全隔離設(shè)計(jì),數(shù)據(jù)就面臨泄露的隱患。2020年,全球發(fā)生了2932起安全泄露事件,泄露記錄達(dá)到370億條。為了防護(hù)黑客攻擊,對(duì)象存儲(chǔ)的數(shù)據(jù)隱私、簽名都要做防護(hù)。
OSS提供云認(rèn)證體系、訪問授權(quán)功能,數(shù)據(jù)可以只被指定賬號(hào)使用、指定IP訪問,通過日志還可提供訪問審計(jì)。除了數(shù)據(jù)隱私被授權(quán)訪問外,還需要面對(duì)應(yīng)用突然爆發(fā)帶來的影響,例如游戲類客戶被競(jìng)爭(zhēng)對(duì)手攻擊,瘋狂下載客戶的圖片、視頻,讓費(fèi)用陡然增高,之后欠費(fèi)停服。因此在CDN層面和對(duì)象存儲(chǔ)層面,一定要做到防攻擊,特別是是CC攻擊、DDOS攻擊能力,同時(shí)OSS提供用戶帶寬上限、單鏈接限速、沙箱防護(hù)等特性,發(fā)現(xiàn)誰攻擊就直接把攻擊來源拉入黑洞,讓攻擊方無法攻擊整個(gè)系統(tǒng)。
三 如何保證數(shù)據(jù)不丟
訪問的數(shù)據(jù)不存在會(huì)導(dǎo)致業(yè)務(wù)失敗,數(shù)據(jù)丟失對(duì)于企業(yè)的影響非常大,據(jù)統(tǒng)計(jì)如果企業(yè)丟數(shù)據(jù)10天,則 93% 的企業(yè)將會(huì)在一年內(nèi)倒閉。
沒有數(shù)據(jù)可靠性衡量標(biāo)準(zhǔn),對(duì)于云廠商來說是不可接受的,因此阿里云OSS定義了云可靠性度量的指標(biāo)。通常業(yè)界對(duì)象存儲(chǔ)是11個(gè)9的年可靠性標(biāo)準(zhǔn),表示每年可丟失0.000000001%對(duì)象,這是可度量的值和廠家明確的定義,可以通過該標(biāo)準(zhǔn)來判斷可靠性是否滿足業(yè)界要求。
存儲(chǔ)服務(wù)是云服務(wù)中最基礎(chǔ)的,有了這個(gè)標(biāo)準(zhǔn)之后就可以讓SaaS、PaaS放心使用。OSS經(jīng)過優(yōu)化,把這一指標(biāo)提高了10倍,其中有不少關(guān)鍵技術(shù),例如降低年故障率AFR,故障率降低修復(fù)的代價(jià)就越?。豢鐢?shù)據(jù)中心的算法,實(shí)現(xiàn)數(shù)據(jù)中心損壞依然有方法把數(shù)據(jù)找回來,通過這些技術(shù)把可靠性標(biāo)準(zhǔn)提高。
四 保證數(shù)據(jù)不錯(cuò)
數(shù)據(jù)錯(cuò)誤存在于以下場(chǎng)景中:使用IT設(shè)備的時(shí)候經(jīng)常會(huì)遇到這樣的問題,硬盤發(fā)生靜默錯(cuò)誤,一塊硬盤放置了幾年,文件無法找回了,原因是存在硬盤中的介質(zhì)數(shù)據(jù)是會(huì)翻轉(zhuǎn)的,數(shù)據(jù)翻轉(zhuǎn)的影響非常大,尤其對(duì)于金融系統(tǒng),1翻轉(zhuǎn)成0帶來的影響和損失不可估量。因?yàn)橐?guī)模非常大,除了硬盤靜默數(shù)據(jù)錯(cuò)誤外,也會(huì)發(fā)現(xiàn)服務(wù)器的網(wǎng)卡翻轉(zhuǎn),以及CPU的靜默數(shù)據(jù)損壞。其中CPU靜默數(shù)據(jù)損壞最難處理,谷歌和臉書都發(fā)表了相關(guān)論文,阿里也正在和高校合作一起探索解決該問題。
除了硬件錯(cuò)誤外還有軟件錯(cuò)誤,特別是軟件BUG會(huì)導(dǎo)致數(shù)據(jù)丟失,如果元數(shù)據(jù)收到影響,則可能從一臺(tái)機(jī)器擴(kuò)散到一個(gè)集群,甚至被數(shù)據(jù)復(fù)制功能擴(kuò)展到全球整個(gè)服務(wù),所以數(shù)據(jù)出錯(cuò)是非常困難的一件事。通過數(shù)據(jù)校驗(yàn)設(shè)計(jì),端到端全流程跟蹤數(shù)據(jù)錯(cuò)誤。單純依靠主動(dòng)防護(hù)檢查是不夠的,還需假設(shè)數(shù)據(jù)就會(huì)出錯(cuò)來設(shè)計(jì)防護(hù)機(jī)制,特別是快速檢測(cè)BUG、快速修復(fù)數(shù)據(jù),將整個(gè)機(jī)制有機(jī)結(jié)合起來,才能真正的保證數(shù)據(jù)在軟、硬件異常時(shí)不丟不錯(cuò)。
五 如何提高數(shù)據(jù)訪問成功率
提高訪問成功率,可以提高APP的用戶體驗(yàn)。阿里云支撐業(yè)界APP的應(yīng)對(duì)方法就是提供99.995%的可用性SLA。日常生活中APP訪問成功率影響體驗(yàn)的場(chǎng)景,就是去掃碼支付時(shí),一直不成功無法交易。當(dāng)今的國(guó)民級(jí)APP應(yīng)用一旦出現(xiàn)不可用,并且超過30分鐘,肯定引起重大輿情。
解決這一問題,需要使用可用性SLA度量指標(biāo),業(yè)界對(duì)象存儲(chǔ)典型的可用性SLA為99.9%,而OSS依靠大量的冗余架構(gòu)設(shè)計(jì),將該指標(biāo)提升了10倍以上,達(dá)到99.995%,從而支撐上層APP達(dá)到5個(gè)9的可用性。除了冗余架構(gòu)設(shè)計(jì)外,基于公共云的DEVOPS機(jī)制,快速迭代、優(yōu)化問題、智能運(yùn)維都是幫助異??焖倩謴?fù)的關(guān)鍵機(jī)制。
六 如何提升容災(zāi)能力
針對(duì)光纖挖斷、地質(zhì)災(zāi)害等意外帶來的數(shù)據(jù)中心級(jí)故障OSS做了容災(zāi)設(shè)計(jì),從一個(gè)數(shù)據(jù)中心將數(shù)據(jù)復(fù)制到另一個(gè)數(shù)據(jù)中心,從而保證業(yè)務(wù)連續(xù)性。
為了讓多個(gè)數(shù)據(jù)中心同時(shí)提供服務(wù),OSS還提供異地多活解決方案,它結(jié)合跨地域復(fù)制和鏡像回源功能,數(shù)據(jù)從主站寫入,OSS然后復(fù)制到備站,然后就可以在三個(gè)數(shù)據(jù)中心讀取數(shù)據(jù)。當(dāng)在備站讀取時(shí)沒有得到最新數(shù)據(jù),那么采用鏡像回源去主站讀取最新數(shù)據(jù)。阿里云上有大量應(yīng)用采取異地多活的方案,提高了數(shù)據(jù)容災(zāi)能力同時(shí),提供多活功能,實(shí)現(xiàn)高可用。
七 解決海量數(shù)據(jù)擴(kuò)展性
通過業(yè)務(wù)使用數(shù)據(jù)的方式來看,目錄層級(jí)設(shè)計(jì)是限制文件系統(tǒng)擴(kuò)展的瓶頸,特別是到了百萬億量級(jí),使用目錄的方式非常難。對(duì)象存儲(chǔ)OSS采用平坦模式管理數(shù)據(jù),在EB級(jí)規(guī)模下實(shí)現(xiàn)線性擴(kuò)展、按需付費(fèi)、讀寫高效。
八 如何優(yōu)化性能
數(shù)據(jù)存入對(duì)象存儲(chǔ)后,還要關(guān)注性能,特別是帶寬、QPS、時(shí)延。所以在對(duì)象存儲(chǔ)設(shè)計(jì)時(shí),要對(duì)這三方面的性能進(jìn)行全方位考慮,找出數(shù)據(jù)熱點(diǎn)、時(shí)延抖動(dòng)原因,針對(duì)瓶頸進(jìn)行優(yōu)化,從而實(shí)現(xiàn)高性能。針對(duì)數(shù)據(jù)湖場(chǎng)景還提供性能加速器,它靠近計(jì)算的可用區(qū)部署,讓帶寬和時(shí)延都得到更好的滿足。
九 如何高效處理數(shù)據(jù)
羅慶超以內(nèi)容分發(fā)為例,該場(chǎng)景需要大量處理圖片、視頻、文檔,分發(fā)給不同的終端,將不同尺寸的圖片在CDN全部緩存,成本很高??梢栽谛枰獣r(shí),才對(duì)圖片進(jìn)行實(shí)時(shí)處理,此時(shí)使用OSS的圖片處理功能按需進(jìn)行圖像處理,從而減少在海量的CDN節(jié)點(diǎn)來處理圖片,大大降低計(jì)算成本。
OSS在數(shù)據(jù)中心內(nèi)提供數(shù)據(jù)就近處理框架,該框架支持多種運(yùn)行環(huán)境,能夠卸載各種算子,支持實(shí)時(shí)、離線處理,大幅度優(yōu)化存儲(chǔ)、網(wǎng)絡(luò)、計(jì)算成本,這就是做OSS數(shù)據(jù)處理背后的設(shè)計(jì)邏輯。
十 如何提升優(yōu)化圖片體驗(yàn)
通過OSS訪問對(duì)象的url后面指定參數(shù),就可以完成圖片處理,非常簡(jiǎn)單易用,可以稱的上是云上PS,無需本地安裝圖片處理軟件、非常高效,目前支持6種類型的格式,并且通過加速之后時(shí)延下降80%-90%。
十一 如何提升優(yōu)化視頻體驗(yàn)
如用戶想對(duì)視頻進(jìn)行截圖,然后進(jìn)行協(xié)作編輯,調(diào)用OSS的視頻處理就非常合適。只需要在OSS訪問對(duì)象的url后指定視頻截幀參數(shù)即可。整個(gè)處理都是在后端,對(duì)成本、時(shí)延、體驗(yàn)都非常好,阿里云上有大量視頻團(tuán)隊(duì)調(diào)用該能力處理數(shù)據(jù)。
十二 如何提升優(yōu)化文檔體驗(yàn)
處理文檔方面,可以直接在對(duì)象存儲(chǔ)上實(shí)現(xiàn)文檔的預(yù)覽和轉(zhuǎn)換,應(yīng)用最多的就是釘釘?;卺斸擜PP,手機(jī)上不裝任何文檔處理軟件,就可以實(shí)現(xiàn)48種文件的預(yù)覽,而實(shí)際上整個(gè)預(yù)覽都在OSS上完成。文檔轉(zhuǎn)換場(chǎng)景,使用最多的就是生活中開發(fā)票,其背后就是文檔轉(zhuǎn)換,將發(fā)票抬頭、稅號(hào)、紅印章在word文檔中編輯,然后轉(zhuǎn)換成PDF格式,大量線上做文檔轉(zhuǎn)換公司也在采用該技術(shù)。
十三 如何優(yōu)化成本
如何降低成本是客戶非常關(guān)心的問題,每年SS重要的任務(wù)就是和業(yè)務(wù)團(tuán)隊(duì)討論成本怎樣優(yōu)化。從訪問的路徑可以看到,CDN從L1緩存、L2緩存、L3緩存、再回到源站OSS,在整條路徑上拉專線,就能降低成本。第二個(gè)路徑,如果訪問CDN命中率低,客戶端可以直接訪問OSS,它減少了訪問的網(wǎng)絡(luò)路徑從而成本更優(yōu),因此根據(jù)命中率優(yōu)化訪問路徑也是降成本的重要手段。
十四 如何做好數(shù)據(jù)管理
數(shù)據(jù)治理,核心是根據(jù)數(shù)據(jù)的熱度進(jìn)行有效的成本優(yōu)化。不少互聯(lián)網(wǎng)應(yīng)用都具有熱點(diǎn)效應(yīng),數(shù)據(jù)集中在幾周或一個(gè)月內(nèi)高頻訪問,之后很少使用。因此,熱點(diǎn)數(shù)據(jù)使用性能最好的標(biāo)準(zhǔn)型,價(jià)格高、性能好;訪問較少的數(shù)據(jù),保存到歸檔性,價(jià)格低、性能弱。數(shù)據(jù)治理時(shí),就要根據(jù)數(shù)據(jù)的冷熱度,配置生命周期策略,OSS自動(dòng)將標(biāo)準(zhǔn)型數(shù)據(jù)遷移為歸檔型數(shù)據(jù),從而讓整體成本更低。
羅慶超最后表示,數(shù)據(jù)治理是對(duì)象存儲(chǔ)中很關(guān)鍵的技術(shù),也是很愿意和同仁們一起分享討論的技術(shù)點(diǎn)。