十大災備問題拷問云服務供應商 |
發(fā)布時間: 2012/8/10 14:11:04 |
摘要: 用戶可以向其云服務供應商提出以下十個問題,以保護自身的利益,例如你的基線正常運行時間SLA是否滿足我的業(yè)務需求、如何定義“正常運行時間”和“停機”等。
關鍵詞: 云服務 云計算
近日,雷電導致部分亞馬遜網絡服務(AWS)出現(xiàn)中斷,讓Netflix、Pinterest和Instagram等網站無法訪問,造成嚴重經濟損失。根據(jù)云計算彈性國際工作組(IWGCR)表示,自2007年以來,共有13個知名的云服務商發(fā)生過宕機事件,總計停機時間達568小時,總經濟損失達到7170萬美元。IWGCR表示,每年平均停機時間為7.5小時,可用性僅為99.9%,遠遠低于關鍵任務系統(tǒng)所需要的可用性(99.999%)。Schnader, Harrison, Segal & Lewis公司業(yè)務服務部門合作伙伴Kevin C. Taylor表示:“廉價的云服務可能最終帶來昂貴的代價。”
雖然典型的云服務合同包含正常運行時間條款和服務水平協(xié)議的條款,但他們往往未能充分包含企業(yè)客戶。服務水平協(xié)議(SLA)賠償上限通常只是一定比例的每月服務費的,“對于與生產應用程序停機相關的業(yè)務損失,不予以賠償,”Taylor表示,“即使是對于嚴重的持續(xù)停機故障,賠償金額都只有約2萬美元,這與停機對客戶的經濟損失相比,簡直很可笑,客戶的經濟損失可能達到數(shù)百萬。”
聰明的用戶可以向其云服務供應商提出以下十個問題,以保護自身的利益。
1.你的基線正常運行時間SLA是否滿足我的業(yè)務需求?
云服務供應商的99.9%正常運行時間SLA將會讓習慣于五個9(99.999%正常運行時間)的用戶感到失望。“這是用戶需要向云服務供應商提出的第一個問題,看看他們能否做得更好,”外包分析公司HfS Research公司外包安全和風險策略研究主管Jim Slaby表示,“用戶還應該對合同中每項服務的恢復點和恢復時間目標進行協(xié)商。”你將需要支付更多費用,99.999%可用性需要典型的雙主動服務配置,而這意味著每個月增加50%的服務費用。
2.你如何定義“正常運行時間”和“停機”?
“聰明的用戶需要完全弄清楚到底怎樣算是停機,”K&L Gates律師事務所合作伙伴Todd A. Fisher表示,“是否意味著5%的最終用戶會受到影響?或者25%?或者50%?如果系統(tǒng)沒有停機,但是運行速度非常緩慢,導致最終用戶無法有效地完成工作,這樣算停機故障碼?”
很多云供應商提供了一個正常運行時間保障的排除情況列表,包括緊急情況,15分鐘以內的中斷,以及一天的某些事件的可用性等。Slaby表示:“用戶需要弄清楚這些不被視為停機的排除情況,以確保讓供應商進行日常維護。”
要提防過于寬泛的排除情況。例如,外包咨詢公司Pace Harmon主管Dr. Jonathan Shaw表示,電信中斷經常被排除在外,因為客戶本身購買的服務和供應商(應該提供冗余電信架構以防止單點故障)提供的服務之間沒有明顯的區(qū)別,所以很難判斷究竟是哪一方的中斷。Shaw表示:“你會看到‘緊急維護’也被排除在外,而且對于何時供應商能夠進行緊急維護并沒有限制,這意味著他們可以隨時用緊急維護這個借口,來掩飾服務中斷。” 3. 如何定義“天災”?
大多數(shù)云服務合同還會排除不可抗力事件,即不在供應商合理控制范圍之內的事件,例如自然災害、戰(zhàn)爭和罷工等。“不可抗力事件可以讓供應商逃脫責任,包括SLA,”Schnader公司的Taylor表示,“用戶應該對不可抗力的狹隘定義與服務供應商進行協(xié)商。”
4.你的云環(huán)境的穩(wěn)定性如何?
Shaw建議對所有云解決方案執(zhí)行技術盡職調查,以評估重大中斷事件的風險?纯丛品⻊帐侨绾渭軜嫷。其數(shù)據(jù)中心是否位于地震斷層線上或者位于政治局勢不穩(wěn)定的國家?
5.你的災難恢復計劃是什么?
Slaby表示,“用戶應該深入挖掘這方面的信息。”要求對云服務供應商進行實地考察和審核,以評估供應商的可實現(xiàn)恢復時間和恢復點,并將結果用于計算潛在災難對你的企業(yè)的影響。Shaw表示,“如果云解決方案不能足夠快地恢復云應用程序,以避免危害業(yè)務的事件,這就可以排除這家云服務供應商了。”
6.你隔多久會對這個計劃進行測試?
“擁有一個災難恢復和業(yè)務連續(xù)性計劃,并不能保證災難發(fā)生時,能夠最小化停機時間,”Fisher表示,“不幸的是,一些供應商并不會定期測試他們的災難恢復計劃,使他們無法有效應對災難。”聰明的用戶會將半年度災難恢復測試涵蓋在云服務合同中,迫使供應商向用戶公布測試結果,并糾正發(fā)現(xiàn)的問題。
7.部署的最佳選擇是什么?
AWS最近遭受的中斷僅發(fā)生在美國東海岸的某些設施中。因此,一些客戶都不知道這件事,而其他人沒有受到影響。Shaw表示,“這種差異的重要因素是客戶是如何部署其云應用程序的。”AWS允許客戶在不同可用性區(qū)域彈性負載平衡器來部署云組件(處理、存儲、數(shù)據(jù)庫)來路由流量。Shaw表示,“客戶可以通過在不同可用性區(qū)域部署多個ELB來減少單點故障,以及使用域名系統(tǒng)查詢來提供故障轉移。”
8. 當發(fā)生災難時,我能否跳到前列?
在災難發(fā)生時,供應商將奮力使數(shù)百名或者數(shù)千名客戶重新聯(lián)機。Fisher表示,“如果盡快恢復聯(lián)機對于你很重要的話,你需要考慮支付額外的費用來享受這種待遇。”
9.如果我不滿意的話,我能離開嗎?
無論停機原因是什么,如果供應商在預定時間內不能恢復服務,用戶應該堅持增加一個條款,以避免讓供應商逃脫這方面的責任。Shaw表示:“最糟糕的情況是,為云服務支付多年費用,而無法選擇離開。”
10. 我能看看你的企業(yè)信息嗎?
天災、軟件漏洞和繁重的流量不是可靠云服務面臨的唯一風險。企業(yè)本身也可能出事。“如果云服務供應商破產,停止提供服務,SLA將不能給你任何保障,”Shaw表示,“所以我們建議你對供應商進行財務盡職調查和業(yè)務分析。” 本文出自:億恩科技【www.cmtents.com】 |